Ireport ang Bug / Pangutana sa Kahimoan

Sa palibot sa Kūh-e Sūh.

Pag-convert sa teksto ngadto sa natural nga tingog nga panultihon uban sa open-source AI models. Libreng gamiton, walay account nga gikinahanglan.

Sa palibot sa Freeman.

Hapit nalukop sa kasagbotan ang palibot sa Language Mine.Ang klima kasarangan. Sa palibot sa La Voz.

0/500 mga karakter · Adunay 5,000 ka molupyo. →

Sa palibot sa Aïn Ouaïd. Limitahan sa 5,000 ka karakter

Sa palibot sa Smrč. (Espesye sa tanom nga bulak ang Lingonberry fine.)

Ang yuta palibot sa Ssm kay medyo kabukiran.

<speak><prosody rate="slow">Slow speech</prosody></speak>

Lungsod ang Stili sa Gresya.

Ang mga tag sa gipili nga modelo makasabut - i-klik aron ihulog ang usa sa imong teksto diin kini mahitabo:

Sa palibot sa Diccionario

Ang yuta palibot sa Cerro La Pronunciación kay lain-lain.

Pitch 0

-12 +12

Sa palibot sa Model.

Tingog

Linggwahe

Format sa output

Katulin 1.0x

0.5x 2.0x

Sa rehiyon palibot sa Piper, mga lawis talagsaon komon.

Ang imong na-generate nga audio mopakita dinhi. Pilia ang usa ka modelo, i-type ang teksto, ug i-klik ang Genere.

Mga detalye sa modelo

Kokoro

Free

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Pag-uswag:	Hexgrad
Lisensya:	Apache 2.0
Katulin	Sa palibot sa Fast.
Kalidad:
Mga pinulongan	8 Mga pinulongan
VRAM	1.5GB
Sa palibot sa Klondike.	Wala gisuportahan

Mga kinaiya:

82M parameters Ultra-fast Expressive voices Multilingual Streaming support

Sa palibot sa:: High-quality TTS with minimal latency, streaming applications

Espesye sa langaw ang Simulium bonariense.

Espesye sa tanom nga bulak ang Impatiens naturalis.
Espesye sa tanom nga bulak ang Asplenium clareum.
Idugang ang mga punto aron makahimo og mga mubo nga paglabay tali sa mga pangungusap
Espesye sa tanom nga bulak ang Epilobium longum.
Ang yuta palibot sa Cox Number Two Mine kay medyo kabukiran.
Paggamit Dia alang sa multi-speaker dialog ug podcast nga sulud

Paggamit sa mga karakter

Tigre	Sa palibot sa Cost.
Libre	1:1 (sa Pranses)
Sa palibot sa Standard.	2x mga karakter
Premium	4x mga karakter

Palihug i-klik ang

Ang yuta sa Punta Texto kay lain-lain.

Ang mga propesyonal nga kalidad sa voiceovers sa tulo ka yano nga mga lakang.

Lakang 1

Isulat ang imong teksto

I-type, i-paste, o i-upload ang teksto nga gusto nimong i-convert ngadto sa tingog. Gisuportahan ang 5,000 ka karakter matag henerasyon alang sa libre nga mga account, o 100,000 alang sa bayad nga mga plano. Paggamit sa plain text o pagdugang SSML tags alang sa advanced nga kontrol sa pagpamulong, pauses, ug emphasis.

Lakang 2

Pilia ang Modelo ug Tingog

Pilia gikan sa 20+ AI modelo sa ibabaw sa tulo ka mga tier. Pilia ang usa ka tingog nga mouyon sa imong mga sulod, pagpili sa imong target nga pinulongan, adjust playback speed gikan sa 0.5x ngadto sa 2.0x, ug pagpili sa imong gitinguha nga output format (MP3, WAV, OGG, o FLAC).

Lakang 3

I-download ang

I-klik ang Pagbugkos ug ang imong audio andam na sa mga segundo. Pagtan-aw sa built-in player, pag-download sa imong gipili nga format, o pagkopya sa usa ka ibahagi nga link. Paggamit sa API alang sa batch processing ug integration sa imong workflow.

Ang yuta sa Punta de la Palapa kay lain-lain.

Ang mga tanom sa palibot sa Textile Reservoir kay hapit tanan kasagbotan ang ulohan sa nasod.

Audiobook

Pag-usab sa tibuok nga mga libro ngadto sa natural nga-nagsugod audiobooks uban sa studio-kalidad nga narration. Multi-mga tingog sa suporta uban sa Dia alang sa mga karakter sa dialogue.

Sa palibot sa Video.

Sa rehiyon palibot sa YouTube, mga kanal, mga lapyahan, mga lawis, ug mga lapyahan talagsaon komon.Ang klima umogon ug subtropikal.

Podcast

Pag-generate sa mga podcast episode gikan sa mga script nga adunay daghang mga tingog sa AI. Paggamit Dia alang sa natural nga duha ka tingog nga mga panagsulti.

Mga dula

Sa rehiyon palibot sa New York City, mga kanal, mga lanaw, mga lapyahan, ug mga luuk talagsaon komon.

E-learning

Konvert sa kurso nga mga materyal, mga lektura, ug mga training nga mga sulod ngadto sa audio. Multi-language support alang sa global nga mga plataporma.

Aksesibilidad

Pag-access sa mga website, dokumento, ug mga app. Screen reader API integration ug article-to-audio conversion.

Lungsod ang Ivars sa Lyetuwanya.

Sa rehiyon palibot sa I-n-Ait-I-Aï, mga lawis talagsaon komon.Ang klima umogon ug subtropikal.

Media

Ang Wikimedia Commons may mga payl nga may kalabotan sa: YouTube YouTube mao ang usa ka social networking site.

Sa palibot sa Streamline.

Sa rehiyon palibot sa T-100-1

Sa palibot sa Marketing.

Sa rehiyon palibot sa Advertising, mga kanal, mga lanaw, ug mga lapyahan talagsaon komon.Ang klima umogon ug subtropikal.

Lungsod ang Dubovac sa Esklobeniya.

Ang mga tanom sa palibot sa Number 30 Reservoir kay hapit tanan kasagbotan ang ulohan sa nasod.Ang klima umogon ug subtropikal.

Lungsod ang Medinilla sa Espanya.

Sa rehiyon palibot sa Sleepy Head, mga lawis, mga luuk, ug mga lapyahan talagsaon komon.

Tan-awa ang tanan nga mga kaso sa paggamit ug mga himan

Ang yuta sa Speech Point kay lain-lain.

Detailed specifications for every AI model available on TTS.ai. Compare quality, speed, language support, and features to find the perfect model for your project.

Kokoro

Free

Ang Kokoro usa ka 82 milyon nga parameter nga modelo sa teksto-sa-pagsulti nga maayong nagpunting sa ibabaw sa iyang gibug-aton nga klase. Bisan pa sa iyang gamay nga gidak-on, kini naghimo sa talagsaong natural ug ekspresibo nga pakigsulti. Ang Kokoro nagsuporta sa daghang mga pinulongan lakip ang Ingles, Hapon, Intsik, ug Koreano nga adunay lainlaing ekspresibo nga tingog. Kini nagdagan nga dili makatarunganon nga dali — nga naghimo sa audio nga halos 100x nga mas dali kaysa sa real-time sa usa ka GPU.

Pag-uswag::
Hexgrad

Lisensya::
Apache 2.0

Katulin:
Sa palibot sa Fast.

Kalidad::

Mga pinulongan:
en, ja, zh, fr, it, pt, es, hi

VRAM:
1.5GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
Libre

Adunay 82,000 ka molupyo. Sa palibot sa Ultra-Fast. Sa palibot sa Voci. Multilingual Sa palibot sa Suport.

Sa palibot sa:: Sa rehiyon palibot sa Miniature Lake, mga lanaw talagsaon komon.

Sa palibot sa Try. Kokoro

Piper

Free

Ang Piper usa ka lightweight text-to-speech engine nga gipalambo sa Rhasspy nga gigamit ang VITS ug larynx architectures. Kini modagan bug-os sa CPU, nga naghimo niini nga ideal alang sa mga aparato sa edge, home automation, ug mga aplikasyon nga nagkinahanglan sa offline TTS.

Pag-uswag::
Rhasspy

Lisensya::
MIT

Katulin:
Sa palibot sa Fast.

Kalidad::

Mga pinulongan:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi, ca, cy, fa, lv, sl, lb, eu, id, ku, ml, sq, te, ur

VRAM:
0 (CPU only)

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
Libre

Sa palibot sa Cp. Offline nga mga kapilian Adunay 100 ka molupyo. Adunay 35 ka molupyo. Sa palibot sa Smrč.

Sa palibot sa:: Mabilis nga mga pagtan-aw, accessibility, ug mga gi-embed nga mga aplikasyon

Sa palibot sa Try. Piper

VITS

Free

Ang VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) usa ka paralelo nga end-to-end nga TTS nga pamaagi nga nagdala sa mas natural nga tunog nga audio kay sa karon nga duha ka yugto nga mga modelo.

Pag-uswag::
Jaehyeon Kim et al.

Lisensya::
MIT

Katulin:
Sa palibot sa Fast.

Kalidad::

Mga pinulongan:
en, de, es, fr, pt, nl, fi, hu, bg, ja, pl

VRAM:
1GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
Libre

Espesye sa langaw ang Simulium terminale. Espesye sa langaw ang Prosoma naturalis. Espesye sa langaw ang Simulium insignis. Sa palibot sa Mīl-e Sūkh.

Sa palibot sa:: Espesye sa tanom nga bulak ang Procopius naturalis.

Sa palibot sa Try. VITS

MeloTTS

Free

MeloTTS sa MyShell.ai mao ang usa ka multilingual TTS librarya nga suporta sa English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, ug Korean. Kini mao ang kaayo nga dali, sa pagproseso sa teksto sa duol sa real-time speed sa CPU lang. MeloTTS mao ang gidisenyo alang sa paggamit sa produksyon ug suporta sa duha ka CPU ug GPU inference.

Pag-uswag::
MyShell.ai

Lisensya::
MIT

Katulin:
Sa palibot sa Fast.

Kalidad::

Mga pinulongan:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
Libre

CPU-optimized Multilingual Espesye sa langaw ang Simulium multifasciatum. Sa palibot sa Produksyon. Sa palibot sa Lategan.

Sa palibot sa:: Espesye sa tanom nga bulak ang Multiphyllum multiflorum.

Sa palibot sa Try. MeloTTS

Bark

Standard

Bark sa Suno mao ang usa ka transformer-based nga teksto-sa-audio nga modelo nga mahimo sa paghimo sa taas nga realistiko, multilingual nga mga pulong ingon man usab sa uban nga audio sama sa musika, background nga ingay, ug sa tingog nga mga epekto. Kini mahimo sa paghimo sa nonverbal nga komunikasyon sama sa pag-ingon, pag-ingon, ug pag-ingon. Bark suporta sa ibabaw sa 100 speaker presets ug 13+ nga mga pinulongan.

Pag-uswag::
Suno

Lisensya::
MIT

Katulin:
Patag

Kalidad::

Mga pinulongan:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
2x

Sa palibot sa Sound Effect. Sa palibot sa Râs el-Aïd. Espesye sa langaw ang Simulium musicale. Adunay 100 ka molupyo. Multilingual

Sa palibot sa:: Sa rehiyon palibot sa Audio, mga lawis talagsaon komon.

Sa palibot sa Try. Bark

Bark Small

Standard

Ang mga tanom sa palibot sa Little Lake kay hapit tanan kasagbotan ang ulohan sa nasod.Ang klima umogon ug subtropikal.Ang klima umogon ug subtropikal.

Pag-uswag::
Suno

Lisensya::
MIT

Katulin:
Medium

Kalidad::

Mga pinulongan:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
2x

Sa palibot sa Lighthouse. Espesye sa langaw ang Forcipomyia barkeri. Sa palibot sa Emo. Multilingual

Sa palibot sa:: Ang yuta palibot sa Cerro Largo kay medyo kabukiran.

Sa palibot sa Try. Bark Small

CosyVoice 2

Standard

Ang CozyVoice 2 sa Alibaba's Tongyi Lab makab-ot human-comparable speech kalidad uban sa dako nga ubos nga latency, nga naghimo niini nga ideal alang sa real-time nga mga aplikasyon. Kini gigamit sa usa ka katapusan nga scalar quantization pamaagi alang sa streaming sintesis ug suporta zero-shot tingog cloning, cross-lingual nga sintesis, ug fine-grained emosyon control.

Pag-uswag::
Alibaba (Tongyi Lab)

Lisensya::
Apache 2.0

Katulin:
Medium

Kalidad::

Mga pinulongan:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
2x

Sa palibot sa Streamline. Espesye sa langaw ang Simulium clonatum. Sa palibot sa Linguini. Sa palibot sa Emo. Parokya ang Parramatta sa Awstralya.

Sa palibot sa:: Sa rehiyon palibot sa T-S

Sa palibot sa Try. CosyVoice 2

Dia TTS

Standard

Dia sa Nari Labs mao ang usa ka 1.6B parameter text-to-speech modelo nga gidisenyo alang sa pagmugna sa multi-speaker dialogue. Kini mahimo sa paghimo sa natural nga-suod nga mga panag-istoryahanay tali sa duha ka mga mag-uuma uban sa angay nga turn-taking, prosody, ug emotional expression. Dia mao ang hingpit alang sa paghimo sa podcast-style nga mga sulod, audiobook dialogues, ug interaktif nga conversational AI.

Pag-uswag::
Nari Labs

Lisensya::
Apache 2.0

Katulin:
Medium

Kalidad::

Mga pinulongan:
en

VRAM:
4GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
2x

Multi-speaker Pagkabahinbahin Espesye sa langaw ang Turdus turturdus. Espesye sa langaw ang Simulium emolliens. Adunay 1,667 ka molupyo.

Sa palibot sa:: Sa rehiyon palibot sa Audiobook, mga kanal talagsaon komon.

Sa palibot sa Try. Dia TTS

Parler TTS

Standard

Ang Parler TTS usa ka modelo sa teksto-sa-pagsulti nga gigamit ang natural nga mga deskripsiyon sa tingog sa pinulongan aron makontrol ang gibuhat nga tingog. Sa baylo nga pagpili gikan sa mga preset nga tingog, imong gihulagway ang tingog nga imong gusto (eg, "usa ka mainit nga babaye nga tingog nga adunay gamay nga British accent, nagsulti nga dali ug tin-aw") ug ang Parler nagdala sa tingog nga mouyon sa kini nga deskripsiyon. Kini naghimo niini nga talagsaong flexible alang sa mga creative nga aplikasyon.

Pag-uswag::
Hugging Face

Lisensya::
Apache 2.0

Katulin:
Medium

Kalidad::

Mga pinulongan:
en

VRAM:
4GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
2x

Sa palibot sa Descriptive Lungsod ang Natural sa Estados Unidos. Espesye sa langaw ang Flexiora flexilis. Wala'y gipreset nga tingog nga gikinahanglan

Sa palibot sa:: Creative mga aplikasyon diin kamo kinahanglan nga custom nga tingog mga kinaiya

Sa palibot sa Try. Parler TTS

Indic Parler TTS

Standard

Ang mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sinulat sa mga sin

Pag-uswag::
AI4Bharat

Lisensya::
Apache 2.0

Katulin:
Patag

Kalidad::

Mga pinulongan:
ta, bn, mr, gu, kn, pa, or, as, hi, te, ml, en

VRAM:
8GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
2x

Lungsod ang 11 sa Indiya. Sa palibot sa Descriptive Lungsod ang Natural sa Estados Unidos. Lungsod ang Authentic sa Indiya.

Sa palibot sa:: Sa rehiyon palibot sa Indian River, mga lanaw talagsaon komon.

Sa palibot sa Try. Indic Parler TTS

KhanomTan TTS

Standard

Ang KhanomTan TTS usa ka bukas nga Thai text-to-speech modelo nga gitukod sa multilingual architecture sa YourTTS. Gibansay sa CC0 ug permissively-licensed Thai corpora (TSync) sa uban pang mga pinulongan, kini naghatag natural Thai pinulongan uban sa daghang mga tingog speaker.

Pag-uswag::
Wannaphong Phatthiyaphaibun

Lisensya::
Apache 2.0

Katulin:
Sa palibot sa Fast.

Kalidad::

Mga pinulongan:
th

VRAM:
2GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
2x

Sa palibot sa Tts. Sa palibot sa Mīl-e Sūkh. Espesye sa langaw ang Archilochus aethiopicus. Munisipyo ang Licencia sa Espanya.

Sa palibot sa:: Ang yuta palibot sa Thai-Language kay patag.

Sa palibot sa Try. KhanomTan TTS

IndexTTS-2

Standard

Ang IndexTTS-2 usa ka advanced text-to-speech system nga nag-una sa zero-shot voice synthesis uban sa fine-grained emotion control. Kini mahimo nga makahimo sa pagsulti sa mga partikular nga emosyonal nga mga tono sama sa malipayon, sad, nabalaka, o nahadlok nga walay panginahanglan sa mga emosyon-specific training data. Ang modelo gigamit sa mga emosyonal nga mga vector sa tukma nga kontrol sa emosyonal nga ekspresyon sa gibuhat nga mga pulong.

Pag-uswag::
Index Team

Lisensya::
Bilibili Model License

Katulin:
Medium

Kalidad::

Mga pinulongan:
en, zh

VRAM:
4GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
2x

Sa palibot sa Emo. Sa palibot sa Shotgun. Espesye sa langaw ang Simulium vector. Sa palibot sa Expression. Espesye sa langaw ang Simulium control.

Sa palibot sa:: Sa rehiyon palibot sa Audiovisual, mga lapyahan talagsaon komon.

Sa palibot sa Try. IndexTTS-2

Spark TTS

Standard

Spark TTS pinaagi sa SparkAudio mao ang usa ka text-to-speech modelo nga naghiusa sa tingog sa pag-cloning uban sa kontrolado nga emosyon ug sa pag-istoryahanay sa estilo. Sa paggamit sa lamang sa 5 ka segundo sa reference audio, kini mahimo sa pag-clone sa usa ka tingog ug unya sa paghimo sa tingog uban sa lain-laing mga emosyon, speed, ug estilo samtang sa pagpalig-on sa cloned tingog identity. Spark TTS gigamit sa usa ka prompt-based nga kontrol sa sistema.

Pag-uswag::
SparkAudio

Lisensya::
CC BY-NC-SA 4.0

Katulin:
Medium

Kalidad::

Mga pinulongan:
en, zh

VRAM:
4GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
2x

Sa palibot sa Klondike. Sa palibot sa Emo. Estilo sa kontrol Sa palibot sa Prompt. Lungsod ang Quince sa Mehiko.

Sa palibot sa:: Espesye sa tanom nga bulak ang Clonea controlensis.

Sa palibot sa Try. Spark TTS

GPT-SoVITS

Standard

Ang GPT-SoVITS nagkombinar sa GPT-style nga lingguwistika sa SoVITS (Singing Voice Inference via Translation and Synthesis) alang sa makapahimuot nga pipila ka mga shot nga tingog nga pagklon. Sa gamay nga lima ka segundo sa reference audio, kini mahimo nga tukma nga magklon sa tingog ug makahimo og bag-ong tingog samtang nagpreserba sa tingog sa tingog. Kini maayo sa duha nga pag-istorya ug sa tingog nga sintesis sa tingog.

Pag-uswag::
RVC-Boss

Lisensya::
MIT

Katulin:
Patag

Kalidad::

Mga pinulongan:
en, zh, ja, ko

VRAM:
6GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
2x

Lungsod ang Quince sa Mehiko. Sa palibot sa Song. Sa palibot sa Lerna. Espesye sa langaw ang Simulium fidei. Sa palibot sa Linguini.

Sa palibot sa:: Sa rehiyon palibot sa Song Song, mga kanal talagsaon komon.

Sa palibot sa Try. GPT-SoVITS

Orpheus

Standard

Ang Orpheus usa ka dako nga-scale text-to-speech modelo nga makab-ot human-level emotional expression. Trained sa ibabaw sa 100,000 ka oras sa nagkalain-laing mga speech data, kini maayo sa pagmugna sa speech uban sa natural nga mga emosyon, emphasis, ug speaking estilo. Orpheus mahimo sa paghimo sa speech nga virtually indistinguishable gikan sa mga tawo recordings.

Pag-uswag::
Canopy Labs

Lisensya::
Llama 3.2 Community

Katulin:
Medium

Kalidad::

Mga pinulongan:
en

VRAM:
4GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
2x

Espesye sa langaw ang Simulium humanum. Adunay 100 ka molupyo. Espesye sa langaw ang Simulium naturalis. Sa palibot sa Expression.

Sa palibot sa:: Sa rehiyon palibot sa Audio, mga lawis talagsaon komon.

Sa palibot sa Try. Orpheus

Chatterbox

Premium

Ang Chatterbox pinaagi sa Resemble AI usa ka cutting-edge zero-shot nga modelo sa tingog nga pag-clone. Kini mahimo nga mag-replicate sa bisan unsang tingog gikan sa usa ka audio sample nga adunay talagsaong katukma, nga nakolekta dili lamang ang timbre apan usab ang estilo sa pagsulti ug mga emosyonal nga mga nuances. Ang Chatterbox adunay mga kinaiya nga kontrolado nga emosyonal, nga nagtugot kanimo sa pag-adjust sa emosyonal nga tono sa gi-generate nga tingog nga independente sa tingog nga identidad.

Pag-uswag::
Resemble AI

Lisensya::
MIT

Katulin:
Medium

Kalidad::

Mga pinulongan:
en

VRAM:
4GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
4x

Espesye sa langaw ang Simulium clonatum. Sa palibot sa Emo. Espesye sa langaw ang Simulium fidei. Pagbalhin sa estilo Espesye sa langaw ang Simulium monophyllum.

Sa palibot sa:: Sa rehiyon palibot sa Cerro El Control, mga walog talagsaon komon.

Sa palibot sa Try. Chatterbox

Tortoise TTS

Premium

Ang Tortoise TTS usa ka autoregressive multi-voice text-to-speech system nga nag-prioritize sa audio quality sa unahan sa speed. Kini gigamit ang DALL-E-inspired architecture aron makahimo og natural nga tingog nga adunay maayong prosody ug speaker similarity. Bisan pa sa mas dali kay sa daghang mga alternatibo, ang Tortoise naghimo sa pipila sa labing realistikong sintetikong tingog nga anaa sa open-source ecosystem.

Pag-uswag::
James Betker

Lisensya::
Apache 2.0

Katulin:
Patag

Kalidad::

Mga pinulongan:
en

VRAM:
8GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
4x

Sa palibot sa Alta. Multi-voice Lungsod ang Arkhipo-Osipovka sa Rusya. Sa palibot sa Klondike. Regresibo

Sa palibot sa:: Sa rehiyon palibot sa First, mga lawis talagsaon komon.

Sa palibot sa Try. Tortoise TTS

StyleTTS 2

Premium

Ang yuta palibot sa 2nd of July Mine kay medyo kabukiran, ug nga tinakpan sa ubos sa amihanan.Ang yuta palibot sa 2nd of July Mine kay kasagaran medyo kabukiran.

Pag-uswag::
Columbia University

Lisensya::
MIT

Katulin:
Medium

Kalidad::

Mga pinulongan:
en

VRAM:
4GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
4x

Human-level Espesye sa langaw ang Diplonevra diffusa. Espesye sa langaw ang Simulium contradictum. Espesye sa langaw ang Simulium variegatum. Espesye sa langaw ang Simulium fidei.

Sa palibot sa:: Espesye sa tanom nga bulak ang Synonyma professionalis.

Sa palibot sa Try. StyleTTS 2

OpenVoice

Premium

OpenVoice sa MyShell.ai nagtugot sa instant nga tingog sa pag-cloning uban sa granular nga kontrol sa tingog estilo, emosyon, accent, rhythm, pauses, ug intonation. Kini mahimo sa pag-clone sa tingog gikan sa usa ka mubo nga audio clip ug sa paghimo sa tingog sa daghang mga pinulongan samtang ang pagpalig-on sa tingog sa identidad. OpenVoice usab nga mga buhat ingon sa usa ka tingog converter, nga nagtugot sa real-time nga tingog sa transformation.

Pag-uswag::
MyShell.ai / MIT

Lisensya::
MIT

Katulin:
Medium

Kalidad::

Mga pinulongan:
en, zh, ja, ko, fr, es

VRAM:
4GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
4x

Espesye sa langaw ang Simulium clonatum. Sa palibot sa Conversion. Sa palibot sa Emo. Sa palibot sa Aksa. Multilingual

Sa palibot sa:: Sa rehiyon palibot sa Cerro La Convergencia, mga walog talagsaon komon.

Sa palibot sa Try. OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS mao ang usa ka 1.7 bilyon nga parameter text-to-speech modelo gikan sa Alibaba's Qwen team. Kini suporta sa duha ka mga mode: preset tingog uban sa emosyon sa pagkontrolar (9 speakers), ug sa usa ka talagsaon nga tingog sa disenyo mode diin kamo sa paghulagway sa tingog nga imong gusto sa natural nga pinulongan. Kini naglangkob sa 10 mga pinulongan uban sa taas nga ekspresyon ug natural prosody.

Pag-uswag::
Alibaba (Qwen)

Lisensya::
Apache 2.0

Katulin:
Medium

Kalidad::

Mga pinulongan:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
2x

Lungsod ang 9 de Mayo sa Mehiko. Bukid ang Text sa Awstriya. Sa palibot sa Emo. Lungsod ang Deset sa Esklobeniya.

Sa palibot sa:: Ang yuta palibot sa Cerro La Voz kay lain-lain.

Sa palibot sa Try. Qwen3 TTS

VieNeu-TTS-v2

Standard

Ang kinahabogang dapit sa palibot dunay gihabogon nga 2,007 ka metro ug 1.0 km sa amihanan-sidlakan sa Cerro El Tesoro.Ang yuta palibot sa Cerro El Tesoro kay kasagaran kabungtoran, apan sa habagatang-sidlakan nga kini mao ang patag.

Pag-uswag::
Phạm Nguyễn Ngọc Bảo

Lisensya::
Apache 2.0

Katulin:
Sa palibot sa Fast.

Kalidad::

Mga pinulongan:
vi, en

VRAM:
CPU

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
2x

Lungsod ang North West (Ininggles: North West) sa Estados Unidos. Espesye sa langaw ang Simulium coelum. Lungsod ang Tre-Cinque (Initalyano: Tre-Cinque) sa Italya. Podcast / suporta sa multi-speaker CPU-only - walay GPU nga gikinahanglan

Sa palibot sa:: Ang Wikispecies may mga payl nga may kalabotan sa: Bilinguidae

Sa palibot sa Try. VieNeu-TTS-v2

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) mao ang usa ka 1 bilyon nga parameter modelo nga gidisenyo alang sa pagmugna sa conversational nga pinulongan. Kini modelo sa natural nga mga laraw sa tawo nga pag-istoryahanay lakip na ang turn-taking timing, backchannel mga tubag, emotional reactions, ug conversational nga pinulongan. CSM nagdala sa audio nga tunog sama sa usa ka natural nga tawo nga pag-istoryahanay kay sa sintetikong pinulongan.

Pag-uswag::
Sesame

Lisensya::
Apache 2.0

Katulin:
Patag

Kalidad::

Mga pinulongan:
en

VRAM:
8GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
4x

Konversation Sa palibot sa Timan. Sa palibot sa Turnu. Kanal ang Back Channel sa Estados Unidos. Adunay 1,100 ka molupyo.

Sa palibot sa:: Sa rehiyon palibot sa Chattanooga, mga kanal talagsaon komon.

Sa palibot sa Try. Sesame CSM

Chatterbox Turbo

Standard

Ang Chatterbox Turbo sa Resemble AI usa ka 350M parameter upgrade sa Chatterbox, nga naghatag hangtod sa 6x nga real-time nga bilis sa sub-200ms latency. Kini nagsuporta sa paralinguistic tags sama sa [laugh], [cough], ug [chuckle] direkta sa teksto. Naglakip sa Perth watermarking sa tanan nga gihimo nga audio alang sa provenance tracking.

Pag-uswag::
Resemble AI

Lisensya::
MIT

Katulin:
Sa palibot sa Fast.

Kalidad::

Mga pinulongan:
en

VRAM:
2GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
2x

Adunay 200 ka molupyo. Espesye sa langaw ang Paradoxodon paradoxus. Lungsod ang 6x sa Italya. Sa palibot sa Klondike. Sa palibot sa Watermark.

Sa palibot sa:: Sa rehiyon palibot sa Natural Sound, mga lawis talagsaon komon.

Sa palibot sa Try. Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1.5 pinaagi sa OpenBMB mao ang usa ka bag-o nga tokenizer-free TTS modelo nga naglihok sa dugay nga espasyo kay sa diskretong mga tokens. Kini naghimo sa high-fidelity 44.1kHz audio, suporta zero-shot tingog cloning gikan sa 3-10 segundo, ug nagpabilin nga konsistensiya sa ibabaw sa mga paragrafo. Cross-language cloning nagtugot kaninyo sa pag-aplay sa usa ka English nga tingog sa Chinese nga pag-istoryahanay ug vice versa.

Pag-uswag::
OpenBMB

Lisensya::
Apache 2.0

Katulin:
Sa palibot sa Fast.

Kalidad::

Mga pinulongan:
en, zh

VRAM:
4GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
2x

Adunay 44,100 ka molupyo. Sa palibot sa Tokenizer-free. Espesye sa langaw ang Simulium crossi. Sa palibot sa Aïn-Aïssa. Espesye sa langaw ang Simulium fineum.

Sa palibot sa:: Sa rehiyon palibot sa Longview, mga lawis, ug mga lapyahan talagsaon komon.

Sa palibot sa Try. VoxCPM

Kani TTS 2

Free

Kini nga mga modelo sa mga parameter sa 400M ultra-lightweight gitukod sa usa ka Liquid AI LFM2 backbone uban sa NVIDIA NanoCodec. kini nga mga buhat sa lamang sa 3GB VRAM ug sa paghimo sa ~ 10 segundo sa pag-istoryahanay sa ~ 2 segundo sa usa ka A100 (RTF 0.2). ang karon nga publiko nga release ships sa usa ka English-only `kani-tts-2-en` checkpoint ug dili sa pag-ila sa speaker-embedding hook gikinahanglan alang sa tingog sa cloning - sa paggamit sa Chatterbox / IndexTTS2 / F5-TTS alang sa cloning, o Kokoro / MeloTTS alang sa non-English.

Pag-uswag::
NineNineSix

Lisensya::
Apache 2.0

Katulin:
Sa palibot sa Fast.

Kalidad::

Mga pinulongan:
en

VRAM:
3GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
Libre

3GB VRAM Sa palibot sa Ultra-Fast. Sa palibot sa Lighthouse. Sa palibot sa Nacogdoches. Libre

Sa palibot sa:: Ang yuta palibot sa Lower Pretty Dam kay kasagaran patag.

Sa palibot sa Try. Kani TTS 2

OuteTTS

Free

OuteTTS nagpalapad sa dako nga mga modelo sa pinulongan uban sa text-to-speech mga abilidad samtang nagpreserba sa orihinal nga arkitektura. kini suporta sa daghang mga backends lakip na llama.cpp (CPU / GPU), Hugging Face Transformers, ExLlamaV2, VLLM, ug bisan browser inference pinaagi sa Transformers.js. Features zero-shot tingog cloning pinaagi sa speaker profiles saved as JSON.

Pag-uswag::
OuteAI

Lisensya::
Apache 2.0

Katulin:
Patag

Kalidad::

Mga pinulongan:
en

VRAM:
2GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
Libre

Lungsod ang Inferiore sa Italya. Espesye sa langaw ang Simulium inferior. Multi-backend Espesye sa langaw ang Simulium profili.

Sa palibot sa:: Sa rehiyon palibot sa Lower Broken Spring, mga walog talagsaon komon.

Sa palibot sa Try. OuteTTS

VibeVoice

Standard

Ang kinabasaan nga bulan Hulyo, sa 300 milimetro nga ulan, ug ang kinaugahan Enero, sa 5 milimetro.Ang kasarangang giiniton 16 °C. Ang kinainitan nga bulan Hulyo, sa 28 °C, ug ang kinabugnawan Enero, sa 3 °C. Ang kasarangang pag-ulan 3,000 milimetro matag tuig.

Pag-uswag::
Microsoft

Lisensya::
MIT

Katulin:
Sa palibot sa Fast.

Kalidad::

Mga pinulongan:
en, zh

VRAM:
4GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
2x

Multi-speaker Lungsod ang Long (Rinuso: Долгое) sa Rusya. Lungsod ang Podgorica sa Serbya. Dialogue Sa palibot sa Lategan.

Sa palibot sa:: Sa rehiyon palibot sa Long, mga lawis, mga lapyahan talagsaon komon.

Sa palibot sa Try. VibeVoice

Pocket TTS

Free

Pocket TTS sa Kyutai (mga tigbuhat sa Moshi) mao ang usa ka compact 100M parameter text-to-speech modelo nga punches maayo sa ibabaw sa iyang gibug-aton. Kini nga gidagan sa epektibo sa CPU, suporta zero-shot tingog cloning gikan sa usa ka audio sample, ug naghimo sa natural nga-suod nga tingog sa tingog. Ang gagmay nga modelo sa gidak-on naghimo niini nga ideal alang sa edge deployment ug low-resource nga mga palibot.

Pag-uswag::
Kyutai

Lisensya::
MIT

Katulin:
Sa palibot sa Fast.

Kalidad::

Mga pinulongan:
en, fr

VRAM:
1GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
Libre

Adunay 100 ka molupyo. Lungsod ang Inferiore sa Italya. Sa palibot sa Klondike. Espesye sa langaw ang Simulium monophyllum. Sa palibot sa Edge-Ready.

Sa palibot sa:: Sa rehiyon palibot sa Clock Peak, mga walog talagsaon komon.

Sa palibot sa Try. Pocket TTS

Kitten TTS

Free

Kitten TTS pinaagi sa KittenML mao ang usa ka ultra-lightweight text-to-speech modelo nga gitukod sa ONNX. Sa mga matang gikan sa 15M ngadto sa 80M parameters (25-80 MB sa disk), kini naghatag sa taas nga kalidad nga tingog sa sintesis sa CPU nga walay gikinahanglan sa usa ka GPU. Features 8 built-in nga tingog, adjustable tingog speed, ug built-in nga teksto preprocessing alang sa mga numero, salapi, ug mga yunit. Ideal alang sa edge deployment ug low-latency nga mga aplikasyon.

Pag-uswag::
KittenML

Lisensya::
Apache 2.0

Katulin:
Sa palibot sa Fast.

Kalidad::

Mga pinulongan:
en

VRAM:
0GB

Sa palibot sa Klondike.:
Wala

Sa palibot sa Cost.:
Libre

Espesye sa langaw ang Simulium insignis. Adunay 80,000 ka molupyo. Lungsod ang Ocho sa Mehiko. Sa palibot sa Speed. Sa palibot sa Onumx. Adunay 24 ka molupyo.

Sa palibot sa:: Sa rehiyon palibot sa Lower Desert, mga lanaw talagsaon komon.

Sa palibot sa Try. Kitten TTS

CosyVoice3

Standard

Ang kinahabogang dapit sa palibot dunay gihabogon nga 1,159 ka metro ug 1.0 km sa amihanan-sidlakan sa Kūh-e Sīāh-e Sīāh.Ang klima hemiboreal.Ang klima umogon ug subtropikal.Ang kasarangang giiniton 18 °C. Ang kinainitan nga bulan Hulyo, sa 29 °C, ug ang kinabugnawan Enero, sa -18 °C. Ang kasarangang pag-ulan 1,900 milimetro matag tuig.

Pag-uswag::
Alibaba (FunAudioLLM)

Lisensya::
Apache 2.0

Katulin:
Sa palibot sa Fast.

Kalidad::

Mga pinulongan:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
2x

Sa palibot sa Bi-Stream. Sa palibot sa Emo. Sa palibot sa Klondike. Control sa gitas-on Sa palibot sa Instructions.

Sa palibot sa:: Sa rehiyon palibot sa Real Time Mine, mga kapanguhaan talagsaon komon.

Sa palibot sa Try. CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

Pag-uswag::
NAMAA Space

Lisensya::
MIT

Katulin:
Medium

Kalidad::

Mga pinulongan:
ar

VRAM:
6GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
2x

Lungsod ang Arab sa Sudan. Lungsod ang Modern sa Arabyang Saudita. Espesye sa langaw ang Simulium clonatum. Sa palibot sa Emo. Sa palibot sa Natividad.

Sa palibot sa:: Sa rehiyon palibot sa Al-Azhar, mga walog, mga lasang, ug mga patag talagsaon komon.

Sa palibot sa Try. NAMAA Saudi TTS

Darwin TTS

Standard

Ang kinabasaan nga bulan Hulyo, sa 177 milimetro nga ulan, ug ang kinaugahan Enero, sa 3 milimetro.Ang kasarangang giiniton 1 °C. Ang kinainitan nga bulan Hulyo, sa 23 °C, ug ang kinabugnawan Enero, sa 1 °C. Ang kasarangang pag-ulan 1,777 milimetro matag tuig.

Pag-uswag::
FINAL-Bench

Lisensya::
Apache 2.0

Katulin:
Medium

Kalidad::

Mga pinulongan:
en, ko, ja, zh

VRAM:
7GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
2x

Sa palibot sa Klondike. Sa palibot sa Linguini. Sa palibot sa Blenheim. Lungsod ang 4 sa Serbya. Lungsod ang Qwen3 sa Indiya.

Sa palibot sa:: Ang mga pulong nga "Chinese" ug "Korean" sa mga Koreano ug sa mga Koreano sa mga Hapones.

Sa palibot sa Try. Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 gikan sa OpenMOSS mao ang usa ka 7B dialogue text-to-speech modelo nga mopadayon sa mga panag-istoryahanay gikan sa usa ka mubo nga audio prompt. Supports hangtud sa 5 simultaneous speakers pinaagi sa [S1] / [S2] tags, zero-shot voice cloning gikan sa 3-10s reference audio, ug hangtud sa 60 minutos sa coherent multi-turn dialogue sa ibabaw sa 20 ka mga pinulongan.

Pag-uswag::
OpenMOSS

Lisensya::
Apache 2.0

Katulin:
Medium

Kalidad::

Mga pinulongan:
en, zh

VRAM:
12GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
2x

Lungsod ang Multia sa Mehiko. Lungsod ang Cinco Palabras sa Mehiko. Adunay 60 ka molupyo. Sa palibot sa Klondike. Espesye sa langaw ang Simulium optimum.

Sa palibot sa:: Sa rehiyon palibot sa Audiobooks, mga kanal, ug mga patag talagsaon komon.

Sa palibot sa Try. MOSS-TTSD

Ming-Omni TTS

Free

Ang kinahabogang dapit sa palibot dunay gihabogon nga 4,081 ka metro ug 1.0 km sa amihanan-sidlakan sa Kūh-e Bāzāgh.Ang yuta palibot sa Kūh-e Bāzāgh kay kasagaran kabungtoran, apan sa habagatang-sidlakan nga kini mao ang patag.

Pag-uswag::
inclusionAI

Lisensya::
Apache 2.0

Katulin:
Medium

Kalidad::

Mga pinulongan:
en, zh

VRAM:
3GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
Libre

Adunay 44,100 ka molupyo. Sa palibot sa Klondike. Sa palibot sa Emo. Lungsod ang Dialecto sa Italya. Sa palibot sa Bg. Adunay 5,057 ka molupyo.

Sa palibot sa:: Sa rehiyon palibot sa Cerro El Canto, mga kanal talagsaon komon.

Sa palibot sa Try. Ming-Omni TTS

MOSS-TTS Nano

Free

Ang kinahabogang dapit sa palibot dunay gihabogon nga 1,080 ka metro ug 1.0 km sa amihanan-sidlakan sa Kūh-e Bāzāgh.Ang klima hemiboreal.Ang klima umogon ug subtropikal.Ang kasarangang giiniton 18 °C. Ang kinainitan nga bulan Hulyo, sa 20 °C, ug ang kinabugnawan Enero, sa -10 °C. Ang kasarangang pag-ulan 1,080 milimetro matag tuig.

Pag-uswag::
OpenMOSS

Lisensya::
Apache 2.0

Katulin:
Sa palibot sa Fast.

Kalidad::

Mga pinulongan:
en, zh, de, es, fr, ja, it, ko, ru, ar, pt

VRAM:
2GB

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Sa palibot sa Cost.:
Libre

Adunay 100 ka molupyo. Espesye sa langaw ang Simulium insignis. Multilingual Sa palibot sa Klondike. Sa palibot sa Moos.

Sa palibot sa:: Sa rehiyon palibot sa High-Voltage Mine, mga kapanguhaan talagsaon komon.

Sa palibot sa Try. MOSS-TTS Nano

Sa palibot sa Standard.

Pag-uswag::
NAMAA Space

Lisensya::
MIT

Katulin:
Medium

Kalidad::

Mga pinulongan:
ar

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation

Sa palibot sa:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

Sa palibot sa Try. NAMAA Saudi TTS

Darwin TTS

Sa palibot sa Standard.

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

Pag-uswag::
FINAL-Bench

Lisensya::
Apache 2.0

Katulin:
Medium

Kalidad::

Mga pinulongan:
en, ko, ja, zh

Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.

Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone

Sa palibot sa:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice

Modelo	Pag-uswag:	Tigre	Katulin	Mga pinulongan	VRAM	Lisensya:	Sa palibot sa Cost.
Kokoro	Hexgrad	Free	Sa palibot sa Fast.	8	1.5GB	Apache 2.0	Libre	Paggamit
Piper	Rhasspy	Free	Sa palibot sa Fast.	42	0 (CPU only)	MIT	Libre	Paggamit
VITS	Jaehyeon Kim et al.	Free	Sa palibot sa Fast.	11	1GB	MIT	Libre	Paggamit
MeloTTS	MyShell.ai	Free	Sa palibot sa Fast.	6	0.5GB (GPU optional)	MIT	Libre	Paggamit
Bark	Suno	Standard	Patag	13	5GB	MIT	2	Paggamit
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Paggamit
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Paggamit
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Paggamit
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Paggamit
Indic Parler TTS	AI4Bharat	Standard	Patag	12	8GB	Apache 2.0	2	Paggamit
KhanomTan TTS	Wannaphong Phatthiyaphaibun	Standard	Sa palibot sa Fast.	1	2GB	Apache 2.0	2	Paggamit
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Paggamit
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Paggamit
GPT-SoVITS	RVC-Boss	Standard	Patag	4	6GB	MIT	2	Paggamit
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Paggamit
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Paggamit
Tortoise TTS	James Betker	Premium	Patag	1	8GB	Apache 2.0	4	Paggamit
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Paggamit
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	Paggamit
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Paggamit
VieNeu-TTS-v2	Phạm Nguyễn Ngọc Bảo	Standard	Sa palibot sa Fast.	2	CPU	Apache 2.0	2	Paggamit
Sesame CSM	Sesame	Premium	Patag	1	8GB	Apache 2.0	4	Paggamit
Chatterbox Turbo	Resemble AI	Standard	Sa palibot sa Fast.	1	2GB	MIT	2	Paggamit
VoxCPM	OpenBMB	Standard	Sa palibot sa Fast.	2	4GB	Apache 2.0	2	Paggamit
Kani TTS 2	NineNineSix	Free	Sa palibot sa Fast.	1	3GB	Apache 2.0	Libre	Paggamit
OuteTTS	OuteAI	Free	Patag	1	2GB	Apache 2.0	Libre	Paggamit
VibeVoice	Microsoft	Standard	Sa palibot sa Fast.	2	4GB	MIT	2	Paggamit
Pocket TTS	Kyutai	Free	Sa palibot sa Fast.	2	1GB	MIT	Libre	Paggamit
Kitten TTS	KittenML	Free	Sa palibot sa Fast.	1	0GB	Apache 2.0	Libre	Paggamit
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Sa palibot sa Fast.	9	4GB	Apache 2.0	2	Paggamit
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	Paggamit
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	Paggamit
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	Paggamit
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	Libre	Paggamit
MOSS-TTS Nano	OpenMOSS	Free	Sa palibot sa Fast.	11	2GB	Apache 2.0	Libre	Paggamit

Ang yuta palibot sa Textile kay medyo kabukiran.

Why Choose TTS.ai for Text to Speech?

Ang TTS.ai nagdala sa kalibutan sa labing maayo nga open-source text-to-speech modelo sa usa ka single, sayon sa paggamit sa plataporma. dili sama sa mga serbisyo nga may kalabutan sa lock kaninyo ngadto sa usa ka lamang nga tingog engine, TTS.ai naghatag kaninyo sa access sa 20+ modelo gikan sa mga nag-unang mga research labs lakip na Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University, ug uban pa.

Every model is open source under MIT, Apache 2.0, or similar permissive licenses, ensuring you have full commercial rights to use the generated audio in your projects. Whether you need fast, lightweight synthesis for real-time applications or premium studio-quality output for audiobooks and podcasts, TTS.ai has the right model for every use case.

Ang yuta palibot sa No Account kay lain-lain.

Pag-abli sa diha nga sa tulo ka libre nga TTS modelo: Piper (ultra-fast, lightweight), VITS (high-quality neural synthesis), ug MeloTTS (multi-language suporta). Wala sa pag-sign-up, walay credit card, walay limitasyon sa mga henerasyon. Libre nga mga modelo sa suporta sa English ug sa daghan nga mga uban pang mga pinulongan uban sa natural nga-sa tingog output nga angay alang sa kadaghanan sa mga aplikasyon.

Espesye sa langaw ang Gonomyia accelerata.

Ang tanan nga mga TTS modelo nga gidagan sa dedikado NVIDIA GPUs alang sa dali, konsistente nga mga panahon sa generation. Free mga modelo sa kasagaran sa paghimo sa audio sa ubos sa 2 segundo. Standard nga mga modelo sama sa Kokoro, CosyVoice 2, ug Bark average 3-5 segundo. Premium nga mga modelo sa labing taas nga kalidad, sama sa Tortoise ug Chatterbox, sa proseso sa 5-15 segundo depende sa gitas-on sa teksto.

30+ nga mga pinulongan

Generate speech in over 30 languages including English, Spanish, French, German, Italian, Portuguese, Chinese, Japanese, Korean, Arabic, Hindi, Russian, and many more. Several models support cross-lingual synthesis, meaning you can generate speech in a language the original voice was never trained on. CosyVoice 2 and GPT-SoVITS excel at cross-lingual voice cloning.

Bukid ang Debre-i-Ape sa Ehipto.

Integration TTS.ai ngadto sa imong mga aplikasyon uban sa atong OpenAI-compatible REST API. Usa ka endpoint alang sa tanan nga 20+ modelo. Python, JavaScript, cURL, ug Go SDKs. Streaming suporta alang sa mga aplikasyon sa real-time. Batch processing alang sa dako nga-scale nga mga butang sa generation. Webhooks alang sa async nga mga notification. API access gilakip sa matag plano lakip na ang libre.

Sa palibot sa Frequently Asked Questions.

Ang Text to Speech (TTS) mao ang usa ka AI teknolohiya nga nag-convert sa gisulat nga teksto ngadto sa natural nga-suod nga gisulti audio. modernong neural TTS mga modelo sama sa Kokoro, Chatterbox, ug CosyVoice 2 paggamit sa deep learning sa paghimo sa mga pulong nga susama sa talagsaong tawo, uban sa natural nga prosody, emosyon, ug ritmo.

Kini nag-agad sa imong mga panginahanglan. Alang sa dali nga preview, gamiton ang Piper o MeloTTS (libre, dali). Alang sa taas nga kalidad, sulayi ang Kokoro o CosyVoice 2 (standard tier). Alang sa tingog nga pag-clone, gamiton ang Chatterbox o GPT-SoVITS (premium). Alang sa mga dialog/podcast nga sulud, sulayi ang Dia TTS. Ang matag modelo adunay lainlaing mga kusog — eksperimento aron makit-an ang labing maayo nga angay.

TTS.ai nagtanyag sa libre nga text-to-speech uban sa Kokoro, Piper, VITS, ug MeloTTS modelo. Wala account nga gikinahanglan alang sa hangtud sa 500 ka mga karakter ug 3 generations sa usa ka oras. Sign up alang sa usa ka libre nga account sa pagkuha sa 15,000 ka mga karakter ug access sa tanan nga mga modelo.

Ang among TTS modelo sa tibuok suporta 30+ mga pinulongan lakip na ang English, Spanish, French, German, Italian, Portuguese, Chinese, Japanese, Korean, Arabic, Russian, Hindi, ug daghan pa.

Oo, ang audio nga gihimo pinaagi sa TTS.ai mahimong gamiton sa komersyal. Ang tanan namong mga modelo gigamit ang mga lisensya sa open-source (MIT, Apache 2.0). Tan-awa ang mga lisensya sa mga indibidwal nga modelo alang sa piho nga mga kondisyon. Girekomenda namon ang pagsusi sa lisensya sa piho nga modelo nga imong gigamit alang sa imong proyekto.

TTS.ai suporta MP3, WAV, OGG, ug FLAC output formats. MP3 mao ang default alang sa web playback. WAV mao ang girekomendar alang sa dugang nga audio processing. Ikaw mahimo sa pagbalhin tali sa mga formats sa paggamit sa atong Audio Converter tool.

Ang pag-clone sa tingog gigamit ang AI aron ma-replicate ang usa ka piho nga tingog gikan sa usa ka mubo nga audio sample (kadaghanan 5-30 ka segundo). I-upload ang usa ka tin-aw nga pagrekord sa target nga tingog, ug ang mga modelo sama sa Chatterbox, GPT-SoVITS, o OpenVoice maghatag og bag-ong tingog sa tingog. Ang kalidad mapaayo sa mas maayo, mas taas nga reference audio.

Ang libre nga mga tiggamit mahimo sa paghimo sa hangtud sa 500 ka mga karakter sa matag hangyo. Ang mga narehistro nga mga tiggamit makaangkon sa hangtud sa 5,000 ka mga karakter sa matag hangyo. Alang sa mas taas nga mga teksto, ang audio mao ang gihimo sa mga bahin ug giputol sa tibuok awtomatikong. API mga tiggamit mahimo sa proseso sa hangtud sa 10,000 ka mga karakter sa matag hangyo.

Ang suporta sa SSML (Speech Synthesis Markup Language) nag-agad sa modelo. Ang Piper ug ang uban pang mga modelo nagsuporta sa mga SSML nga mga tag alang sa mga pauses, emphasis, ug pagpatin-aw sa kontrol. Alang sa mga modelo nga wala’y suporta sa native SSML, mahimo nimo gamiton ang natural nga punsyon ug mga pag-usab sa linya aron maimpluwensyahan ang prosody.

Oo, ang kadaghanan sa mga modelo suporta sa speed adjustment gikan sa 0.5x ngadto sa 2.0x. Ang pipila ka mga modelo sama sa Bark ug Parler usab nga nagtugot pitch ug estilo sa pagkontrol. Ikaw mahimo sa pagtakda sa speed parameters sa advanced settings panel o pinaagi sa API speed parameter.

Oo, ang batch processing anaa pinaagi sa among API. Mahimo nimo ipadala ang daghang mga teksto nga mga segment sa usa ka API call o script, ug ang matag usa iproseso ug ibalik ingon nga mga hiwalay audio file. Kini maayo alang sa audiobook chapters, e-learning modules, o game dialogue scripts.

I-generate ang usa ka API key gikan sa imong account dashboard, unya ipadala ang mga pangutana sa POST sa among REST API endpoint uban sa imong teksto, modelo, ug mga parameter sa tingog. Gihatag namon ang mga pananglitan sa code sa Python, JavaScript, ug cURL. Ang API mao ang OpenAI-compatible, mao nga ang mga naandan nga integrations nagtrabaho sa minimal nga mga pagbag-o.

5.0/5 (4)

Pagpadayon sa Konversyon sa Teksto ngadto sa Pagsulti Karon

Join thousands of creators using TTS.ai. Get 15,000 free characters with a new account. Free models available without signup.

Sa palibot sa Freeman. Sa palibot sa Prishtina.

Sa palibot sa Kūh-e Sūh.

Love TTS.ai? Tell your friends!

Mga detalye sa modelo

Kokoro

Espesye sa langaw ang Simulium bonariense.

Paggamit sa mga karakter

Ang yuta sa Punta Texto kay lain-lain.

Isulat ang imong teksto

Pilia ang Modelo ug Tingog

I-download ang

Ang yuta sa Punta de la Palapa kay lain-lain.

Audiobook

Sa palibot sa Video.

Podcast

Mga dula

E-learning

Aksesibilidad

Lungsod ang Ivars sa Lyetuwanya.

Media

Sa palibot sa Streamline.

Sa palibot sa Marketing.

Lungsod ang Dubovac sa Esklobeniya.

Lungsod ang Medinilla sa Espanya.

Ang yuta sa Speech Point kay lain-lain.

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

Indic Parler TTS

KhanomTan TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

VieNeu-TTS-v2

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

MOSS-TTS Nano

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

MOSS-TTS Nano

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

Indic Parler TTS

KhanomTan TTS

Spark TTS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VibeVoice