Sa palibot sa Kūh-e Sūh.

Pag-convert sa teksto ngadto sa natural nga tingog nga panultihon uban sa open-source AI models. Libreng gamiton, walay account nga gikinahanglan.

Hapit nalukop sa kasagbotan ang palibot sa Language Mine.Ang klima kasarangan. Sa palibot sa La Voz.
Sa palibot sa Aïn Ouaïd. Limitahan sa 5,000 ka karakter

Ang yuta palibot sa Ssm kay medyo kabukiran.

<speak><prosody rate="slow">Slow speech</prosody></speak>

Ang yuta palibot sa Cerro La Ventana kay lain-lain.

Ang yuta palibot sa Cerro La Pronunciación kay lain-lain.

-12 +12
0.5x 2.0x
Sa rehiyon palibot sa Piper, mga lawis talagsaon komon.
Ang imong na-generate nga audio mopakita dinhi. Pilia ang usa ka modelo, i-type ang teksto, ug i-klik ang Genere.
Ang audio maayong natukod
0:00
I-download ang Audio Sa palibot sa Srt. Hapit nalukop sa kaumahan ang palibot sa 24H.
Love TTS.ai? Tell your friends!

Mga detalye sa modelo

Kokoro

Kokoro

Free

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Pag-uswag: Hexgrad
Lisensya: Apache 2.0
Katulin Fast
Kalidad:
Mga pinulongan 8 Mga pinulongan
VRAM 1.5GB
Sa palibot sa Klondike. Wala gisuportahan
Mga kinaiya:
82M parameters Ultra-fast Expressive voices Multilingual Streaming support
Sa palibot sa:: High-quality TTS with minimal latency, streaming applications

Espesye sa langaw ang Simulium bonariense.

  • Espesye sa tanom nga bulak ang Impatiens naturalis.
  • Espesye sa tanom nga bulak ang Asplenium clareum.
  • Idugang ang mga punto aron makahimo og mga mubo nga paglabay tali sa mga pangungusap
  • Espesye sa tanom nga bulak ang Epilobium longum.
  • Ang yuta palibot sa Cox Number Two Mine kay medyo kabukiran.
  • Paggamit Dia alang sa multi-speaker dialog ug podcast nga sulud

Paggamit sa mga karakter

Tigre Adunay 1,000 ka molupyo.
Libre 1:1 (sa Pranses)
Sa palibot sa Standard. 2x mga karakter
Premium 4x mga karakter

Ang yuta sa Punta Texto kay lain-lain.

Ang mga propesyonal nga kalidad sa voiceovers sa tulo ka yano nga mga lakang.

Lakang 1

Isulat ang imong teksto

I-type, i-paste, o i-upload ang teksto nga gusto nimong i-convert ngadto sa tingog. Gisuportahan ang 5,000 ka karakter matag henerasyon alang sa libre nga mga account, o 100,000 alang sa bayad nga mga plano. Paggamit sa plain text o pagdugang SSML tags alang sa advanced nga kontrol sa pagpamulong, pauses, ug emphasis.

Lakang 2

Pilia ang Modelo ug Tingog

Pilia gikan sa 20+ AI modelo sa ibabaw sa tulo ka mga tier. Pilia ang usa ka tingog nga mouyon sa imong mga sulod, pagpili sa imong target nga pinulongan, adjust playback speed gikan sa 0.5x ngadto sa 2.0x, ug pagpili sa imong gitinguha nga output format (MP3, WAV, OGG, o FLAC).

Lakang 3

I-download ang

I-klik ang Pagbugkos ug ang imong audio andam na sa mga segundo. Pagtan-aw sa built-in player, pag-download sa imong gipili nga format, o pagkopya sa usa ka ibahagi nga link. Paggamit sa API alang sa batch processing ug integration sa imong workflow.

Ang yuta sa Punta de la Palapa kay lain-lain.

Ang mga tanom sa palibot sa Textile Reservoir kay hapit tanan kasagbotan ang ulohan sa nasod.

Ang yuta sa Speech Point kay lain-lain.

Detailed specifications for every AI model available on TTS.ai. Compare quality, speed, language support, and features to find the perfect model for your project.

KokoroKokoro

Free

Ang Kokoro usa ka 82 milyon nga parameter nga modelo sa teksto-sa-pagsulti nga maayong nagpunting sa ibabaw sa iyang gibug-aton nga klase. Bisan pa sa iyang gamay nga gidak-on, kini naghimo sa talagsaong natural ug ekspresibo nga pakigsulti. Ang Kokoro nagsuporta sa daghang mga pinulongan lakip ang Ingles, Hapon, Intsik, ug Koreano nga adunay lainlaing ekspresibo nga tingog. Kini nagdagan nga dili makatarunganon nga dali — nga naghimo sa audio nga halos 100x nga mas dali kaysa sa real-time sa usa ka GPU.

Pag-uswag::
Hexgrad
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan:
en, ja, zh, fr, it, pt, es, hi
VRAM:
1.5GB
Sa palibot sa Klondike.:
Wala
Adunay 1,000 ka molupyo.:
Libre
Adunay 82,000 ka molupyo. Sa palibot sa Ultra-Fast. Sa palibot sa Voci. Multilingual Sa palibot sa Suport.
Sa palibot sa:: Sa rehiyon palibot sa Miniature Lake, mga lanaw talagsaon komon.

PiperPiper

Free

Ang Piper usa ka lightweight text-to-speech engine nga gipalambo sa Rhasspy nga gigamit ang VITS ug larynx architectures. Kini modagan bug-os sa CPU, nga naghimo niini nga ideal alang sa mga aparato sa edge, home automation, ug mga aplikasyon nga nagkinahanglan sa offline TTS.

Pag-uswag::
Rhasspy
Lisensya::
MIT
Katulin:
Fast
Kalidad::
Mga pinulongan:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi, ca, cy, fa, lv, sl, lb
VRAM:
0 (CPU only)
Sa palibot sa Klondike.:
Wala
Adunay 1,000 ka molupyo.:
Libre
Sa palibot sa Cp. Offline nga mga kapilian Adunay 100 ka molupyo. Adunay 35 ka molupyo. Sa palibot sa Smrč.
Sa palibot sa:: Mabilis nga mga pagtan-aw, accessibility, ug mga gi-embed nga mga aplikasyon

VITSVITS

Free

Ang VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) usa ka paralelo nga end-to-end nga TTS nga pamaagi nga nagdala sa mas natural nga tunog nga audio kay sa karon nga duha ka yugto nga mga modelo.

Pag-uswag::
Jaehyeon Kim et al.
Lisensya::
MIT
Katulin:
Fast
Kalidad::
Mga pinulongan:
en, de, es, fr, pt, nl, fi, hu, bg, ja, pl
VRAM:
1GB
Sa palibot sa Klondike.:
Wala
Adunay 1,000 ka molupyo.:
Libre
Espesye sa langaw ang Simulium terminale. Espesye sa langaw ang Prosoma naturalis. Espesye sa langaw ang Simulium insignis. Sa palibot sa Mīl-e Sūkh.
Sa palibot sa:: Espesye sa tanom nga bulak ang Procopius naturalis.

MeloTTSMeloTTS

Free

MeloTTS sa MyShell.ai mao ang usa ka multilingual TTS librarya nga suporta sa English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, ug Korean. Kini mao ang kaayo nga dali, sa pagproseso sa teksto sa duol sa real-time speed sa CPU lang. MeloTTS mao ang gidisenyo alang sa paggamit sa produksyon ug suporta sa duha ka CPU ug GPU inference.

Pag-uswag::
MyShell.ai
Lisensya::
MIT
Katulin:
Fast
Kalidad::
Mga pinulongan:
en, es, fr, zh, ja, ko
VRAM:
0.5GB (GPU optional)
Sa palibot sa Klondike.:
Wala
Adunay 1,000 ka molupyo.:
Libre
CPU-optimized Multilingual Espesye sa langaw ang Simulium multifasciatum. Sa palibot sa Produksyon. Sa palibot sa Lategan.
Sa palibot sa:: Espesye sa tanom nga bulak ang Multiphyllum multiflorum.

BarkBark

Standard

Bark sa Suno mao ang usa ka transformer-based nga teksto-sa-audio nga modelo nga mahimo sa paghimo sa taas nga realistiko, multilingual nga mga pulong ingon man usab sa uban nga audio sama sa musika, background nga ingay, ug sa tingog nga mga epekto. Kini mahimo sa paghimo sa nonverbal nga komunikasyon sama sa pag-ingon, pag-ingon, ug pag-ingon. Bark suporta sa ibabaw sa 100 speaker presets ug 13+ nga mga pinulongan.

Pag-uswag::
Suno
Lisensya::
MIT
Katulin:
Slow
Kalidad::
Mga pinulongan:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
5GB
Sa palibot sa Klondike.:
Wala
Adunay 1,000 ka molupyo.:
2x
Sa palibot sa Sound Effect. Sa palibot sa Râs el-Aïd. Espesye sa langaw ang Simulium musicale. Adunay 100 ka molupyo. Multilingual
Sa palibot sa:: Sa rehiyon palibot sa Audio, mga lawis talagsaon komon.

Bark SmallBark Small

Standard

Ang mga tanom sa palibot sa Little Lake kay hapit tanan kasagbotan ang ulohan sa nasod.Ang klima umogon ug subtropikal.Ang klima umogon ug subtropikal.

Pag-uswag::
Suno
Lisensya::
MIT
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
2GB
Sa palibot sa Klondike.:
Wala
Adunay 1,000 ka molupyo.:
2x
Sa palibot sa Lighthouse. Espesye sa langaw ang Forcipomyia barkeri. Sa palibot sa Emo. Multilingual
Sa palibot sa:: Ang yuta palibot sa Cerro Largo kay medyo kabukiran.

CosyVoice 2CosyVoice 2

Standard

Ang CozyVoice 2 sa Alibaba's Tongyi Lab makab-ot human-comparable speech kalidad uban sa dako nga ubos nga latency, nga naghimo niini nga ideal alang sa real-time nga mga aplikasyon. Kini gigamit sa usa ka katapusan nga scalar quantization pamaagi alang sa streaming sintesis ug suporta zero-shot tingog cloning, cross-lingual nga sintesis, ug fine-grained emosyon control.

Pag-uswag::
Alibaba (Tongyi Lab)
Lisensya::
Apache 2.0
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, zh, ja, ko, fr, de, it, es
VRAM:
4GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
2x
Sa palibot sa Streamline. Espesye sa langaw ang Simulium clonatum. Sa palibot sa Linguini. Sa palibot sa Emo. Parokya ang Parramatta sa Awstralya.
Sa palibot sa:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

Standard

Dia sa Nari Labs mao ang usa ka 1.6B parameter text-to-speech modelo nga gidisenyo alang sa pagmugna sa multi-speaker dialogue. Kini mahimo sa paghimo sa natural nga-suod nga mga panag-istoryahanay tali sa duha ka mga mag-uuma uban sa angay nga turn-taking, prosody, ug emotional expression. Dia mao ang hingpit alang sa paghimo sa podcast-style nga mga sulod, audiobook dialogues, ug interaktif nga conversational AI.

Pag-uswag::
Nari Labs
Lisensya::
Apache 2.0
Katulin:
Medium
Kalidad::
Mga pinulongan:
en
VRAM:
4GB
Sa palibot sa Klondike.:
Wala
Adunay 1,000 ka molupyo.:
2x
Multi-speaker Pagkabahinbahin Espesye sa langaw ang Turdus turturdus. Espesye sa langaw ang Simulium emolliens. Adunay 1,667 ka molupyo.
Sa palibot sa:: Sa rehiyon palibot sa Audiobook, mga kanal talagsaon komon.

Parler TTSParler TTS

Standard

Ang Parler TTS usa ka modelo sa teksto-sa-pagsulti nga gigamit ang natural nga mga deskripsiyon sa tingog sa pinulongan aron makontrol ang gibuhat nga tingog. Sa baylo nga pagpili gikan sa mga preset nga tingog, imong gihulagway ang tingog nga imong gusto (eg, "usa ka mainit nga babaye nga tingog nga adunay gamay nga British accent, nagsulti nga dali ug tin-aw") ug ang Parler nagdala sa tingog nga mouyon sa kini nga deskripsiyon. Kini naghimo niini nga talagsaong flexible alang sa mga creative nga aplikasyon.

Pag-uswag::
Hugging Face
Lisensya::
Apache 2.0
Katulin:
Medium
Kalidad::
Mga pinulongan:
en
VRAM:
4GB
Sa palibot sa Klondike.:
Wala
Adunay 1,000 ka molupyo.:
2x
Sa palibot sa Descriptive Lungsod ang Natural sa Estados Unidos. Espesye sa langaw ang Flexiora flexilis. Wala'y gipreset nga tingog nga gikinahanglan
Sa palibot sa:: Creative mga aplikasyon diin kamo kinahanglan nga custom nga tingog mga kinaiya

IndexTTS-2IndexTTS-2

Standard

Ang IndexTTS-2 usa ka advanced text-to-speech system nga nag-una sa zero-shot voice synthesis uban sa fine-grained emotion control. Kini mahimo nga makahimo sa pagsulti sa mga partikular nga emosyonal nga mga tono sama sa malipayon, sad, nabalaka, o nahadlok nga walay panginahanglan sa mga emosyon-specific training data. Ang modelo gigamit sa mga emosyonal nga mga vector sa tukma nga kontrol sa emosyonal nga ekspresyon sa gibuhat nga mga pulong.

Pag-uswag::
Index Team
Lisensya::
Bilibili Model License
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, zh
VRAM:
4GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
2x
Sa palibot sa Emo. Sa palibot sa Shotgun. Espesye sa langaw ang Simulium vector. Sa palibot sa Expression. Espesye sa langaw ang Simulium control.
Sa palibot sa:: Sa rehiyon palibot sa Audiovisual, mga lapyahan talagsaon komon.

Spark TTSSpark TTS

Standard

Spark TTS pinaagi sa SparkAudio mao ang usa ka text-to-speech modelo nga naghiusa sa tingog sa pag-cloning uban sa kontrolado nga emosyon ug sa pag-istoryahanay sa estilo. Sa paggamit sa lamang sa 5 ka segundo sa reference audio, kini mahimo sa pag-clone sa usa ka tingog ug unya sa paghimo sa tingog uban sa lain-laing mga emosyon, speed, ug estilo samtang sa pagpalig-on sa cloned tingog identity. Spark TTS gigamit sa usa ka prompt-based nga kontrol sa sistema.

Pag-uswag::
SparkAudio
Lisensya::
CC BY-NC-SA 4.0
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, zh
VRAM:
4GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
2x
Sa palibot sa Klondike. Sa palibot sa Emo. Estilo sa kontrol Sa palibot sa Prompt. Lungsod ang Quince sa Mehiko.
Sa palibot sa:: Espesye sa tanom nga bulak ang Clonea controlensis.

GPT-SoVITSGPT-SoVITS

Standard

Ang GPT-SoVITS nagkombinar sa GPT-style nga lingguwistika sa SoVITS (Singing Voice Inference via Translation and Synthesis) alang sa makapahimuot nga pipila ka mga shot nga tingog nga pagklon. Sa gamay nga lima ka segundo sa reference audio, kini mahimo nga tukma nga magklon sa tingog ug makahimo og bag-ong tingog samtang nagpreserba sa tingog sa tingog. Kini maayo sa duha nga pag-istorya ug sa tingog nga sintesis sa tingog.

Pag-uswag::
RVC-Boss
Lisensya::
MIT
Katulin:
Slow
Kalidad::
Mga pinulongan:
en, zh, ja, ko
VRAM:
6GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
2x
Lungsod ang Quince sa Mehiko. Sa palibot sa Song. Sa palibot sa Lerna. Espesye sa langaw ang Simulium fidei. Sa palibot sa Linguini.
Sa palibot sa:: Sa rehiyon palibot sa Song Song, mga kanal talagsaon komon.

OrpheusOrpheus

Standard

Ang Orpheus usa ka dako nga-scale text-to-speech modelo nga makab-ot human-level emotional expression. Trained sa ibabaw sa 100,000 ka oras sa nagkalain-laing mga speech data, kini maayo sa pagmugna sa speech uban sa natural nga mga emosyon, emphasis, ug speaking estilo. Orpheus mahimo sa paghimo sa speech nga virtually indistinguishable gikan sa mga tawo recordings.

Pag-uswag::
Canopy Labs
Lisensya::
Llama 3.2 Community
Katulin:
Medium
Kalidad::
Mga pinulongan:
en
VRAM:
4GB
Sa palibot sa Klondike.:
Wala
Adunay 1,000 ka molupyo.:
2x
Espesye sa langaw ang Simulium humanum. Adunay 100 ka molupyo. Espesye sa langaw ang Simulium naturalis. Sa palibot sa Expression.
Sa palibot sa:: Sa rehiyon palibot sa Audio, mga lawis talagsaon komon.

ChatterboxChatterbox

Premium

Ang Chatterbox pinaagi sa Resemble AI usa ka cutting-edge zero-shot nga modelo sa tingog nga pag-clone. Kini mahimo nga mag-replicate sa bisan unsang tingog gikan sa usa ka audio sample nga adunay talagsaong katukma, nga nakolekta dili lamang ang timbre apan usab ang estilo sa pagsulti ug mga emosyonal nga mga nuances. Ang Chatterbox adunay mga kinaiya nga kontrolado nga emosyonal, nga nagtugot kanimo sa pag-adjust sa emosyonal nga tono sa gi-generate nga tingog nga independente sa tingog nga identidad.

Pag-uswag::
Resemble AI
Lisensya::
MIT
Katulin:
Medium
Kalidad::
Mga pinulongan:
en
VRAM:
4GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
4x
Espesye sa langaw ang Simulium clonatum. Sa palibot sa Emo. Espesye sa langaw ang Simulium fidei. Pagbalhin sa estilo Espesye sa langaw ang Simulium monophyllum.
Sa palibot sa:: Sa rehiyon palibot sa Cerro El Control, mga walog talagsaon komon.

Tortoise TTSTortoise TTS

Premium

Ang Tortoise TTS usa ka autoregressive multi-voice text-to-speech system nga nag-prioritize sa audio quality sa unahan sa speed. Kini gigamit ang DALL-E-inspired architecture aron makahimo og natural nga tingog nga adunay maayong prosody ug speaker similarity. Bisan pa sa mas dali kay sa daghang mga alternatibo, ang Tortoise naghimo sa pipila sa labing realistikong sintetikong tingog nga anaa sa open-source ecosystem.

Pag-uswag::
James Betker
Lisensya::
Apache 2.0
Katulin:
Slow
Kalidad::
Mga pinulongan:
en
VRAM:
8GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
4x
Sa palibot sa Alta. Multi-voice Lungsod ang Arkhipo-Osipovka sa Rusya. Sa palibot sa Klondike. Regresibo
Sa palibot sa:: Sa rehiyon palibot sa First, mga lawis talagsaon komon.

StyleTTS 2StyleTTS 2

Premium

Ang yuta palibot sa 2nd of July Mine kay medyo kabukiran, ug nga tinakpan sa ubos sa amihanan.Ang yuta palibot sa 2nd of July Mine kay kasagaran medyo kabukiran.

Pag-uswag::
Columbia University
Lisensya::
MIT
Katulin:
Medium
Kalidad::
Mga pinulongan:
en
VRAM:
4GB
Sa palibot sa Klondike.:
Wala
Adunay 1,000 ka molupyo.:
4x
Human-level Espesye sa langaw ang Diplonevra diffusa. Espesye sa langaw ang Simulium contradictum. Espesye sa langaw ang Simulium variegatum. Espesye sa langaw ang Simulium fidei.
Sa palibot sa:: Espesye sa tanom nga bulak ang Synonyma professionalis.

OpenVoiceOpenVoice

Premium

OpenVoice sa MyShell.ai nagtugot sa instant nga tingog sa pag-cloning uban sa granular nga kontrol sa tingog estilo, emosyon, accent, rhythm, pauses, ug intonation. Kini mahimo sa pag-clone sa tingog gikan sa usa ka mubo nga audio clip ug sa paghimo sa tingog sa daghang mga pinulongan samtang ang pagpalig-on sa tingog sa identidad. OpenVoice usab nga mga buhat ingon sa usa ka tingog converter, nga nagtugot sa real-time nga tingog sa transformation.

Pag-uswag::
MyShell.ai / MIT
Lisensya::
MIT
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, zh, ja, ko, fr, es
VRAM:
4GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
4x
Espesye sa langaw ang Simulium clonatum. Sa palibot sa Conversion. Sa palibot sa Emo. Sa palibot sa Aksa. Multilingual
Sa palibot sa:: Sa rehiyon palibot sa Cerro La Convergencia, mga walog talagsaon komon.

Qwen3 TTSQwen3 TTS

Standard

Qwen3-TTS mao ang usa ka 1.7 bilyon nga parameter text-to-speech modelo gikan sa Alibaba's Qwen team. Kini suporta sa duha ka mga mode: preset tingog uban sa emosyon sa pagkontrolar (9 speakers), ug sa usa ka talagsaon nga tingog sa disenyo mode diin kamo sa paghulagway sa tingog nga imong gusto sa natural nga pinulongan. Kini naglangkob sa 10 mga pinulongan uban sa taas nga ekspresyon ug natural prosody.

Pag-uswag::
Alibaba (Qwen)
Lisensya::
Apache 2.0
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, zh, ja, ko, de, fr, ru, pt, es, it
VRAM:
7GB
Sa palibot sa Klondike.:
Wala
Adunay 1,000 ka molupyo.:
2x
Lungsod ang 9 de Mayo sa Mehiko. Bukid ang Text sa Awstriya. Sa palibot sa Emo. Lungsod ang Deset sa Esklobeniya.
Sa palibot sa:: Ang yuta palibot sa Cerro La Voz kay lain-lain.

VieNeu-TTS-v2VieNeu-TTS-v2

Standard

Ang kinahabogang dapit sa palibot dunay gihabogon nga 2,007 ka metro ug 1.0 km sa amihanan-sidlakan sa Cerro El Tesoro.Ang yuta palibot sa Cerro El Tesoro kay kasagaran kabungtoran, apan sa habagatang-sidlakan nga kini mao ang patag.

Pag-uswag::
Phạm Nguyễn Ngọc Bảo
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan:
vi, en
VRAM:
CPU
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
2x
Lungsod ang North West (Ininggles: North West) sa Estados Unidos. Espesye sa langaw ang Simulium coelum. Lungsod ang Tre-Cinque (Initalyano: Tre-Cinque) sa Italya. Podcast / suporta sa multi-speaker CPU-only - walay GPU nga gikinahanglan
Sa palibot sa:: Ang Wikispecies may mga payl nga may kalabotan sa: Bilinguidae

Sesame CSMSesame CSM

Premium

Sesame CSM (Conversational Speech Model) mao ang usa ka 1 bilyon nga parameter modelo nga gidisenyo alang sa pagmugna sa conversational nga pinulongan. Kini modelo sa natural nga mga laraw sa tawo nga pag-istoryahanay lakip na ang turn-taking timing, backchannel mga tubag, emotional reactions, ug conversational nga pinulongan. CSM nagdala sa audio nga tunog sama sa usa ka natural nga tawo nga pag-istoryahanay kay sa sintetikong pinulongan.

Pag-uswag::
Sesame
Lisensya::
Apache 2.0
Katulin:
Slow
Kalidad::
Mga pinulongan:
en
VRAM:
8GB
Sa palibot sa Klondike.:
Wala
Adunay 1,000 ka molupyo.:
4x
Konversation Sa palibot sa Timan. Sa palibot sa Turnu. Kanal ang Back Channel sa Estados Unidos. Adunay 1,100 ka molupyo.
Sa palibot sa:: Sa rehiyon palibot sa Chattanooga, mga kanal talagsaon komon.

Chatterbox TurboChatterbox Turbo

Standard

Ang Chatterbox Turbo sa Resemble AI usa ka 350M parameter upgrade sa Chatterbox, nga naghatag hangtod sa 6x nga real-time nga bilis sa sub-200ms latency. Kini nagsuporta sa paralinguistic tags sama sa [laugh], [cough], ug [chuckle] direkta sa teksto. Naglakip sa Perth watermarking sa tanan nga gihimo nga audio alang sa provenance tracking.

Pag-uswag::
Resemble AI
Lisensya::
MIT
Katulin:
Fast
Kalidad::
Mga pinulongan:
en
VRAM:
2GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
2x
Adunay 200 ka molupyo. Espesye sa langaw ang Paradoxodon paradoxus. Lungsod ang 6x sa Italya. Sa palibot sa Klondike. Sa palibot sa Watermark.
Sa palibot sa:: Sa rehiyon palibot sa Natural Sound, mga lawis talagsaon komon.

VoxCPMVoxCPM

Standard

VoxCPM 1.5 pinaagi sa OpenBMB mao ang usa ka bag-o nga tokenizer-free TTS modelo nga naglihok sa dugay nga espasyo kay sa diskretong mga tokens. Kini naghimo sa high-fidelity 44.1kHz audio, suporta zero-shot tingog cloning gikan sa 3-10 segundo, ug nagpabilin nga konsistensiya sa ibabaw sa mga paragrafo. Cross-language cloning nagtugot kaninyo sa pag-aplay sa usa ka English nga tingog sa Chinese nga pag-istoryahanay ug vice versa.

Pag-uswag::
OpenBMB
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan:
en, zh
VRAM:
4GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
2x
Adunay 44,100 ka molupyo. Sa palibot sa Tokenizer-free. Espesye sa langaw ang Simulium crossi. Sa palibot sa Aïn-Aïssa. Espesye sa langaw ang Simulium fineum.
Sa palibot sa:: Sa rehiyon palibot sa Longview, mga lawis, ug mga lapyahan talagsaon komon.

Kani TTS 2Kani TTS 2

Free

Kini nga mga modelo sa mga parameter sa 400M ultra-lightweight gitukod sa usa ka Liquid AI LFM2 backbone uban sa NVIDIA NanoCodec. kini nga mga buhat sa lamang sa 3GB VRAM ug sa paghimo sa ~ 10 segundo sa pag-istoryahanay sa ~ 2 segundo sa usa ka A100 (RTF 0.2). ang karon nga publiko nga release ships sa usa ka English-only `kani-tts-2-en` checkpoint ug dili sa pag-ila sa speaker-embedding hook gikinahanglan alang sa tingog sa cloning - sa paggamit sa Chatterbox / IndexTTS2 / F5-TTS alang sa cloning, o Kokoro / MeloTTS alang sa non-English.

Pag-uswag::
NineNineSix
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan:
en
VRAM:
3GB
Sa palibot sa Klondike.:
Wala
Adunay 1,000 ka molupyo.:
Libre
3GB VRAM Sa palibot sa Ultra-Fast. Sa palibot sa Lighthouse. Sa palibot sa Nacogdoches. Libre
Sa palibot sa:: Ang yuta palibot sa Lower Pretty Dam kay kasagaran patag.

OuteTTSOuteTTS

Free

OuteTTS nagpalapad sa dako nga mga modelo sa pinulongan uban sa text-to-speech mga abilidad samtang nagpreserba sa orihinal nga arkitektura. kini suporta sa daghang mga backends lakip na llama.cpp (CPU / GPU), Hugging Face Transformers, ExLlamaV2, VLLM, ug bisan browser inference pinaagi sa Transformers.js. Features zero-shot tingog cloning pinaagi sa speaker profiles saved as JSON.

Pag-uswag::
OuteAI
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan:
en
VRAM:
2GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
Libre
Lungsod ang Inferiore sa Italya. Espesye sa langaw ang Simulium inferior. Sa palibot sa Klondike. Multi-backend Espesye sa langaw ang Simulium profili.
Sa palibot sa:: Sa rehiyon palibot sa Lower Broken Spring, mga walog talagsaon komon.

VibeVoiceVibeVoice

Standard

Ang kinabasaan nga bulan Hulyo, sa 300 milimetro nga ulan, ug ang kinaugahan Enero, sa 5 milimetro.Ang kasarangang giiniton 16 °C. Ang kinainitan nga bulan Hulyo, sa 28 °C, ug ang kinabugnawan Enero, sa 3 °C. Ang kasarangang pag-ulan 3,000 milimetro matag tuig.

Pag-uswag::
Microsoft
Lisensya::
MIT
Katulin:
Fast
Kalidad::
Mga pinulongan:
en, zh
VRAM:
4GB
Sa palibot sa Klondike.:
Wala
Adunay 1,000 ka molupyo.:
2x
Multi-speaker Lungsod ang Long (Rinuso: Долгое) sa Rusya. Lungsod ang Podgorica sa Serbya. Dialogue Sa palibot sa Lategan.
Sa palibot sa:: Sa rehiyon palibot sa Long, mga lawis, mga lapyahan talagsaon komon.

Pocket TTSPocket TTS

Free

Pocket TTS sa Kyutai (mga tigbuhat sa Moshi) mao ang usa ka compact 100M parameter text-to-speech modelo nga punches maayo sa ibabaw sa iyang gibug-aton. Kini nga gidagan sa epektibo sa CPU, suporta zero-shot tingog cloning gikan sa usa ka audio sample, ug naghimo sa natural nga-suod nga tingog sa tingog. Ang gagmay nga modelo sa gidak-on naghimo niini nga ideal alang sa edge deployment ug low-resource nga mga palibot.

Pag-uswag::
Kyutai
Lisensya::
MIT
Katulin:
Fast
Kalidad::
Mga pinulongan:
en, fr
VRAM:
1GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
Libre
Adunay 100 ka molupyo. Lungsod ang Inferiore sa Italya. Sa palibot sa Klondike. Espesye sa langaw ang Simulium monophyllum. Sa palibot sa Edge-Ready.
Sa palibot sa:: Sa rehiyon palibot sa Clock Peak, mga walog talagsaon komon.

Kitten TTSKitten TTS

Free

Kitten TTS pinaagi sa KittenML mao ang usa ka ultra-lightweight text-to-speech modelo nga gitukod sa ONNX. Sa mga matang gikan sa 15M ngadto sa 80M parameters (25-80 MB sa disk), kini naghatag sa taas nga kalidad nga tingog sa sintesis sa CPU nga walay gikinahanglan sa usa ka GPU. Features 8 built-in nga tingog, adjustable tingog speed, ug built-in nga teksto preprocessing alang sa mga numero, salapi, ug mga yunit. Ideal alang sa edge deployment ug low-latency nga mga aplikasyon.

Pag-uswag::
KittenML
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan:
en
VRAM:
0GB
Sa palibot sa Klondike.:
Wala
Adunay 1,000 ka molupyo.:
Libre
Espesye sa langaw ang Simulium insignis. Adunay 80,000 ka molupyo. Lungsod ang Ocho sa Mehiko. Sa palibot sa Speed. Sa palibot sa Onumx. Adunay 24 ka molupyo.
Sa palibot sa:: Sa rehiyon palibot sa Lower Desert, mga lanaw talagsaon komon.

CosyVoice3CosyVoice3

Standard

Ang kinahabogang dapit sa palibot dunay gihabogon nga 1,159 ka metro ug 1.0 km sa amihanan-sidlakan sa Kūh-e Sīāh-e Sīāh.Ang klima hemiboreal.Ang klima umogon ug subtropikal.Ang kasarangang giiniton 18 °C. Ang kinainitan nga bulan Hulyo, sa 29 °C, ug ang kinabugnawan Enero, sa -18 °C. Ang kasarangang pag-ulan 1,900 milimetro matag tuig.

Pag-uswag::
Alibaba (FunAudioLLM)
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan:
en, zh, ja, ko, de, es, fr, it, ru
VRAM:
4GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
2x
Sa palibot sa Bi-Stream. Sa palibot sa Emo. Sa palibot sa Klondike. Control sa gitas-on Sa palibot sa Instructions.
Sa palibot sa:: Sa rehiyon palibot sa Real Time Mine, mga kapanguhaan talagsaon komon.

NAMAA Saudi TTSNAMAA Saudi TTS

Standard

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

Pag-uswag::
NAMAA Space
Lisensya::
MIT
Katulin:
Medium
Kalidad::
Mga pinulongan:
ar
VRAM:
6GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
2x
Lungsod ang Arab sa Sudan. Lungsod ang Modern sa Arabyang Saudita. Espesye sa langaw ang Simulium clonatum. Sa palibot sa Emo. Sa palibot sa Natividad.
Sa palibot sa:: Sa rehiyon palibot sa Al-Azhar, mga walog, mga lasang, ug mga patag talagsaon komon.

Darwin TTSDarwin TTS

Standard

Ang kinabasaan nga bulan Hulyo, sa 177 milimetro nga ulan, ug ang kinaugahan Enero, sa 3 milimetro.Ang kasarangang giiniton 1 °C. Ang kinainitan nga bulan Hulyo, sa 23 °C, ug ang kinabugnawan Enero, sa 1 °C. Ang kasarangang pag-ulan 1,777 milimetro matag tuig.

Pag-uswag::
FINAL-Bench
Lisensya::
Apache 2.0
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, ko, ja, zh
VRAM:
7GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
2x
Sa palibot sa Klondike. Sa palibot sa Linguini. Sa palibot sa Blenheim. Lungsod ang 4 sa Serbya. Lungsod ang Qwen3 sa Indiya.
Sa palibot sa:: Ang mga pulong nga "Chinese" ug "Korean" sa mga Koreano ug sa mga Koreano sa mga Hapones.

MOSS-TTSDMOSS-TTSD

Standard

MOSS-TTSD v1.0 gikan sa OpenMOSS mao ang usa ka 7B dialogue text-to-speech modelo nga mopadayon sa mga panag-istoryahanay gikan sa usa ka mubo nga audio prompt. Supports hangtud sa 5 simultaneous speakers pinaagi sa [S1] / [S2] tags, zero-shot voice cloning gikan sa 3-10s reference audio, ug hangtud sa 60 minutos sa coherent multi-turn dialogue sa ibabaw sa 20 ka mga pinulongan.

Pag-uswag::
OpenMOSS
Lisensya::
Apache 2.0
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, zh
VRAM:
12GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
2x
Lungsod ang Multia sa Mehiko. Lungsod ang Cinco Palabras sa Mehiko. Adunay 60 ka molupyo. Sa palibot sa Klondike. Espesye sa langaw ang Simulium optimum.
Sa palibot sa:: Sa rehiyon palibot sa Audiobooks, mga kanal, ug mga patag talagsaon komon.

Ming-Omni TTSMing-Omni TTS

Free

Ang kinahabogang dapit sa palibot dunay gihabogon nga 4,081 ka metro ug 1.0 km sa amihanan-sidlakan sa Kūh-e Bāzāgh.Ang yuta palibot sa Kūh-e Bāzāgh kay kasagaran kabungtoran, apan sa habagatang-sidlakan nga kini mao ang patag.

Pag-uswag::
inclusionAI
Lisensya::
Apache 2.0
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, zh
VRAM:
3GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
Libre
Adunay 44,100 ka molupyo. Sa palibot sa Klondike. Sa palibot sa Emo. Lungsod ang Dialecto sa Italya. Sa palibot sa Bg. Adunay 5,057 ka molupyo.
Sa palibot sa:: Sa rehiyon palibot sa Cerro El Canto, mga kanal talagsaon komon.

MOSS-TTS NanoMOSS-TTS Nano

Free

Ang kinahabogang dapit sa palibot dunay gihabogon nga 1,080 ka metro ug 1.0 km sa amihanan-sidlakan sa Kūh-e Bāzāgh.Ang klima hemiboreal.Ang klima umogon ug subtropikal.Ang kasarangang giiniton 18 °C. Ang kinainitan nga bulan Hulyo, sa 20 °C, ug ang kinabugnawan Enero, sa -10 °C. Ang kasarangang pag-ulan 1,080 milimetro matag tuig.

Pag-uswag::
OpenMOSS
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan:
en, zh, de, es, fr, ja, it, ko, ru, ar, pt
VRAM:
2GB
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Adunay 1,000 ka molupyo.:
Libre
Adunay 100 ka molupyo. Espesye sa langaw ang Simulium insignis. Multilingual Sa palibot sa Klondike. Sa palibot sa Moos.
Sa palibot sa:: Sa rehiyon palibot sa High-Voltage Mine, mga kapanguhaan talagsaon komon.

KokoroKokoro

Libre

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Pag-uswag::
Hexgrad
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan: en, ja, zh, fr, it, pt, es, hi
Sa palibot sa:: High-quality TTS with minimal latency, streaming applications

PiperPiper

Libre

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Pag-uswag::
Rhasspy
Lisensya::
MIT
Katulin:
Fast
Kalidad::
Mga pinulongan: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi, ca, cy, fa, lv, sl, lb
Sa palibot sa:: Quick previews, accessibility, and embedded applications

VITSVITS

Libre

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Pag-uswag::
Jaehyeon Kim et al.
Lisensya::
MIT
Katulin:
Fast
Kalidad::
Mga pinulongan: en, de, es, fr, pt, nl, fi, hu, bg, ja, pl
Sa palibot sa:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

Libre

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Pag-uswag::
MyShell.ai
Lisensya::
MIT
Katulin:
Fast
Kalidad::
Mga pinulongan: en, es, fr, zh, ja, ko
Sa palibot sa:: Production applications needing fast, multilingual TTS

Kani TTS 2Kani TTS 2

Libre

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

Pag-uswag::
NineNineSix
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan: en
Sa palibot sa:: Fast English generation on low-VRAM hardware, quick previews

OuteTTSOuteTTS

Libre

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Pag-uswag::
OuteAI
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan: en
Sa palibot sa:: Edge deployment, browser-based TTS, low-resource environments

Pocket TTSPocket TTS

Libre

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

Pag-uswag::
Kyutai
Lisensya::
MIT
Katulin:
Fast
Kalidad::
Mga pinulongan: en, fr
Sa palibot sa:: Lightweight deployment, CPU-only environments, quick voice cloning

Kitten TTSKitten TTS

Libre

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Pag-uswag::
KittenML
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan: en
Sa palibot sa:: Fast lightweight TTS, edge deployment, low-latency applications

Ming-Omni TTSMing-Omni TTS

Libre

Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.

Pag-uswag::
inclusionAI
Lisensya::
Apache 2.0
Katulin:
Medium
Kalidad::
Mga pinulongan: en, zh
Sa palibot sa:: High-fidelity bilingual narration, emotion-controlled voice acting, Chinese audiobook content

MOSS-TTS NanoMOSS-TTS Nano

Libre

MOSS-TTS-Nano-100M is OpenMOSS's compact 100M-parameter variant of the MOSS-TTS family, sharing the delay-transformer architecture. Trades the 8B model's peak quality for ~80x smaller weights and dramatically lower per-request VRAM, making it suitable for free-tier and high-throughput deployments. Same 20-language reach.

Pag-uswag::
OpenMOSS
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Sa palibot sa:: Free-tier TTS, high-volume production, low-latency interactive use

BarkBark

Sa palibot sa Standard.

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

Pag-uswag::
Suno
Lisensya::
MIT
Katulin:
Slow
Kalidad::
Mga pinulongan:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Sa palibot sa Klondike.:
Wala
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
Sa palibot sa:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

Sa palibot sa Standard.

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

Pag-uswag::
Suno
Lisensya::
MIT
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Sa palibot sa Klondike.:
Wala
LightweightFaster than full BarkEmotional speechMultilingual
Sa palibot sa:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

Sa palibot sa Standard.

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

Pag-uswag::
Alibaba (Tongyi Lab)
Lisensya::
Apache 2.0
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, zh, ja, ko, fr, de, it, es
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
Sa palibot sa:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

Sa palibot sa Standard.

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

Pag-uswag::
Nari Labs
Lisensya::
Apache 2.0
Katulin:
Medium
Kalidad::
Mga pinulongan:
en
Sa palibot sa Klondike.:
Wala
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
Sa palibot sa:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

Sa palibot sa Standard.

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

Pag-uswag::
Hugging Face
Lisensya::
Apache 2.0
Katulin:
Medium
Kalidad::
Mga pinulongan:
en
Sa palibot sa Klondike.:
Wala
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
Sa palibot sa:: Creative applications where you need custom voice characteristics

IndexTTS-2IndexTTS-2

Sa palibot sa Standard.

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

Pag-uswag::
Index Team
Lisensya::
Bilibili Model License
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, zh
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
Sa palibot sa:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

Sa palibot sa Standard.

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

Pag-uswag::
SparkAudio
Lisensya::
CC BY-NC-SA 4.0
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, zh
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
Sa palibot sa:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

Sa palibot sa Standard.

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

Pag-uswag::
RVC-Boss
Lisensya::
MIT
Katulin:
Slow
Kalidad::
Mga pinulongan:
en, zh, ja, ko
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
Sa palibot sa:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

Sa palibot sa Standard.

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

Pag-uswag::
Canopy Labs
Lisensya::
Llama 3.2 Community
Katulin:
Medium
Kalidad::
Mga pinulongan:
en
Sa palibot sa Klondike.:
Wala
Human-level emotion100K hours trainingNatural emphasisExpressive speech
Sa palibot sa:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

Sa palibot sa Standard.

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports two modes: preset voices with emotion control (9 speakers), and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

Pag-uswag::
Alibaba (Qwen)
Lisensya::
Apache 2.0
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, zh, ja, ko, de, fr, ru, pt, es, it
Sa palibot sa Klondike.:
Wala
9 preset voicesVoice design from textEmotion control10 languages
Sa palibot sa:: Multilingual content with preset voices or custom voice design

VieNeu-TTS-v2VieNeu-TTS-v2

Sa palibot sa Standard.

VieNeu-TTS-v2 is a 300M parameter Vietnamese-first TTS model trained on 10,000+ hours of bilingual data. It supports seamless en-vi code-switching, 7 preset voices spanning Northern and Southern accents, and instant voice cloning from 3-5 seconds of reference audio. Runs entirely on CPU via GGUF Q4 inference + ONNX audio decoder — no GPU needed, generations finish in ~7 seconds. Built on a Qwen3 backbone.

Pag-uswag::
Phạm Nguyễn Ngọc Bảo
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan:
vi, en
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
7 preset voices (North + South accents)En-Vi code-switchingVoice cloning (3-5s reference)Podcast / multi-speaker supportCPU-only — no GPU required
Sa palibot sa:: Vietnamese content and bilingual en-vi narration

Chatterbox TurboChatterbox Turbo

Sa palibot sa Standard.

Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.

Pag-uswag::
Resemble AI
Lisensya::
MIT
Katulin:
Fast
Kalidad::
Mga pinulongan:
en
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking
Sa palibot sa:: Real-time voice agents, expressive speech with natural sounds

VoxCPMVoxCPM

Sa palibot sa Standard.

VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

Pag-uswag::
OpenBMB
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan:
en, zh
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning
Sa palibot sa:: High-fidelity audio, audiobooks, long-form content with voice consistency

VibeVoiceVibeVoice

Sa palibot sa Standard.

VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.

Pag-uswag::
Microsoft
Lisensya::
MIT
Katulin:
Fast
Kalidad::
Mga pinulongan:
en, zh
Sa palibot sa Klondike.:
Wala
Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency
Sa palibot sa:: Podcasts, dialogues, long-form narration, multi-speaker content

CosyVoice3CosyVoice3

Sa palibot sa Standard.

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

Pag-uswag::
Alibaba (FunAudioLLM)
Lisensya::
Apache 2.0
Katulin:
Fast
Kalidad::
Mga pinulongan:
en, zh, ja, ko, de, es, fr, it, ru
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following
Sa palibot sa:: Multilingual production TTS, real-time applications, voice cloning

NAMAA Saudi TTSNAMAA Saudi TTS

Sa palibot sa Standard.

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

Pag-uswag::
NAMAA Space
Lisensya::
MIT
Katulin:
Medium
Kalidad::
Mga pinulongan:
ar
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation
Sa palibot sa:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

Darwin TTSDarwin TTS

Sa palibot sa Standard.

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

Pag-uswag::
FINAL-Bench
Lisensya::
Apache 2.0
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, ko, ja, zh
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone
Sa palibot sa:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice

MOSS-TTSDMOSS-TTSD

Sa palibot sa Standard.

MOSS-TTSD v1.0 from OpenMOSS is a 7B dialogue text-to-speech model that continues conversations from a short audio prompt. Supports up to 5 simultaneous speakers via [S1]/[S2] tags, zero-shot voice cloning from 3-10s reference audio, and up to 60 minutes of coherent multi-turn dialogue across 20 languages. Distinct from MOSS-TTS — TTSD is specialized for podcast/audiobook/dubbing workflows.

Pag-uswag::
OpenMOSS
Lisensya::
Apache 2.0
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, zh
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
Multi-speaker dialogueUp to 5 speakers60min coherent audioVoice cloningPodcast-optimised
Sa palibot sa:: Podcasts, audiobooks, dubbed dialogue, conversational content with multiple voices

ChatterboxChatterbox

Premium

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

Pag-uswag::
Resemble AI
Lisensya::
MIT
Katulin:
Medium
Kalidad::
Mga pinulongan:
en
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
VRAM:
4GB
Adunay 1,000 ka molupyo.:
4x
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
Sa palibot sa:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

Premium

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

Pag-uswag::
James Betker
Lisensya::
Apache 2.0
Katulin:
Slow
Kalidad::
Mga pinulongan:
en
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
VRAM:
8GB
Adunay 1,000 ka molupyo.:
4x
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
Sa palibot sa:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

Pag-uswag::
Columbia University
Lisensya::
MIT
Katulin:
Medium
Kalidad::
Mga pinulongan:
en
Sa palibot sa Klondike.:
Wala
VRAM:
4GB
Adunay 1,000 ka molupyo.:
4x
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
Sa palibot sa:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

Premium

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

Pag-uswag::
MyShell.ai / MIT
Lisensya::
MIT
Katulin:
Medium
Kalidad::
Mga pinulongan:
en, zh, ja, ko, fr, es
Sa palibot sa Klondike.:
Sa palibot sa Jabal al Muḩallaqta.
VRAM:
4GB
Adunay 1,000 ka molupyo.:
4x
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
Sa palibot sa:: Voice cloning with fine-grained style control, voice conversion

Sesame CSMSesame CSM

Premium

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

Pag-uswag::
Sesame
Lisensya::
Apache 2.0
Katulin:
Slow
Kalidad::
Mga pinulongan:
en
Sa palibot sa Klondike.:
Wala
VRAM:
8GB
Adunay 1,000 ka molupyo.:
4x
ConversationalNatural timingTurn-takingBackchannel1B parameters
Sa palibot sa:: AI assistants, chatbots, conversational AI applications

Espesye sa langaw ang Simulium comparatum.

Modelo Pag-uswag: Tigre Kalidad: Katulin Mga pinulongan Sa palibot sa Klondike. VRAM Lisensya: Sa palibot sa Cost.
Kokoro Hexgrad Free Fast 8 1.5GB Apache 2.0 Libre Paggamit
Piper Rhasspy Free Fast 35 0 (CPU only) MIT Libre Paggamit
VITS Jaehyeon Kim et al. Free Fast 11 1GB MIT Libre Paggamit
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT Libre Paggamit
Bark Suno Standard Slow 13 5GB MIT 2 Paggamit
Bark Small Suno Standard Medium 13 2GB MIT 2 Paggamit
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 Paggamit
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 Paggamit
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 Paggamit
IndexTTS-2 Index Team Standard Medium 2 4GB Bilibili Model License 2 Paggamit
Spark TTS SparkAudio Standard Medium 2 4GB CC BY-NC-SA 4.0 2 Paggamit
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 Paggamit
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 Paggamit
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 Paggamit
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 Paggamit
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 Paggamit
OpenVoice MyShell.ai / MIT Premium Medium 6 4GB MIT 4 Paggamit
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 Paggamit
VieNeu-TTS-v2 Phạm Nguyễn Ngọc Bảo Standard Fast 2 CPU Apache 2.0 2 Paggamit
Sesame CSM Sesame Premium Slow 1 8GB Apache 2.0 4 Paggamit
Chatterbox Turbo Resemble AI Standard Fast 1 2GB MIT 2 Paggamit
VoxCPM OpenBMB Standard Fast 2 4GB Apache 2.0 2 Paggamit
Kani TTS 2 NineNineSix Free Fast 1 3GB Apache 2.0 Libre Paggamit
OuteTTS OuteAI Free Fast 1 2GB Apache 2.0 Libre Paggamit
VibeVoice Microsoft Standard Fast 2 4GB MIT 2 Paggamit
Pocket TTS Kyutai Free Fast 2 1GB MIT Libre Paggamit
Kitten TTS KittenML Free Fast 1 0GB Apache 2.0 Libre Paggamit
CosyVoice3 Alibaba (FunAudioLLM) Standard Fast 9 4GB Apache 2.0 2 Paggamit
NAMAA Saudi TTS NAMAA Space Standard Medium 1 6GB MIT 2 Paggamit
Darwin TTS FINAL-Bench Standard Medium 4 7GB Apache 2.0 2 Paggamit
MOSS-TTSD OpenMOSS Standard Medium 2 12GB Apache 2.0 2 Paggamit
Ming-Omni TTS inclusionAI Free Medium 2 3GB Apache 2.0 Libre Paggamit
MOSS-TTS Nano OpenMOSS Free Fast 11 2GB Apache 2.0 Libre Paggamit

Ang yuta palibot sa Textile kay medyo kabukiran.

Why Choose TTS.ai for Text to Speech?

Ang TTS.ai nagdala sa kalibutan sa labing maayo nga open-source text-to-speech modelo sa usa ka single, sayon sa paggamit sa plataporma. dili sama sa mga serbisyo nga may kalabutan sa lock kaninyo ngadto sa usa ka lamang nga tingog engine, TTS.ai naghatag kaninyo sa access sa 20+ modelo gikan sa mga nag-unang mga research labs lakip na Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University, ug uban pa.

Every model is open source under MIT, Apache 2.0, or similar permissive licenses, ensuring you have full commercial rights to use the generated audio in your projects. Whether you need fast, lightweight synthesis for real-time applications or premium studio-quality output for audiobooks and podcasts, TTS.ai has the right model for every use case.

Ang yuta palibot sa No Account kay lain-lain.

Pag-abli sa diha nga sa tulo ka libre nga TTS modelo: Piper (ultra-fast, lightweight), VITS (high-quality neural synthesis), ug MeloTTS (multi-language suporta). Wala sa pag-sign-up, walay credit card, walay limitasyon sa mga henerasyon. Libre nga mga modelo sa suporta sa English ug sa daghan nga mga uban pang mga pinulongan uban sa natural nga-sa tingog output nga angay alang sa kadaghanan sa mga aplikasyon.

Espesye sa langaw ang Gonomyia accelerata.

Ang tanan nga mga TTS modelo nga gidagan sa dedikado NVIDIA GPUs alang sa dali, konsistente nga mga panahon sa generation. Free mga modelo sa kasagaran sa paghimo sa audio sa ubos sa 2 segundo. Standard nga mga modelo sama sa Kokoro, CosyVoice 2, ug Bark average 3-5 segundo. Premium nga mga modelo sa labing taas nga kalidad, sama sa Tortoise ug Chatterbox, sa proseso sa 5-15 segundo depende sa gitas-on sa teksto.

30+ nga mga pinulongan

Generate speech in over 30 languages including English, Spanish, French, German, Italian, Portuguese, Chinese, Japanese, Korean, Arabic, Hindi, Russian, and many more. Several models support cross-lingual synthesis, meaning you can generate speech in a language the original voice was never trained on. CosyVoice 2 and GPT-SoVITS excel at cross-lingual voice cloning.

Bukid ang Debre-i-Ape sa Ehipto.

Integration TTS.ai ngadto sa imong mga aplikasyon uban sa atong OpenAI-compatible REST API. Usa ka endpoint alang sa tanan nga 20+ modelo. Python, JavaScript, cURL, ug Go SDKs. Streaming suporta alang sa mga aplikasyon sa real-time. Batch processing alang sa dako nga-scale nga mga butang sa generation. Webhooks alang sa async nga mga notification. API access gilakip sa matag plano lakip na ang libre.

Sa palibot sa Frequently Asked Questions.

Ang Text to Speech (TTS) mao ang usa ka AI teknolohiya nga nag-convert sa gisulat nga teksto ngadto sa natural nga-suod nga gisulti audio. modernong neural TTS mga modelo sama sa Kokoro, Chatterbox, ug CosyVoice 2 paggamit sa deep learning sa paghimo sa mga pulong nga susama sa talagsaong tawo, uban sa natural nga prosody, emosyon, ug ritmo.

Kini nag-agad sa imong mga panginahanglan. Alang sa dali nga preview, gamiton ang Piper o MeloTTS (libre, dali). Alang sa taas nga kalidad, sulayi ang Kokoro o CosyVoice 2 (standard tier). Alang sa tingog nga pag-clone, gamiton ang Chatterbox o GPT-SoVITS (premium). Alang sa mga dialog/podcast nga sulud, sulayi ang Dia TTS. Ang matag modelo adunay lainlaing mga kusog — eksperimento aron makit-an ang labing maayo nga angay.

Yes! TTS.ai offers free text-to-speech with Kokoro, Piper, VITS, and MeloTTS models. No account required for up to 500 characters and 3 generations per hour. Sign up for a free account to get 15,000 characters and access all models.

Ang among TTS modelo sa tibuok suporta 30+ mga pinulongan lakip na ang English, Spanish, French, German, Italian, Portuguese, Chinese, Japanese, Korean, Arabic, Russian, Hindi, ug daghan pa.

Oo, ang audio nga gihimo pinaagi sa TTS.ai mahimong gamiton sa komersyal. Ang tanan namong mga modelo gigamit ang mga lisensya sa open-source (MIT, Apache 2.0). Tan-awa ang mga lisensya sa mga indibidwal nga modelo alang sa piho nga mga kondisyon. Girekomenda namon ang pagsusi sa lisensya sa piho nga modelo nga imong gigamit alang sa imong proyekto.

TTS.ai suporta MP3, WAV, OGG, ug FLAC output formats. MP3 mao ang default alang sa web playback. WAV mao ang girekomendar alang sa dugang nga audio processing. Ikaw mahimo sa pagbalhin tali sa mga formats sa paggamit sa atong Audio Converter tool.

Ang pag-clone sa tingog gigamit ang AI aron ma-replicate ang usa ka piho nga tingog gikan sa usa ka mubo nga audio sample (kadaghanan 5-30 ka segundo). I-upload ang usa ka tin-aw nga pagrekord sa target nga tingog, ug ang mga modelo sama sa Chatterbox, GPT-SoVITS, o OpenVoice maghatag og bag-ong tingog sa tingog. Ang kalidad mapaayo sa mas maayo, mas taas nga reference audio.

Ang libre nga mga tiggamit mahimo sa paghimo sa hangtud sa 500 ka mga karakter sa matag hangyo. Ang mga narehistro nga mga tiggamit makaangkon sa hangtud sa 5,000 ka mga karakter sa matag hangyo. Alang sa mas taas nga mga teksto, ang audio mao ang gihimo sa mga bahin ug giputol sa tibuok awtomatikong. API mga tiggamit mahimo sa proseso sa hangtud sa 10,000 ka mga karakter sa matag hangyo.

Ang suporta sa SSML (Speech Synthesis Markup Language) nag-agad sa modelo. Ang Piper ug ang uban pang mga modelo nagsuporta sa mga SSML nga mga tag alang sa mga pauses, emphasis, ug pagpatin-aw sa kontrol. Alang sa mga modelo nga wala’y suporta sa native SSML, mahimo nimo gamiton ang natural nga punsyon ug mga pag-usab sa linya aron maimpluwensyahan ang prosody.

Oo, ang kadaghanan sa mga modelo suporta sa speed adjustment gikan sa 0.5x ngadto sa 2.0x. Ang pipila ka mga modelo sama sa Bark ug Parler usab nga nagtugot pitch ug estilo sa pagkontrol. Ikaw mahimo sa pagtakda sa speed parameters sa advanced settings panel o pinaagi sa API speed parameter.

Oo, ang batch processing anaa pinaagi sa among API. Mahimo nimo ipadala ang daghang mga teksto nga mga segment sa usa ka API call o script, ug ang matag usa iproseso ug ibalik ingon nga mga hiwalay audio file. Kini maayo alang sa audiobook chapters, e-learning modules, o game dialogue scripts.

I-generate ang usa ka API key gikan sa imong account dashboard, unya ipadala ang mga pangutana sa POST sa among REST API endpoint uban sa imong teksto, modelo, ug mga parameter sa tingog. Gihatag namon ang mga pananglitan sa code sa Python, JavaScript, ug cURL. Ang API mao ang OpenAI-compatible, mao nga ang mga naandan nga integrations nagtrabaho sa minimal nga mga pagbag-o.
5.0/5 (4)

Sa palibot sa Kūh-e Darreh-ye Āb.

Pagpadayon sa Konversyon sa Teksto ngadto sa Pagsulti Karon

Join thousands of creators using TTS.ai. Get 15,000 free characters with a new account. Free models available without signup.