AI liberă Text la discurs
33+ modele de surse deschise; 273+ voci, 33+ limbi. Nu este necesar cont.
Tot ce ai nevoie pentru voce AI
30+ unelte alimentate prin modele AI de sursă deschisă
33+ Modele vocale ale AI
Colecția cea mai cuprinzătoare a modelelor TTS de sursă deschisă într-o platformă
Kokoro Gratuit
Kokoro este un model text-to-speech de 82 milioane de parametri care lovește foarte mult deasupra clasei sale de greutate. În ciuda dimensiunilor sale mici, produce un discurs remarcabil natural și expresiv. Kokoro sprijină mai multe limbi, inclusiv engleză, japoneză, chineză și coreeană, cu o varietate de voci expresive. Funcționează incredibil de rapid — generarea de audio aproape 100x mai rapid decât în timp real pe o GPU.
Cel mai bun pentru: TTS de înaltă calitate cu latență minimă, aplicații de streaming
Încearcă liber
Piper Gratuit
Piper este un motor uşor de text la speech, dezvoltat de Rhasspy, care foloseşte arhitecturi VITS şi laringex. Funcţionează complet pe CPU, făcând-o ideal pentru dispozitive de bord, automatizare de casă şi aplicaţii care necesită TTS offline. Cu peste 100 de voci în 30+ limbi, Piper oferă un discurs de sunet natural la viteze în timp real chiar şi pe un Raspberry Pi 4.
Cel mai bun pentru: Vizualizări rapide, accesibilitate și aplicații încorporate
Încearcă liber
VITS Gratuit
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speeling) este o metodă paralelă de TTS end-to-end care generează audio mai natural decat modelele curente de două etape. Adoptă inference variational înmulțit cu fluxuri de normalizare și un proces de formare adversarială, obținând o îmbunătățire semnificativă a naturalității.
Cel mai bun pentru: Texte-la-picior pentru scop general cu prosodie naturală
Încearcă liber
MeloTTS Gratuit
MeloTTS de MyShell.ai este o bibliotecă multilingv TTS care sprijină engleza (americană, britanică, indiană, australiană), spaniolă, franceză, chineză, japoneză și coreeană. Este extrem de rapidă, prelucrarea textului la viteza aproape în timp real de CPU singur. MeloTTS este proiectat pentru utilizarea producției și suportă atât inferința CPU și GPU.
Cel mai bun pentru: Aplicații de producție care au nevoie de TTS rapid și multilingv
Încearcă liber
Kani TTS 2 Gratuit
Kani-TTS-2 de NineNineSix este un model de parametraj cu greutate ultra lichidă 400M construit pe o coloană vertebrală LFM2 AI Lichid cu NVIDIA NanoCodec. Ea funcționează în doar 3GB VRAM și produce ~10 secunde de discurs în ~2 secunde pe un A100 (RTF 0.2). Curentul public de eliberare nave un punct de control `kani-tts-2-en' englez și nu expune cârligul de comprimare al speakerului necesar pentru clonarea vocală — utilizați Chatterbox / IndexTTS2 / F5-TTS pentru clonarea, sau Kokoro / MeloTTS pentru non-englez.
Cel mai bun pentru: Generație rapidă de engleză pe hardware low-VRAM, anterioare rapide
Încearcă liber
OuteTTS Gratuit
OuteTTS extinde modele de limbaj mari cu capacități text-to-speech în timp ce menține arhitectura originală. Acesta suportă multiple backend-uri, inclusiv lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, și chiar inferența browser prin Transformers.js. Caracteristici de clonare vocală zero-shot prin profile de speaker salvate ca JSON.
Cel mai bun pentru: Desfășurare la bord, TTS bazat pe browser, medii cu resurse scăzute
Încearcă liber
Pocket TTS Gratuit
Pocket TTS de Kyutai (Creators of Moshi) este un model compact de text-to-speech de 100 M care lovește foarte peste greutatea sa. Funcționează eficient pe CPU, suportă clonarea vocală zero-shot dintr-o singură mostră audio și produce un discurs de sunet natural. Dimensiunea modelului mic îl face ideal pentru implementarea de borduri și mediile de resursă redusă.
Cel mai bun pentru: Desfășurare ușoară, medii numai CPU, clonare vocală rapidă
Încearcă liber
Kitten TTS Gratuit
Kitten TTS by KittenML este un model ultra-lightweight text-to-speech construit pe ONNX. Cu variante de la parametrii 15M la 80M (25-80 MB pe disc), acesta oferă sinteză vocală de înaltă calitate pe CPU fără a necesita un GPU. Caracteristici 8 voci integrate, viteza de vorbire reglabil și preprelucrarea textului integrat pentru numere, monede și unități. Ideal pentru implementarea de borduri și aplicații de latență redusă.
Cel mai bun pentru: TTS uşoară rapidă, implementarea de borduri, aplicaţii de latitate redusă
Încearcă liber
Ming-Omni TTS Gratuit
Ming-omni-tts-0.5B prin incluziuneAI este un model compact de vorbire omnimodal construit pe coloana densă BailingMM cu un decoder audio de patch-by-Patch care se potrivește cu fluxul. Depune ieșirea 44.1kHz (aproximativ calitatea CD), sprijină clonarea vocală zero-shot dintr-o 3+ a doua referință, și include emoție / dialect / control BGM built-in prin instrucțiuni JSON. Stabilitate excelentă — 0,83% WER pe benzile chineze.
Cel mai bun pentru: Narrare bilingvă de înaltă fidelitate, acționarea vocală controlată cu emoții, conținut audiobook chinezesc
Încearcă liber
MOSS-TTS Nano Gratuit
MOSS-TTS-Nano-100M este varianta compactă de 100M-parametr al familiei MOSS-TTS, împărtășind arhitectura întârziere-transformator. Tranzacționează calitatea maximă a modelului 8B pentru greutatea ~80x mai mici și, dramatic, mai mică per-request VRAM, ceea ce o face potrivit pentru implementarea gratuită și de înaltă funcție.
Cel mai bun pentru: TTS de grad liber, producție de mare volum, utilizare interactivă de latență redusă
Încearcă liber
Bark Standard
Model text-to-audio bazat pe transformatori care generează efecte realiste de vorbire, muzica și sunet.
Dezvoltator: Suno · Licență: MIT
Încearcă.
Bark Small Standard
Versiune mai ușoară a Bark cu o inferință mai rapidă și o utilizare mai mică a memoriei.
Dezvoltator: Suno · Licență: MIT
Încearcă.
CosyVoice 2 Standard
TTS de streaming scalabil al lui Alibaba cu naturalitate umană-paritate și latență aproape zero.
Dezvoltator: Alibaba (Tongyi Lab) · Licență: Apache 2.0
Încearcă.
Dia TTS Standard
Model de generare de dialog multi-speaker care creează conversații naturale între vorbitori.
Dezvoltator: Nari Labs · Licență: Apache 2.0
Încearcă.
Parler TTS Standard
Descrieți vocea pe care doriți în limba naturală și Parler generează vorbire potrivită.
Dezvoltator: Hugging Face · Licență: Apache 2.0
Încearcă.
IndexTTS-2 Standard
TTS zero-shot cu control de emoții fin-grained și mare expresibilitate.
Dezvoltator: Index Team · Licență: Bilibili Model License
Încearcă.
Spark TTS Standard
Clonarea vocală TTS cu emoție controlabilă și stil de vorbire prin prompte.
Dezvoltator: SparkAudio · Licență: CC BY-NC-SA 4.0
Încearcă.
GPT-SoVITS Standard
Puţine vocală de clonare TTS care repetă orice voce de la doar 5 secunde de audio.
Dezvoltator: RVC-Boss · Licență: MIT
Încearcă.
Orpheus Standard
Modelul emoţional de TTS la nivel uman instruit pe 100K de ore de date de vorbire.
Dezvoltator: Canopy Labs · Licență: Llama 3.2 Community
Încearcă.
Qwen3 TTS Standard
TTS multilingv al lui Alibaba cu voce predefinită și design vocal din text.
Dezvoltator: Alibaba (Qwen) · Licență: Apache 2.0
Încearcă.
VieNeu-TTS-v2 Standard
Vietnameză + engleză TTS-switching de cod cu 7 voci preconizate și de clonare vocală zero-shot. numai CPU-, nu este necesar GPU.
Dezvoltator: Phạm Nguyễn Ngọc Bảo · Licență: Apache 2.0
Încearcă.
Chatterbox Turbo Standard
Mai rapid Chatterbox cu latență sub-200ms și etichete paralinguiste pentru râsete, tuse, și mai mult.
Dezvoltator: Resemble AI · Licență: MIT
Încearcă.
VoxCPM Standard
TTS fără tokenizare producând audio 44.1kHz cu consecvența paragrafului context-aware.
Dezvoltator: OpenBMB · Licență: Apache 2.0
Încearcă.
VibeVoice Standard
Modelul Microsoft pentru conținutul multispeaker de forma lungă, cum ar fi podcast-uri și audiobook-uri.
Dezvoltator: Microsoft · Licență: MIT
Încearcă.
CosyVoice3 Standard
TTS multilingv de generație viitoare cu bi-flux, controlul emoțiilor și clonarea vocală zero-shot.
Dezvoltator: Alibaba (FunAudioLLM) · Licență: Apache 2.0
Încearcă.
NAMAA Saudi TTS Standard
Prima deschidere Saudi-Arabic TTS. Dialect nativ saudita cu clonarea vocală de calitate Chatterbox.
Dezvoltator: NAMAA Space · Licență: MIT
Încearcă.
Darwin TTS Standard
Varianta cross-modal Qwen3-TTS cu greutatea FFN combinată din modelul de limbaj Qwen3-1.7B pentru clonarea multilingue mai ascuțită.
Dezvoltator: FINAL-Bench · Licență: Apache 2.0
Încearcă.
MOSS-TTSD Standard
Modelul de continuare a dialogului multi-speaker – genera conversații în stil podcast cu până la 5 vorbitori și 60 de minute de audio coerent.
Dezvoltator: OpenMOSS · Licență: Apache 2.0
Încearcă.
CosyVoice 2
TTS de streaming scalabil al lui Alibaba cu naturalitate umană-paritate și latență aproape zero.
Limbi: en, zh, ja, ko, fr, de, it, es
Clonează vocea
IndexTTS-2
TTS zero-shot cu control de emoții fin-grained și mare expresibilitate.
Limbi: en, zh
Clonează vocea
Spark TTS
Clonarea vocală TTS cu emoție controlabilă și stil de vorbire prin prompte.
Limbi: en, zh
Clonează vocea
GPT-SoVITS
Puţine vocală de clonare TTS care repetă orice voce de la doar 5 secunde de audio.
Limbi: en, zh, ja, ko
Clonează vocea
Chatterbox
Vocea de ultimă generaţie, cu un control de emoţie de la Resemble AI.
Limbi: en
Clonează vocea
Tortoise TTS
Multi-voce text-to-speech se concentrează pe calitate cu arhitectura autorregressivă.
Limbi: en
Clonează vocea
OpenVoice
Clonarea vocală instantană cu control granular asupra stilului, emoţiei şi accentului.
Limbi: en, zh, ja, ko, fr, es
Clonează vocea
VieNeu-TTS-v2
Vietnameză + engleză TTS-switching de cod cu 7 voci preconizate și de clonare vocală zero-shot. numai CPU-, nu este necesar GPU.
Limbi: vi, en
Clonează vocea
Chatterbox Turbo
Mai rapid Chatterbox cu latență sub-200ms și etichete paralinguiste pentru râsete, tuse, și mai mult.
Limbi: en
Clonează vocea
VoxCPM
TTS fără tokenizare producând audio 44.1kHz cu consecvența paragrafului context-aware.
Limbi: en, zh
Clonează vocea
OuteTTS
LLM-based TTS care funcționează pe CPU, GPU, sau browser via lama.cpp și Transformers.js.
Limbi: en
Clonează vocea
Pocket TTS
Model de parametraj 100M uşor de Kyutai cu clonare vocală dintr-un singur eșantion.
Limbi: en, fr
Clonează vocea
CosyVoice3
TTS multilingv de generație viitoare cu bi-flux, controlul emoțiilor și clonarea vocală zero-shot.
Limbi: en, zh, ja, ko, de, es, fr, it, ru
Clonează vocea
NAMAA Saudi TTS
Prima deschidere Saudi-Arabic TTS. Dialect nativ saudita cu clonarea vocală de calitate Chatterbox.
Limbi: ar
Clonează vocea
Darwin TTS
Varianta cross-modal Qwen3-TTS cu greutatea FFN combinată din modelul de limbaj Qwen3-1.7B pentru clonarea multilingue mai ascuțită.
Limbi: en, ko, ja, zh
Clonează vocea
MOSS-TTSD
Modelul de continuare a dialogului multi-speaker – genera conversații în stil podcast cu până la 5 vorbitori și 60 de minute de audio coerent.
Limbi: en, zh
Clonează vocea
Ming-Omni TTS
Modelul de vorbire omnimodal compact 0.5B din includereaAI cu ieșire de înaltă fidelitate 44.1kHz și clonarea vocală zero-shot.
Limbi: en, zh
Clonează vocea
MOSS-TTS Nano
Varianta MOSS-TTS minus 100M – aceeași arhitectură, 80x mai mici, latență de tip liber.
Limbi: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Clonează voceaDezvoltator-Primă API
API REST compatibilă cu OpenAI. O endpoint, 22+ modele. Suport de transparență pentru aplicații în timp real.
- Format compatibil cu OpenAI
- Streaming TTS pentru aplicații în timp real
- Prelucrarea lotului pentru locuri de muncă mari
- Notificații webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Preţuri simple, transparente
Începe gratis. Scalează-te pe măsură ce creşti.
Gratuit
15.000 de caractere + 5.000/zi
- 7 modele gratuite, inclusiv Kokoro
- 5000 de caractere pe generație
- Acces API inclus
Pornitor
500 000 de caractere/luna
- Toate cele 22+ modele
- 100.000 de caractere pe generație
- Clonarea vocală
Pro
2.000.000 de caractere/luna
- Totul în Starter
- Acces API
- Prelucrarea prioritară
Întrebări frecvente
Feedback-ul vostru ne ajută să rezolvăm problemele.
Începeți să utilizați vocea AI astăzi
Alăturați-vă creatorilor, dezvoltatorilor și întreprinderilor folosind TTS.ai