AI liberă Text la discurs
31+ modele de surse deschise; 231+ voci, 34+ limbi. Nu este necesar cont.
Tot ce ai nevoie pentru voce AI
30+ unelte alimentate prin modele AI de sursă deschisă
31+ Modele vocale ale AI
Colecția cea mai cuprinzătoare a modelelor TTS de sursă deschisă într-o platformă
Kokoro Free
Kokoro este un model text-to-speech de 82 milioane de parametri care lovește foarte mult deasupra clasei sale de greutate. În ciuda dimensiunilor sale mici, produce un discurs remarcabil natural și expresiv. Kokoro sprijină mai multe limbi, inclusiv engleză, japoneză, chineză și coreeană, cu o varietate de voci expresive. Funcționează incredibil de rapid — generarea de audio aproape 100x mai rapid decât în timp real pe o GPU.
Cel mai bun pentru: TTS de înaltă calitate cu latență minimă, aplicații de streaming
Încearcă liber
Piper Free
Piper este un motor uşor de text la speech, dezvoltat de Rhasspy, care foloseşte arhitecturi VITS şi laringex. Funcţionează complet pe CPU, făcând-o ideal pentru dispozitive de bord, automatizare de casă şi aplicaţii care necesită TTS offline. Cu peste 100 de voci în 30+ limbi, Piper oferă un discurs de sunet natural la viteze în timp real chiar şi pe un Raspberry Pi 4.
Cel mai bun pentru: Vizualizări rapide, accesibilitate și aplicații încorporate
Încearcă liber
VITS Free
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speeling) este o metodă paralelă de TTS end-to-end care generează audio mai natural decat modelele curente de două etape. Adoptă inference variational înmulțit cu fluxuri de normalizare și un proces de formare adversarială, obținând o îmbunătățire semnificativă a naturalității.
Cel mai bun pentru: Texte-la-picior pentru scop general cu prosodie naturală
Încearcă liber
MeloTTS Free
MeloTTS de MyShell.ai este o bibliotecă multilingv TTS care sprijină engleza (americană, britanică, indiană, australiană), spaniolă, franceză, chineză, japoneză și coreeană. Este extrem de rapidă, prelucrarea textului la viteza aproape în timp real de CPU singur. MeloTTS este proiectat pentru utilizarea producției și suportă atât inferința CPU și GPU.
Cel mai bun pentru: Aplicații de producție care au nevoie de TTS rapid și multilingv
Încearcă liber
OuteTTS Free
OuteTTS extinde modele de limbaj mari cu capacități text-to-speech în timp ce menține arhitectura originală. Acesta suportă multiple backend-uri, inclusiv lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, și chiar inferența browser prin Transformers.js. Caracteristici de clonare vocală zero-shot prin profile de speaker salvate ca JSON.
Cel mai bun pentru: Desfășurare la bord, TTS bazat pe browser, medii cu resurse scăzute
Încearcă liber
Pocket TTS Free
Pocket TTS de Kyutai (Creators of Moshi) este un model compact de text-to-speech de 100 M care lovește foarte peste greutatea sa. Funcționează eficient pe CPU, suportă clonarea vocală zero-shot dintr-o singură mostră audio și produce un discurs de sunet natural. Dimensiunea modelului mic îl face ideal pentru implementarea de borduri și mediile de resursă redusă.
Cel mai bun pentru: Desfășurare ușoară, medii numai CPU, clonare vocală rapidă
Încearcă liber
Kitten TTS Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
Cel mai bun pentru: Fast lightweight TTS, edge deployment, low-latency applications
Încearcă liber
Bark Standard
Model text-to-audio bazat pe transformatori care generează efecte realiste de vorbire, muzica și sunet.
Dezvoltator: Suno · Licență: MIT
Încearcă.
Bark Small Standard
Versiune mai ușoară a Bark cu o inferință mai rapidă și o utilizare mai mică a memoriei.
Dezvoltator: Suno · Licență: MIT
Încearcă.
CosyVoice 2 Standard
TTS de streaming scalabil al lui Alibaba cu naturalitate umană-paritate și latență aproape zero.
Dezvoltator: Alibaba (Tongyi Lab) · Licență: Apache 2.0
Încearcă.
Dia TTS Standard
Model de generare de dialog multi-speaker care creează conversații naturale între vorbitori.
Dezvoltator: Nari Labs · Licență: Apache 2.0
Încearcă.
Parler TTS Standard
Descrieți vocea pe care doriți în limba naturală și Parler generează vorbire potrivită.
Dezvoltator: Hugging Face · Licență: Apache 2.0
Încearcă.
GLM-TTS Standard
Atinge cea mai mică rată de eroare a caracterului printre modelele TTS de surse deschise.
Dezvoltator: Zhipu AI · Licență: GLM-4 License
Încearcă.
IndexTTS-2 Standard
TTS zero-shot cu control de emoții fin-grained și mare expresibilitate.
Dezvoltator: Index Team · Licență: Bilibili Model License
Încearcă.
Spark TTS Standard
Clonarea vocală TTS cu emoție controlabilă și stil de vorbire prin prompte.
Dezvoltator: SparkAudio · Licență: CC BY-NC-SA 4.0
Încearcă.
GPT-SoVITS Standard
Puţine vocală de clonare TTS care repetă orice voce de la doar 5 secunde de audio.
Dezvoltator: RVC-Boss · Licență: MIT
Încearcă.
Orpheus Standard
Modelul emoţional de TTS la nivel uman instruit pe 100K de ore de date de vorbire.
Dezvoltator: Canopy Labs · Licență: Llama 3.2 Community
Încearcă.
Qwen3 TTS Standard
TTS multilingv al lui Alibaba cu clonarea vocală, vocea preconizată, și proiectarea vocală din text.
Dezvoltator: Alibaba (Qwen) · Licență: Apache 2.0
Încearcă.
Chatterbox Turbo Standard
Mai rapid Chatterbox cu latență sub-200ms și etichete paralinguiste pentru râsete, tuse, și mai mult.
Dezvoltator: Resemble AI · Licență: MIT
Încearcă.
Dia 2 Standard
Streaming-first conversational TTS cu dialog multi-speaker și indicații paralinguiste.
Dezvoltator: Nari Labs · Licență: Apache 2.0
Încearcă.
VoxCPM Standard
TTS fără tokenizare producând audio 44.1kHz cu consecvența paragrafului context-aware.
Dezvoltator: OpenBMB · Licență: Apache 2.0
Încearcă.
TADA Standard
TTS cu aliniere dublă text-acoustic, cu halucinație zero, cu 5x mai rapid decât TTS LLM comparabil.
Dezvoltator: Hume AI · Licență: MIT
Încearcă.
VibeVoice Standard
Modelul Microsoft pentru conținutul multispeaker de forma lungă, cum ar fi podcast-uri și audiobook-uri.
Dezvoltator: Microsoft · Licență: MIT
Încearcă.
CosyVoice3 Standard
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Dezvoltator: Alibaba (FunAudioLLM) · Licență: Apache 2.0
Încearcă.
CosyVoice 2
TTS de streaming scalabil al lui Alibaba cu naturalitate umană-paritate și latență aproape zero.
Limbi: en, zh, ja, ko, fr, de, it, es
Clonează vocea
GLM-TTS
Atinge cea mai mică rată de eroare a caracterului printre modelele TTS de surse deschise.
Limbi: en, zh
Clonează vocea
IndexTTS-2
TTS zero-shot cu control de emoții fin-grained și mare expresibilitate.
Limbi: en, zh
Clonează vocea
Spark TTS
Clonarea vocală TTS cu emoție controlabilă și stil de vorbire prin prompte.
Limbi: en, zh
Clonează vocea
GPT-SoVITS
Puţine vocală de clonare TTS care repetă orice voce de la doar 5 secunde de audio.
Limbi: en, zh, ja, ko
Clonează vocea
Chatterbox
Vocea de ultimă generaţie, cu un control de emoţie de la Resemble AI.
Limbi: en
Clonează vocea
Tortoise TTS
Multi-voce text-to-speech se concentrează pe calitate cu arhitectura autorregressivă.
Limbi: en
Clonează vocea
OpenVoice
Clonarea vocală instantană cu control granular asupra stilului, emoţiei şi accentului.
Limbi: en, zh, ja, ko, fr, de, es, it
Clonează vocea
Qwen3 TTS
TTS multilingv al lui Alibaba cu clonarea vocală, vocea preconizată, și proiectarea vocală din text.
Limbi: en, zh, ja, ko, de, fr, ru, pt, es, it
Clonează vocea
Chatterbox Turbo
Mai rapid Chatterbox cu latență sub-200ms și etichete paralinguiste pentru râsete, tuse, și mai mult.
Limbi: en
Clonează vocea
VoxCPM
TTS fără tokenizare producând audio 44.1kHz cu consecvența paragrafului context-aware.
Limbi: en, zh
Clonează vocea
OuteTTS
LLM-based TTS care funcționează pe CPU, GPU, sau browser via lama.cpp și Transformers.js.
Limbi: en
Clonează vocea
Pocket TTS
Model de parametraj 100M uşor de Kyutai cu clonare vocală dintr-un singur eșantion.
Limbi: en, fr
Clonează vocea
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Limbi: en, zh, ja, ko, de, es, fr, it, ru
Clonează vocea
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
Limbi: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
Clonează vocea
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
Limbi: en, zh
Clonează voceaDezvoltator-Primă API
API REST compatibilă cu OpenAI. O endpoint, 22+ modele. Suport de transparență pentru aplicații în timp real.
- Format compatibil cu OpenAI
- Streaming TTS pentru aplicații în timp real
- Prelucrarea lotului pentru locuri de muncă mari
- Notificații webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Preţuri simple, transparente
Începe gratis. Scalează-te pe măsură ce creşti.
Gratuit
15.000 de caractere
- Kokoro, Piper, VITS, MeloTTS
- Limite de 500 de caractere
- 3 gen/oră (fără cont)
Pornitor
500 000 de caractere/luna
- Toate cele 22+ modele
- 100.000 de caractere pe generație
- Clonarea vocală
Pro
2.000.000 de caractere/luna
- Totul în Starter
- Acces API
- Prelucrarea prioritară
Întrebări frecvente
Feedback-ul vostru ne ajută să rezolvăm problemele.
Începeți să utilizați vocea AI astăzi
Alăturați-vă creatorilor, dezvoltatorilor și întreprinderilor folosind TTS.ai