AI liberă Text la discurs

31+ modele de surse deschise; 231+ voci, 34+ limbi. Nu este necesar cont.

8K+
creatori
32K+
generații
31+
Modele de IA
231+
voci
0/500 caractere · Sign up for 5,000 per generation → Gratuit
Spune-i prietenilor tăi!

Tot ce ai nevoie pentru voce AI

30+ unelte alimentate prin modele AI de sursă deschisă

31+ Modele vocale ale AI

Colecția cea mai cuprinzătoare a modelelor TTS de sursă deschisă într-o platformă

KokoroKokoro Free

Kokoro este un model text-to-speech de 82 milioane de parametri care lovește foarte mult deasupra clasei sale de greutate. În ciuda dimensiunilor sale mici, produce un discurs remarcabil natural și expresiv. Kokoro sprijină mai multe limbi, inclusiv engleză, japoneză, chineză și coreeană, cu o varietate de voci expresive. Funcționează incredibil de rapid — generarea de audio aproape 100x mai rapid decât în timp real pe o GPU.

Cel mai bun pentru: TTS de înaltă calitate cu latență minimă, aplicații de streaming

Încearcă liber

PiperPiper Free

Piper este un motor uşor de text la speech, dezvoltat de Rhasspy, care foloseşte arhitecturi VITS şi laringex. Funcţionează complet pe CPU, făcând-o ideal pentru dispozitive de bord, automatizare de casă şi aplicaţii care necesită TTS offline. Cu peste 100 de voci în 30+ limbi, Piper oferă un discurs de sunet natural la viteze în timp real chiar şi pe un Raspberry Pi 4.

Cel mai bun pentru: Vizualizări rapide, accesibilitate și aplicații încorporate

Încearcă liber

VITSVITS Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speeling) este o metodă paralelă de TTS end-to-end care generează audio mai natural decat modelele curente de două etape. Adoptă inference variational înmulțit cu fluxuri de normalizare și un proces de formare adversarială, obținând o îmbunătățire semnificativă a naturalității.

Cel mai bun pentru: Texte-la-picior pentru scop general cu prosodie naturală

Încearcă liber

MeloTTSMeloTTS Free

MeloTTS de MyShell.ai este o bibliotecă multilingv TTS care sprijină engleza (americană, britanică, indiană, australiană), spaniolă, franceză, chineză, japoneză și coreeană. Este extrem de rapidă, prelucrarea textului la viteza aproape în timp real de CPU singur. MeloTTS este proiectat pentru utilizarea producției și suportă atât inferința CPU și GPU.

Cel mai bun pentru: Aplicații de producție care au nevoie de TTS rapid și multilingv

Încearcă liber

OuteTTSOuteTTS Free

OuteTTS extinde modele de limbaj mari cu capacități text-to-speech în timp ce menține arhitectura originală. Acesta suportă multiple backend-uri, inclusiv lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, și chiar inferența browser prin Transformers.js. Caracteristici de clonare vocală zero-shot prin profile de speaker salvate ca JSON.

Cel mai bun pentru: Desfășurare la bord, TTS bazat pe browser, medii cu resurse scăzute

Încearcă liber

Pocket TTSPocket TTS Free

Pocket TTS de Kyutai (Creators of Moshi) este un model compact de text-to-speech de 100 M care lovește foarte peste greutatea sa. Funcționează eficient pe CPU, suportă clonarea vocală zero-shot dintr-o singură mostră audio și produce un discurs de sunet natural. Dimensiunea modelului mic îl face ideal pentru implementarea de borduri și mediile de resursă redusă.

Cel mai bun pentru: Desfășurare ușoară, medii numai CPU, clonare vocală rapidă

Încearcă liber

Kitten TTSKitten TTS Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Cel mai bun pentru: Fast lightweight TTS, edge deployment, low-latency applications

Încearcă liber

BarkBark Standard

Model text-to-audio bazat pe transformatori care generează efecte realiste de vorbire, muzica și sunet.

Dezvoltator: Suno · Licență: MIT

Încearcă.

Bark SmallBark Small Standard

Versiune mai ușoară a Bark cu o inferință mai rapidă și o utilizare mai mică a memoriei.

Dezvoltator: Suno · Licență: MIT

Încearcă.

CosyVoice 2CosyVoice 2 Standard

TTS de streaming scalabil al lui Alibaba cu naturalitate umană-paritate și latență aproape zero.

Dezvoltator: Alibaba (Tongyi Lab) · Licență: Apache 2.0

Încearcă.

Dia TTSDia TTS Standard

Model de generare de dialog multi-speaker care creează conversații naturale între vorbitori.

Dezvoltator: Nari Labs · Licență: Apache 2.0

Încearcă.

Parler TTSParler TTS Standard

Descrieți vocea pe care doriți în limba naturală și Parler generează vorbire potrivită.

Dezvoltator: Hugging Face · Licență: Apache 2.0

Încearcă.

GLM-TTSGLM-TTS Standard

Atinge cea mai mică rată de eroare a caracterului printre modelele TTS de surse deschise.

Dezvoltator: Zhipu AI · Licență: GLM-4 License

Încearcă.

IndexTTS-2IndexTTS-2 Standard

TTS zero-shot cu control de emoții fin-grained și mare expresibilitate.

Dezvoltator: Index Team · Licență: Bilibili Model License

Încearcă.

Spark TTSSpark TTS Standard

Clonarea vocală TTS cu emoție controlabilă și stil de vorbire prin prompte.

Dezvoltator: SparkAudio · Licență: CC BY-NC-SA 4.0

Încearcă.

GPT-SoVITSGPT-SoVITS Standard

Puţine vocală de clonare TTS care repetă orice voce de la doar 5 secunde de audio.

Dezvoltator: RVC-Boss · Licență: MIT

Încearcă.

OrpheusOrpheus Standard

Modelul emoţional de TTS la nivel uman instruit pe 100K de ore de date de vorbire.

Dezvoltator: Canopy Labs · Licență: Llama 3.2 Community

Încearcă.

Qwen3 TTSQwen3 TTS Standard

TTS multilingv al lui Alibaba cu clonarea vocală, vocea preconizată, și proiectarea vocală din text.

Dezvoltator: Alibaba (Qwen) · Licență: Apache 2.0

Încearcă.

Chatterbox TurboChatterbox Turbo Standard

Mai rapid Chatterbox cu latență sub-200ms și etichete paralinguiste pentru râsete, tuse, și mai mult.

Dezvoltator: Resemble AI · Licență: MIT

Încearcă.

Dia 2Dia 2 Standard

Streaming-first conversational TTS cu dialog multi-speaker și indicații paralinguiste.

Dezvoltator: Nari Labs · Licență: Apache 2.0

Încearcă.

VoxCPMVoxCPM Standard

TTS fără tokenizare producând audio 44.1kHz cu consecvența paragrafului context-aware.

Dezvoltator: OpenBMB · Licență: Apache 2.0

Încearcă.

TADATADA Standard

TTS cu aliniere dublă text-acoustic, cu halucinație zero, cu 5x mai rapid decât TTS LLM comparabil.

Dezvoltator: Hume AI · Licență: MIT

Încearcă.

VibeVoiceVibeVoice Standard

Modelul Microsoft pentru conținutul multispeaker de forma lungă, cum ar fi podcast-uri și audiobook-uri.

Dezvoltator: Microsoft · Licență: MIT

Încearcă.

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Dezvoltator: Alibaba (FunAudioLLM) · Licență: Apache 2.0

Încearcă.

ChatterboxChatterbox Premium

Vocea de ultimă generaţie, cu un control de emoţie de la Resemble AI.

Calitate:

Încearcă.

Tortoise TTSTortoise TTS Premium

Multi-voce text-to-speech se concentrează pe calitate cu arhitectura autorregressivă.

Calitate:

Încearcă.

StyleTTS 2StyleTTS 2 Premium

Textul la speech la nivel uman prin difuzarea stilului si formarea adversariala.

Calitate:

Încearcă.

OpenVoiceOpenVoice Premium

Clonarea vocală instantană cu control granular asupra stilului, emoţiei şi accentului.

Calitate:

Încearcă.

Sesame CSMSesame CSM Premium

Modelul de vorbire de conversație generarea dialogului natural cu timp și emoție adecvat.

Calitate:

Încearcă.

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Calitate:

Încearcă.

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Calitate:

Încearcă.

CosyVoice 2CosyVoice 2

TTS de streaming scalabil al lui Alibaba cu naturalitate umană-paritate și latență aproape zero.

Limbi: en, zh, ja, ko, fr, de, it, es

Clonează vocea

GLM-TTSGLM-TTS

Atinge cea mai mică rată de eroare a caracterului printre modelele TTS de surse deschise.

Limbi: en, zh

Clonează vocea

IndexTTS-2IndexTTS-2

TTS zero-shot cu control de emoții fin-grained și mare expresibilitate.

Limbi: en, zh

Clonează vocea

Spark TTSSpark TTS

Clonarea vocală TTS cu emoție controlabilă și stil de vorbire prin prompte.

Limbi: en, zh

Clonează vocea

GPT-SoVITSGPT-SoVITS

Puţine vocală de clonare TTS care repetă orice voce de la doar 5 secunde de audio.

Limbi: en, zh, ja, ko

Clonează vocea

ChatterboxChatterbox

Vocea de ultimă generaţie, cu un control de emoţie de la Resemble AI.

Limbi: en

Clonează vocea

Tortoise TTSTortoise TTS

Multi-voce text-to-speech se concentrează pe calitate cu arhitectura autorregressivă.

Limbi: en

Clonează vocea

OpenVoiceOpenVoice

Clonarea vocală instantană cu control granular asupra stilului, emoţiei şi accentului.

Limbi: en, zh, ja, ko, fr, de, es, it

Clonează vocea

Qwen3 TTSQwen3 TTS

TTS multilingv al lui Alibaba cu clonarea vocală, vocea preconizată, și proiectarea vocală din text.

Limbi: en, zh, ja, ko, de, fr, ru, pt, es, it

Clonează vocea

Chatterbox TurboChatterbox Turbo

Mai rapid Chatterbox cu latență sub-200ms și etichete paralinguiste pentru râsete, tuse, și mai mult.

Limbi: en

Clonează vocea

VoxCPMVoxCPM

TTS fără tokenizare producând audio 44.1kHz cu consecvența paragrafului context-aware.

Limbi: en, zh

Clonează vocea

OuteTTSOuteTTS

LLM-based TTS care funcționează pe CPU, GPU, sau browser via lama.cpp și Transformers.js.

Limbi: en

Clonează vocea

Pocket TTSPocket TTS

Model de parametraj 100M uşor de Kyutai cu clonare vocală dintr-un singur eșantion.

Limbi: en, fr

Clonează vocea

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Limbi: en, zh, ja, ko, de, es, fr, it, ru

Clonează vocea

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Limbi: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Clonează vocea

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Limbi: en, zh

Clonează vocea

Dezvoltator-Primă API

API REST compatibilă cu OpenAI. O endpoint, 22+ modele. Suport de transparență pentru aplicații în timp real.

  • Format compatibil cu OpenAI
  • Streaming TTS pentru aplicații în timp real
  • Prelucrarea lotului pentru locuri de muncă mari
  • Notificații webhook
Afișează docurile API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Preţuri simple, transparente

Începe gratis. Scalează-te pe măsură ce creşti.

Gratuit

$0

15.000 de caractere

  • Kokoro, Piper, VITS, MeloTTS
  • Limite de 500 de caractere
  • 3 gen/oră (fără cont)
Inscrie-te gratis

Pornitor

$9/mo

500 000 de caractere/luna

  • Toate cele 22+ modele
  • 100.000 de caractere pe generație
  • Clonarea vocală
Începe
Cel mai popular

Pro

$29/mo

2.000.000 de caractere/luna

  • Totul în Starter
  • Acces API
  • Prelucrarea prioritară
Obține Pro

Afaceri

$99/mo

10 000 000 de caractere/luna

  • Totul în Pro
  • API Bulk
  • Coada prioritară
Obțineți Afaceri

Afișează toate planurile, inclusiv pachete de personaje →

Întrebări frecvente

TTS.ai este cea mai cuprinzătoare platformă vocală AI, oferind 22+ modele text-to-speech, clonare vocală, unelte vocale-to-text și audio. Toate modelele sunt sursă deschisă fără blocare furnizor.

Da! TTS.ai oferă gratuit text-to-speech cu modele Kokoro, Piper, VITS și MeloTTS. Nu este nevoie de cont. Înregistrează-te pentru a obține 15.000 de caractere gratuite și accesa toate modelele. Planurile plătite încep la 9$/luna.

Pentru viteză, utilizați Kokoro sau Piper. Pentru calitate, încercați CosyVoice 2 sau StyleTTS 2. Pentru clonarea vocală, utilizați Chatterbox sau GPT-SoVITS. Pentru dialog, utilizați Dia TTS. Încercați mai multe modele pe același text pentru a compara.

Da. API REST compatible cu OpenAI pentru TTS, STT, clonare vocală și instrumente audio. Disponibil pe Pro (29/mo) și Enterprise planuri (99/mo). Vizualizați documentația la tts.ai/api/.

Calitatea vocală variază după model. Modelele premium cum ar fi CosyVoice 2, StyleTTS 2, și Chatterbox produc discurs de calitate aproape umană cu intonare naturală și emoție. Modelele gratuite cum ar fi Kokoro oferă o calitate excelentă pentru cele mai multe cazuri de utilizare.

TTS.ai suportă 30 de limbi în biblioteca sa model. Engleza are cel mai larg suport model, dar modele cum ar fi CosyVoice 2 acoperire chineză, japoneză și coreeană; GPT-SoVITS manieră chinezească, japoneză, coreeană și engleză; și MeloTTS sprijină engleză, spaniolă, franceză, chineză, japoneză și coreeană.

Da. Toate prelucrarea se întâmplă pe serverele noastre GPU dedicate. Noi nu stochăm inputul text sau audio generat după livrarea. Exemplare de voce încărcate pentru clonarea sunt folosite doar pentru sesiunea curentă și nu sunt păstrate. Nu împărtășim niciodată datele cu terțe părți sau îl folosim pentru a antrena modele.

Da. Tot audio generat pe TTS.ai este al tău pentru a utiliza comercial, inclusiv pentru videoclipuri, podcast-uri, audiobook-uri, aplicații, reclame și produse. Modelele noastre sunt open source sub licențe permisive (MIT, Apache 2.0). Nu sunt necesare royalties sau atribuire.

TTS.ai generează audio în format WAV prin predefinire pentru calitatea maximă. Puteți converti în MP3, FLAC, OGG sau M4A folosind instrumentul nostru gratuit Audio Converter. API suportă specificarea formatului de ieșire preferat direct în cerere.

Încarcă un eșantion audio scurt (chiar de 5 secunde) de voce doriți să clonați, apoi tastați orice text pentru a genera voce în acea voce. Modele cum ar fi Chatterbox, GPT-SoVITS și CosyVoice 2 suportă clonarea vocală. Voce clonat captează ton, accent și stil de vorbă.

Modelele gratuite (Kokoro, Piper, VITS, MeloTTS) nu necesită cont și costuri zero caractere. Modelele standard (1,000 de caractere/1K input) includ Bark, CosyVoice 2, F5-TTS, și Dia. Modelele premium (4.000 de caractere/1K input) includ OpenVoice, Chatterbox, StyleTTS 2, și Tortoise. Modelele plate oferă în general calitate mai mare, mai multe voci, și caracteristici suplimentare cum clonarea vocală.

Da. API suportă prelucrarea lotului pentru transformarea volumelor mari de text în vorbire. Trimite mai multe cereri și recuperează rezultate o sincronică folosind job UUIDs. Planurile de întreprinderi (99/mo) includ acces prioritar la coada pentru procesarea lotului mai rapid. Ideal pentru producția audiobook, conținut de curs, și proiecte vocale over la scară largă.
4.0/5 (22)

Feedback-ul vostru ne ajută să rezolvăm problemele.

Începeți să utilizați vocea AI astăzi

Alăturați-vă creatorilor, dezvoltatorilor și întreprinderilor folosind TTS.ai