AI liberă Text la discurs

20+ modele de surse deschise; 107+ voci, 32+ limbi. Nu este necesar cont.

1K+
creatori
2K+
generații
20+
Modele de IA
107+
voci
0/500 caractere Gratuit
Like TTS.ai? Tell your friends!

Tot ce ai nevoie pentru voce AI

30+ unelte alimentate prin modele AI de sursă deschisă

20+ Modele vocale ale AI

Colecția cea mai cuprinzătoare a modelelor TTS de sursă deschisă într-o platformă

KokoroKokoro Free

Kokoro este un model text-to-speech de 82 milioane de parametri care lovește foarte mult deasupra clasei sale de greutate. În ciuda dimensiunilor sale mici, produce un discurs remarcabil natural și expresiv. Kokoro sprijină mai multe limbi, inclusiv engleză, japoneză, chineză și coreeană, cu o varietate de voci expresive. Funcționează incredibil de rapid — generarea de audio aproape 100x mai rapid decât în timp real pe o GPU.

Cel mai bun pentru: TTS de înaltă calitate cu latență minimă, aplicații de streaming

Încearcă liber

PiperPiper Free

Piper este un motor uşor de text la speech, dezvoltat de Rhasspy, care foloseşte arhitecturi VITS şi laringex. Funcţionează complet pe CPU, făcând-o ideal pentru dispozitive de bord, automatizare de casă şi aplicaţii care necesită TTS offline. Cu peste 100 de voci în 30+ limbi, Piper oferă un discurs de sunet natural la viteze în timp real chiar şi pe un Raspberry Pi 4.

Cel mai bun pentru: Vizualizări rapide, accesibilitate și aplicații încorporate

Încearcă liber

VITSVITS Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speeling) este o metodă paralelă de TTS end-to-end care generează audio mai natural decat modelele curente de două etape. Adoptă inference variational înmulțit cu fluxuri de normalizare și un proces de formare adversarială, obținând o îmbunătățire semnificativă a naturalității.

Cel mai bun pentru: Texte-la-picior pentru scop general cu prosodie naturală

Încearcă liber

MeloTTSMeloTTS Free

MeloTTS de MyShell.ai este o bibliotecă multilingv TTS care sprijină engleza (americană, britanică, indiană, australiană), spaniolă, franceză, chineză, japoneză și coreeană. Este extrem de rapidă, prelucrarea textului la viteza aproape în timp real de CPU singur. MeloTTS este proiectat pentru utilizarea producției și suportă atât inferința CPU și GPU.

Cel mai bun pentru: Aplicații de producție care au nevoie de TTS rapid și multilingv

Încearcă liber

BarkBark Standard

Model text-to-audio bazat pe transformatori care generează efecte realiste de vorbire, muzica și sunet.

Dezvoltator: Suno · Licență: MIT

Încearcă.

Bark SmallBark Small Standard

Versiune mai ușoară a Bark cu o inferință mai rapidă și o utilizare mai mică a memoriei.

Dezvoltator: Suno · Licență: MIT

Încearcă.

CosyVoice 2CosyVoice 2 Standard

TTS de streaming scalabil al lui Alibaba cu naturalitate umană-paritate și latență aproape zero.

Dezvoltator: Alibaba (Tongyi Lab) · Licență: Apache 2.0

Încearcă.

Dia TTSDia TTS Standard

Model de generare de dialog multi-speaker care creează conversații naturale între vorbitori.

Dezvoltator: Nari Labs · Licență: Apache 2.0

Încearcă.

Parler TTSParler TTS Standard

Descrieți vocea pe care doriți în limba naturală și Parler generează vorbire potrivită.

Dezvoltator: Hugging Face · Licență: Apache 2.0

Încearcă.

GLM-TTSGLM-TTS Standard

Atinge cea mai mică rată de eroare a caracterului printre modelele TTS de surse deschise.

Dezvoltator: Zhipu AI · Licență: GLM-4 License

Încearcă.

IndexTTS-2IndexTTS-2 Standard

TTS zero-shot cu control de emoții fin-grained și mare expresibilitate.

Dezvoltator: Index Team · Licență: Bilibili Model License

Încearcă.

Spark TTSSpark TTS Standard

Clonarea vocală TTS cu emoție controlabilă și stil de vorbire prin prompte.

Dezvoltator: SparkAudio · Licență: CC BY-NC-SA 4.0

Încearcă.

GPT-SoVITSGPT-SoVITS Standard

Puţine vocală de clonare TTS care repetă orice voce de la doar 5 secunde de audio.

Dezvoltator: RVC-Boss · Licență: MIT

Încearcă.

OrpheusOrpheus Standard

Modelul emoţional de TTS la nivel uman instruit pe 100K de ore de date de vorbire.

Dezvoltator: Canopy Labs · Licență: Llama 3.2 Community

Încearcă.

Qwen3 TTSQwen3 TTS Standard

TTS multilingv al lui Alibaba cu clonarea vocală, vocea preconizată, și proiectarea vocală din text.

Dezvoltator: Alibaba (Qwen) · Licență: Apache 2.0

Încearcă.

ChatterboxChatterbox Premium

Vocea de ultimă generaţie, cu un control de emoţie de la Resemble AI.

Calitate:

Încearcă.

Tortoise TTSTortoise TTS Premium

Multi-voce text-to-speech se concentrează pe calitate cu arhitectura autorregressivă.

Calitate:

Încearcă.

StyleTTS 2StyleTTS 2 Premium

Textul la speech la nivel uman prin difuzarea stilului si formarea adversariala.

Calitate:

Încearcă.

OpenVoiceOpenVoice Premium

Clonarea vocală instantană cu control granular asupra stilului, emoţiei şi accentului.

Calitate:

Încearcă.

Sesame CSMSesame CSM Premium

Modelul de vorbire de conversație generarea dialogului natural cu timp și emoție adecvat.

Calitate:

Încearcă.

CosyVoice 2CosyVoice 2

TTS de streaming scalabil al lui Alibaba cu naturalitate umană-paritate și latență aproape zero.

Limbi: en, zh, ja, ko, fr, de, it, es

Clonează vocea

GLM-TTSGLM-TTS

Atinge cea mai mică rată de eroare a caracterului printre modelele TTS de surse deschise.

Limbi: en, zh

Clonează vocea

IndexTTS-2IndexTTS-2

TTS zero-shot cu control de emoții fin-grained și mare expresibilitate.

Limbi: en, zh

Clonează vocea

Spark TTSSpark TTS

Clonarea vocală TTS cu emoție controlabilă și stil de vorbire prin prompte.

Limbi: en, zh

Clonează vocea

GPT-SoVITSGPT-SoVITS

Puţine vocală de clonare TTS care repetă orice voce de la doar 5 secunde de audio.

Limbi: en, zh, ja, ko

Clonează vocea

ChatterboxChatterbox

Vocea de ultimă generaţie, cu un control de emoţie de la Resemble AI.

Limbi: en

Clonează vocea

Tortoise TTSTortoise TTS

Multi-voce text-to-speech se concentrează pe calitate cu arhitectura autorregressivă.

Limbi: en

Clonează vocea

OpenVoiceOpenVoice

Clonarea vocală instantană cu control granular asupra stilului, emoţiei şi accentului.

Limbi: en, zh, ja, ko, fr, de, es, it

Clonează vocea

Qwen3 TTSQwen3 TTS

TTS multilingv al lui Alibaba cu clonarea vocală, vocea preconizată, și proiectarea vocală din text.

Limbi: en, zh, ja, ko, de, fr, ru, pt, es, it

Clonează vocea

Dezvoltator-Primă API

API REST compatibilă cu OpenAI. O endpoint, 22+ modele. Suport de transparență pentru aplicații în timp real.

  • Format compatibil cu OpenAI
  • Streaming TTS pentru aplicații în timp real
  • Prelucrarea lotului pentru locuri de muncă mari
  • Notificații webhook
Afișează docurile API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Preţuri simple, transparente

Începe gratis. Scalează-te pe măsură ce creşti.

Gratuit

$0

15,000 characters

  • Kokoro, Piper, VITS, MeloTTS
  • Limite de 500 de caractere
  • 3 gen/oră (fără cont)
Inscrie-te gratis

Pornitor

$9/mo

500,000 characters/month

  • Toate cele 22+ modele
  • 100,000 chars per generation
  • Clonarea vocală
Începe
Cel mai popular

Pro

$29/mo

2,000,000 characters/month

  • Totul în Starter
  • Acces API
  • Prelucrarea prioritară
Obține Pro

Afaceri

$99/mo

10,000,000 characters/month

  • Totul în Pro
  • API Bulk
  • Coada prioritară
Obțineți Afaceri

Afișează toate planurile, inclusiv pachete de personaje →

Întrebări frecvente

TTS.ai este cea mai cuprinzătoare platformă vocală AI, oferind 22+ de modele text-to-speech, clonare vocală, unelte vocale-to-text și audio. Toate modelele sunt surse deschise fără blocare furnizor.

Da! TTS.ai oferă gratuit text-to-speech cu modele Kokoro, Piper, VITS și MeloTTS. Nu este nevoie de cont. Înregistrează-te pentru a obține 15.000 de caractere gratuite și accesa toate modelele. Planurile plătite încep la 9$/luna.

Pentru viteză, utilizați Kokoro sau Piper. Pentru calitate, încercați CosyVoice 2 sau StyleTTS 2. Pentru clonarea vocală, utilizați Chatterbox sau GPT-SoVITS. Pentru dialog, utilizați Dia TTS. Încercați mai multe modele pe același text pentru a compara.

Da. API REST compatible cu OpenAI pentru TTS, STT, clonare vocală și instrumente audio. Disponibil pe Pro (29/mo) și Enterprise planuri (99/mo). Vizualizați documentația la tts.ai/api/.

Calitatea vocală variază după model. Modelele premium cum ar fi CosyVoice 2, StyleTTS 2, și Chatterbox produc discurs de calitate aproape umană cu intonare naturală și emoție. Modelele gratuite cum ar fi Kokoro oferă o calitate excelentă pentru cele mai multe cazuri de utilizare.

TTS.ai suportă 30 de limbi în bibliotecă de model. Engleza are cel mai larg suport model, dar modele precum CosyVoice 2 acoperire chineză, japoneză și coreeană; GPT-SoVITS manieră chineză, japoneză, coreeană și engleză; și MeloTTS sprijină engleza, spaniolă, franceză, chineză, japoneză și coreeană.

Da. Toate prelucrarea se întâmplă pe serverele noastre GPU dedicate. Noi nu stochăm inputul text sau audio generat după livrarea. Exemplare de voce încărcate pentru clonarea sunt folosite doar pentru sesiunea curentă și nu sunt păstrate. Nu împărtășim niciodată datele cu terțe părți sau îl folosim pentru a antrena modele.

Da. Tot audio generat pe TTS.ai este al tău pentru a utiliza comercial, inclusiv pentru videoclipuri, podcast-uri, audiobook-uri, aplicații, reclame și produse. Modelele noastre sunt open source sub licențe permisive (MIT, Apache 2.0). Nu sunt necesare royalties sau atribuire.

TTS.ai generează audio în format WAV prin predefinire pentru calitatea maximă. Puteți converti în MP3, FLAC, OGG sau M4A folosind instrumentul nostru gratuit Audio Converter. API suportă specificarea formatului de ieșire preferat direct în cerere.

Încarcă un eșantion audio scurt (chiar de 5 secunde) de voce doriți să clonați, apoi tastați orice text pentru a genera voce în acea voce. Modele cum ar fi Chatterbox, GPT-SoVITS și CosyVoice 2 suportă clonarea vocală. Voce clonat captează ton, accent și stil de vorbă.

Modelele gratuite (Kokoro, Piper, VITS, MeloTTS) nu necesită cont și costuri zero caractere. Modelele standard (1,000 de caractere/1K input) includ Bark, CosyVoice 2, F5-TTS, și Dia. Modelele premium (4.000 de caractere/1K input) includ OpenVoice, Chatterbox, StyleTTS 2, și Tortoise. Modelele plate oferă în general calitate mai mare, mai multe voci, și caracteristici suplimentare cum clonarea vocală.

Da. API suportă prelucrarea lotului pentru transformarea volumelor mari de text în vorbire. Trimite mai multe cereri și recuperează rezultate o sincronică folosind job UUIDs. Planurile de întreprinderi (99/mo) includ acces prioritar la coada pentru procesarea lotului mai rapid. Ideal pentru producția audiobook, conținut de curs, și proiecte vocale over la scară largă.
4.0/5 (8)

Începeți să utilizați vocea AI astăzi

Alăturați-vă creatorilor, dezvoltatorilor și întreprinderilor folosind TTS.ai