AI liberă Text la discurs

33+ modele de surse deschise; 273+ voci, 33+ limbi. Nu este necesar cont.

18K+
creatori
71K+
generații
33+
Modele de IA
273+
voci
Spune-i prietenilor tăi!

Tot ce ai nevoie pentru voce AI

30+ unelte alimentate prin modele AI de sursă deschisă

33+ Modele vocale ale AI

Colecția cea mai cuprinzătoare a modelelor TTS de sursă deschisă într-o platformă

KokoroKokoro Gratuit

Kokoro este un model text-to-speech de 82 milioane de parametri care lovește foarte mult deasupra clasei sale de greutate. În ciuda dimensiunilor sale mici, produce un discurs remarcabil natural și expresiv. Kokoro sprijină mai multe limbi, inclusiv engleză, japoneză, chineză și coreeană, cu o varietate de voci expresive. Funcționează incredibil de rapid — generarea de audio aproape 100x mai rapid decât în timp real pe o GPU.

Cel mai bun pentru: TTS de înaltă calitate cu latență minimă, aplicații de streaming

Încearcă liber

PiperPiper Gratuit

Piper este un motor uşor de text la speech, dezvoltat de Rhasspy, care foloseşte arhitecturi VITS şi laringex. Funcţionează complet pe CPU, făcând-o ideal pentru dispozitive de bord, automatizare de casă şi aplicaţii care necesită TTS offline. Cu peste 100 de voci în 30+ limbi, Piper oferă un discurs de sunet natural la viteze în timp real chiar şi pe un Raspberry Pi 4.

Cel mai bun pentru: Vizualizări rapide, accesibilitate și aplicații încorporate

Încearcă liber

VITSVITS Gratuit

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speeling) este o metodă paralelă de TTS end-to-end care generează audio mai natural decat modelele curente de două etape. Adoptă inference variational înmulțit cu fluxuri de normalizare și un proces de formare adversarială, obținând o îmbunătățire semnificativă a naturalității.

Cel mai bun pentru: Texte-la-picior pentru scop general cu prosodie naturală

Încearcă liber

MeloTTSMeloTTS Gratuit

MeloTTS de MyShell.ai este o bibliotecă multilingv TTS care sprijină engleza (americană, britanică, indiană, australiană), spaniolă, franceză, chineză, japoneză și coreeană. Este extrem de rapidă, prelucrarea textului la viteza aproape în timp real de CPU singur. MeloTTS este proiectat pentru utilizarea producției și suportă atât inferința CPU și GPU.

Cel mai bun pentru: Aplicații de producție care au nevoie de TTS rapid și multilingv

Încearcă liber

Kani TTS 2Kani TTS 2 Gratuit

Kani-TTS-2 de NineNineSix este un model de parametraj cu greutate ultra lichidă 400M construit pe o coloană vertebrală LFM2 AI Lichid cu NVIDIA NanoCodec. Ea funcționează în doar 3GB VRAM și produce ~10 secunde de discurs în ~2 secunde pe un A100 (RTF 0.2). Curentul public de eliberare nave un punct de control `kani-tts-2-en' englez și nu expune cârligul de comprimare al speakerului necesar pentru clonarea vocală — utilizați Chatterbox / IndexTTS2 / F5-TTS pentru clonarea, sau Kokoro / MeloTTS pentru non-englez.

Cel mai bun pentru: Generație rapidă de engleză pe hardware low-VRAM, anterioare rapide

Încearcă liber

OuteTTSOuteTTS Gratuit

OuteTTS extinde modele de limbaj mari cu capacități text-to-speech în timp ce menține arhitectura originală. Acesta suportă multiple backend-uri, inclusiv lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, și chiar inferența browser prin Transformers.js. Caracteristici de clonare vocală zero-shot prin profile de speaker salvate ca JSON.

Cel mai bun pentru: Desfășurare la bord, TTS bazat pe browser, medii cu resurse scăzute

Încearcă liber

Pocket TTSPocket TTS Gratuit

Pocket TTS de Kyutai (Creators of Moshi) este un model compact de text-to-speech de 100 M care lovește foarte peste greutatea sa. Funcționează eficient pe CPU, suportă clonarea vocală zero-shot dintr-o singură mostră audio și produce un discurs de sunet natural. Dimensiunea modelului mic îl face ideal pentru implementarea de borduri și mediile de resursă redusă.

Cel mai bun pentru: Desfășurare ușoară, medii numai CPU, clonare vocală rapidă

Încearcă liber

Kitten TTSKitten TTS Gratuit

Kitten TTS by KittenML este un model ultra-lightweight text-to-speech construit pe ONNX. Cu variante de la parametrii 15M la 80M (25-80 MB pe disc), acesta oferă sinteză vocală de înaltă calitate pe CPU fără a necesita un GPU. Caracteristici 8 voci integrate, viteza de vorbire reglabil și preprelucrarea textului integrat pentru numere, monede și unități. Ideal pentru implementarea de borduri și aplicații de latență redusă.

Cel mai bun pentru: TTS uşoară rapidă, implementarea de borduri, aplicaţii de latitate redusă

Încearcă liber

Ming-Omni TTSMing-Omni TTS Gratuit

Ming-omni-tts-0.5B prin incluziuneAI este un model compact de vorbire omnimodal construit pe coloana densă BailingMM cu un decoder audio de patch-by-Patch care se potrivește cu fluxul. Depune ieșirea 44.1kHz (aproximativ calitatea CD), sprijină clonarea vocală zero-shot dintr-o 3+ a doua referință, și include emoție / dialect / control BGM built-in prin instrucțiuni JSON. Stabilitate excelentă — 0,83% WER pe benzile chineze.

Cel mai bun pentru: Narrare bilingvă de înaltă fidelitate, acționarea vocală controlată cu emoții, conținut audiobook chinezesc

Încearcă liber

MOSS-TTS NanoMOSS-TTS Nano Gratuit

MOSS-TTS-Nano-100M este varianta compactă de 100M-parametr al familiei MOSS-TTS, împărtășind arhitectura întârziere-transformator. Tranzacționează calitatea maximă a modelului 8B pentru greutatea ~80x mai mici și, dramatic, mai mică per-request VRAM, ceea ce o face potrivit pentru implementarea gratuită și de înaltă funcție.

Cel mai bun pentru: TTS de grad liber, producție de mare volum, utilizare interactivă de latență redusă

Încearcă liber

BarkBark Standard

Model text-to-audio bazat pe transformatori care generează efecte realiste de vorbire, muzica și sunet.

Dezvoltator: Suno · Licență: MIT

Încearcă.

Bark SmallBark Small Standard

Versiune mai ușoară a Bark cu o inferință mai rapidă și o utilizare mai mică a memoriei.

Dezvoltator: Suno · Licență: MIT

Încearcă.

CosyVoice 2CosyVoice 2 Standard

TTS de streaming scalabil al lui Alibaba cu naturalitate umană-paritate și latență aproape zero.

Dezvoltator: Alibaba (Tongyi Lab) · Licență: Apache 2.0

Încearcă.

Dia TTSDia TTS Standard

Model de generare de dialog multi-speaker care creează conversații naturale între vorbitori.

Dezvoltator: Nari Labs · Licență: Apache 2.0

Încearcă.

Parler TTSParler TTS Standard

Descrieți vocea pe care doriți în limba naturală și Parler generează vorbire potrivită.

Dezvoltator: Hugging Face · Licență: Apache 2.0

Încearcă.

IndexTTS-2IndexTTS-2 Standard

TTS zero-shot cu control de emoții fin-grained și mare expresibilitate.

Dezvoltator: Index Team · Licență: Bilibili Model License

Încearcă.

Spark TTSSpark TTS Standard

Clonarea vocală TTS cu emoție controlabilă și stil de vorbire prin prompte.

Dezvoltator: SparkAudio · Licență: CC BY-NC-SA 4.0

Încearcă.

GPT-SoVITSGPT-SoVITS Standard

Puţine vocală de clonare TTS care repetă orice voce de la doar 5 secunde de audio.

Dezvoltator: RVC-Boss · Licență: MIT

Încearcă.

OrpheusOrpheus Standard

Modelul emoţional de TTS la nivel uman instruit pe 100K de ore de date de vorbire.

Dezvoltator: Canopy Labs · Licență: Llama 3.2 Community

Încearcă.

Qwen3 TTSQwen3 TTS Standard

TTS multilingv al lui Alibaba cu voce predefinită și design vocal din text.

Dezvoltator: Alibaba (Qwen) · Licență: Apache 2.0

Încearcă.

VieNeu-TTS-v2VieNeu-TTS-v2 Standard

Vietnameză + engleză TTS-switching de cod cu 7 voci preconizate și de clonare vocală zero-shot. numai CPU-, nu este necesar GPU.

Dezvoltator: Phạm Nguyễn Ngọc Bảo · Licență: Apache 2.0

Încearcă.

Chatterbox TurboChatterbox Turbo Standard

Mai rapid Chatterbox cu latență sub-200ms și etichete paralinguiste pentru râsete, tuse, și mai mult.

Dezvoltator: Resemble AI · Licență: MIT

Încearcă.

VoxCPMVoxCPM Standard

TTS fără tokenizare producând audio 44.1kHz cu consecvența paragrafului context-aware.

Dezvoltator: OpenBMB · Licență: Apache 2.0

Încearcă.

VibeVoiceVibeVoice Standard

Modelul Microsoft pentru conținutul multispeaker de forma lungă, cum ar fi podcast-uri și audiobook-uri.

Dezvoltator: Microsoft · Licență: MIT

Încearcă.

CosyVoice3CosyVoice3 Standard

TTS multilingv de generație viitoare cu bi-flux, controlul emoțiilor și clonarea vocală zero-shot.

Dezvoltator: Alibaba (FunAudioLLM) · Licență: Apache 2.0

Încearcă.

NAMAA Saudi TTSNAMAA Saudi TTS Standard

Prima deschidere Saudi-Arabic TTS. Dialect nativ saudita cu clonarea vocală de calitate Chatterbox.

Dezvoltator: NAMAA Space · Licență: MIT

Încearcă.

Darwin TTSDarwin TTS Standard

Varianta cross-modal Qwen3-TTS cu greutatea FFN combinată din modelul de limbaj Qwen3-1.7B pentru clonarea multilingue mai ascuțită.

Dezvoltator: FINAL-Bench · Licență: Apache 2.0

Încearcă.

MOSS-TTSDMOSS-TTSD Standard

Modelul de continuare a dialogului multi-speaker – genera conversații în stil podcast cu până la 5 vorbitori și 60 de minute de audio coerent.

Dezvoltator: OpenMOSS · Licență: Apache 2.0

Încearcă.

ChatterboxChatterbox Premium

Vocea de ultimă generaţie, cu un control de emoţie de la Resemble AI.

Calitate:

Încearcă.

Tortoise TTSTortoise TTS Premium

Multi-voce text-to-speech se concentrează pe calitate cu arhitectura autorregressivă.

Calitate:

Încearcă.

StyleTTS 2StyleTTS 2 Premium

Textul la speech la nivel uman prin difuzarea stilului si formarea adversariala.

Calitate:

Încearcă.

OpenVoiceOpenVoice Premium

Clonarea vocală instantană cu control granular asupra stilului, emoţiei şi accentului.

Calitate:

Încearcă.

Sesame CSMSesame CSM Premium

Modelul de vorbire de conversație generarea dialogului natural cu timp și emoție adecvat.

Calitate:

Încearcă.

CosyVoice 2CosyVoice 2

TTS de streaming scalabil al lui Alibaba cu naturalitate umană-paritate și latență aproape zero.

Limbi: en, zh, ja, ko, fr, de, it, es

Clonează vocea

IndexTTS-2IndexTTS-2

TTS zero-shot cu control de emoții fin-grained și mare expresibilitate.

Limbi: en, zh

Clonează vocea

Spark TTSSpark TTS

Clonarea vocală TTS cu emoție controlabilă și stil de vorbire prin prompte.

Limbi: en, zh

Clonează vocea

GPT-SoVITSGPT-SoVITS

Puţine vocală de clonare TTS care repetă orice voce de la doar 5 secunde de audio.

Limbi: en, zh, ja, ko

Clonează vocea

ChatterboxChatterbox

Vocea de ultimă generaţie, cu un control de emoţie de la Resemble AI.

Limbi: en

Clonează vocea

Tortoise TTSTortoise TTS

Multi-voce text-to-speech se concentrează pe calitate cu arhitectura autorregressivă.

Limbi: en

Clonează vocea

OpenVoiceOpenVoice

Clonarea vocală instantană cu control granular asupra stilului, emoţiei şi accentului.

Limbi: en, zh, ja, ko, fr, es

Clonează vocea

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnameză + engleză TTS-switching de cod cu 7 voci preconizate și de clonare vocală zero-shot. numai CPU-, nu este necesar GPU.

Limbi: vi, en

Clonează vocea

Chatterbox TurboChatterbox Turbo

Mai rapid Chatterbox cu latență sub-200ms și etichete paralinguiste pentru râsete, tuse, și mai mult.

Limbi: en

Clonează vocea

VoxCPMVoxCPM

TTS fără tokenizare producând audio 44.1kHz cu consecvența paragrafului context-aware.

Limbi: en, zh

Clonează vocea

OuteTTSOuteTTS

LLM-based TTS care funcționează pe CPU, GPU, sau browser via lama.cpp și Transformers.js.

Limbi: en

Clonează vocea

Pocket TTSPocket TTS

Model de parametraj 100M uşor de Kyutai cu clonare vocală dintr-un singur eșantion.

Limbi: en, fr

Clonează vocea

CosyVoice3CosyVoice3

TTS multilingv de generație viitoare cu bi-flux, controlul emoțiilor și clonarea vocală zero-shot.

Limbi: en, zh, ja, ko, de, es, fr, it, ru

Clonează vocea

NAMAA Saudi TTSNAMAA Saudi TTS

Prima deschidere Saudi-Arabic TTS. Dialect nativ saudita cu clonarea vocală de calitate Chatterbox.

Limbi: ar

Clonează vocea

Darwin TTSDarwin TTS

Varianta cross-modal Qwen3-TTS cu greutatea FFN combinată din modelul de limbaj Qwen3-1.7B pentru clonarea multilingue mai ascuțită.

Limbi: en, ko, ja, zh

Clonează vocea

MOSS-TTSDMOSS-TTSD

Modelul de continuare a dialogului multi-speaker – genera conversații în stil podcast cu până la 5 vorbitori și 60 de minute de audio coerent.

Limbi: en, zh

Clonează vocea

Ming-Omni TTSMing-Omni TTS

Modelul de vorbire omnimodal compact 0.5B din includereaAI cu ieșire de înaltă fidelitate 44.1kHz și clonarea vocală zero-shot.

Limbi: en, zh

Clonează vocea

MOSS-TTS NanoMOSS-TTS Nano

Varianta MOSS-TTS minus 100M – aceeași arhitectură, 80x mai mici, latență de tip liber.

Limbi: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Clonează vocea

Dezvoltator-Primă API

API REST compatibilă cu OpenAI. O endpoint, 22+ modele. Suport de transparență pentru aplicații în timp real.

  • Format compatibil cu OpenAI
  • Streaming TTS pentru aplicații în timp real
  • Prelucrarea lotului pentru locuri de muncă mari
  • Notificații webhook
Afișează docurile API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Preţuri simple, transparente

Începe gratis. Scalează-te pe măsură ce creşti.

Gratuit

$0

15.000 de caractere + 5.000/zi

  • 7 modele gratuite, inclusiv Kokoro
  • 5000 de caractere pe generație
  • Acces API inclus
Inscrie-te gratis

Pornitor

$9/mo

500 000 de caractere/luna

  • Toate cele 22+ modele
  • 100.000 de caractere pe generație
  • Clonarea vocală
Începe
Cel mai popular

Pro

$29/mo

2.000.000 de caractere/luna

  • Totul în Starter
  • Acces API
  • Prelucrarea prioritară
Obține Pro

Afaceri

$99/mo

10 000 000 de caractere/luna

  • Totul în Pro
  • API Bulk
  • Coada prioritară
Obțineți Afaceri

Afișează toate planurile, inclusiv pachete de personaje →

Întrebări frecvente

TTS.ai este cea mai cuprinzătoare platformă vocală AI, oferind 22+ modele text-to-speech, clonare vocală, unelte vocale-to-text și audio. Toate modelele sunt sursă deschisă fără blocare furnizor.

Da! TTS.ai oferă gratuit text-to-speech cu modele Kokoro, Piper, VITS și MeloTTS. Nu este nevoie de cont. Înregistrează-te pentru a obține 15.000 de caractere gratuite și accesa toate modelele. Planurile plătite încep la 9$/luna.

Pentru viteză, utilizați Kokoro sau Piper. Pentru calitate, încercați CosyVoice 2 sau StyleTTS 2. Pentru clonarea vocală, utilizați Chatterbox sau GPT-SoVITS. Pentru dialog, utilizați Dia TTS. Încercați mai multe modele pe același text pentru a compara.

Da. API REST compatible cu OpenAI pentru TTS, STT, clonare vocală și instrumente audio. Inclusă pe fiecare plan, inclusiv gratuit, cu limite de rată care scară pe nivel (gratuit: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Business: 300). Vizualizați documentația la tts.ai/api /.

Calitatea vocală variază după model. Modelele premium cum ar fi CosyVoice 2, StyleTTS 2, și Chatterbox produc discurs de calitate aproape umană cu intonare naturală și emoție. Modelele gratuite cum ar fi Kokoro oferă o calitate excelentă pentru cele mai multe cazuri de utilizare.

TTS.ai suportă 30 de limbi în biblioteca sa model. Engleza are cel mai larg suport model, dar modele cum ar fi CosyVoice 2 acoperire chineză, japoneză și coreeană; GPT-SoVITS manieră chinezească, japoneză, coreeană și engleză; și MeloTTS sprijină engleză, spaniolă, franceză, chineză, japoneză și coreeană.

Da. Toate prelucrarea se întâmplă pe serverele noastre GPU dedicate. Noi nu stochăm inputul text sau audio generat după livrarea. Exemplare de voce încărcate pentru clonarea sunt folosite doar pentru sesiunea curentă și nu sunt păstrate. Nu împărtășim niciodată datele cu terțe părți sau îl folosim pentru a antrena modele.

Da. Tot audio generat pe TTS.ai este al tău pentru a utiliza comercial, inclusiv pentru videoclipuri, podcast-uri, audiobook-uri, aplicații, reclame și produse. Modelele noastre sunt open source sub licențe permisive (MIT, Apache 2.0). Nu sunt necesare royalties sau atribuire.

TTS.ai generează audio în format WAV prin predefinire pentru calitatea maximă. Puteți converti în MP3, FLAC, OGG sau M4A folosind instrumentul nostru gratuit Audio Converter. API suportă specificarea formatului de ieșire preferat direct în cerere.

Încarcă un eșantion audio scurt (chiar de 5 secunde) de voce doriți să clonați, apoi tastați orice text pentru a genera voce în acea voce. Modele cum ar fi Chatterbox, GPT-SoVITS și CosyVoice 2 suportă clonarea vocală. Voce clonat captează ton, accent și stil de vorbă.

Modelele gratuite (Kokoro, Piper, VITS, MeloTTS) nu necesită cont și costuri zero caractere. Modelele standard (1,000 de caractere/1K input) includ Bark, CosyVoice 2, F5-TTS, și Dia. Modelele premium (4.000 de caractere/1K input) includ OpenVoice, Chatterbox, StyleTTS 2, și Tortoise. Modelele plate oferă în general calitate mai mare, mai multe voci, și caracteristici suplimentare cum clonarea vocală.

Da. API suportă prelucrarea lotului pentru transformarea volumelor mari de text în vorbire. Trimite mai multe cereri și recuperează rezultate o sincronică folosind job UUIDs. Planul de afaceri (99/mo) și mai mare includ accesul prioritar în coada pentru procesarea lotului mai rapid. Ideal pentru producția audiobook, conținut de curs și proiecte vocale de scară largă.
4.1/5 (42)

Feedback-ul vostru ne ajută să rezolvăm problemele.

Începeți să utilizați vocea AI astăzi

Alăturați-vă creatorilor, dezvoltatorilor și întreprinderilor folosind TTS.ai