Free AI Text a veu

33+ Models de codi obert, 273+ veus, 33+ Idiomes: no cal cap compte.

17K+
creadors
70K+
generacions
33+
Models d' IA
273+
veus
0/500 caràcters · Signa els 5.000 per generació → Lliure
Els teus amics!

Tot el que necessiteu per l'AI de veu

30+ eines impulsades per models de la IA de codi obert

33+ Models de veu IA

La col·lecció més completa de models TTS de codi obert en una plataformaName

KokoroKokoro Lliure

Kokoro és un model de text de 82 milions de text a veu que passa bé per sobre de la seva classe de pes. Malgrat la seva petita mida, produeix un discurs natural i expressiva. Kokoro suporta múltiples llengües, com ara anglès, japonès, xinès i coreà amb una varietat de veus expressives. S' executa increïblement ràpid per generar àudio gairebé 100x més ràpid que el temps real en una GPU.

Millor per a: TTS d' alta qualitat amb mínim de retard i aplicacions de sortida

Prova lliure

PiperPiper Lliure

Pipher és un lleuger motor de text a veu desenvolupat per Rhaspy que utilitza arquitectura VITS i larynx. Funciona totalment a la CPU, fent que ideal per a dispositius de vora, automulació i aplicacions de connexió fora de línia. Amb més de 100 veus a través de 30 idiomes, el conducte proporciona un discurs natural a velocitats reals, fins i tot en un Raspberry 4.

Millor per a: Vistes prèvies ràpides, accessibilitat i aplicacions incrustats

Prova lliure

VITSVITS Lliure

VITS (Inferència normal amb l' aprenentatge de adversaris per al final de text a veu) és un mètode paral· lela a final de TTS que genera més d' àudio natural que dos models d' avui en dia. Això adopta una variació augmentada amb fluxos de flux normalització i un procés d' entrenament adversari, aconseguint una millora significativa en la naturalització.

Millor per a: General- propòsit de text a veu amb prosdy natural

Prova lliure

MeloTTSMeloTTS Lliure

MeloTTS per la meva Shell.ai és una biblioteca multilingüe que permet l' anglès (americà, britànic, australià), espanyol, francès, xinès, japonès i coreana. És extremadament ràpid, processar text en una velocitat a prop de l' hora real tot sol a la CPU. MeloTTS està dissenyat per a la producció i implementa la CPU i la GPU.

Millor per a: Les aplicacions de producció necessiten ràpid, TTS multilingüe

Prova lliure

Kani TTS 2Kani TTS 2 Lliure

Kani- TTS- 2 per Nou NineSis és un model de paràmetre ultralightight 400M construït sobre L' IFM2 de retorn amb Nvidia Nano Codec. S' executa en només 3GBRAM i aconsegueix 10 segons de discurs en ~2 segons (RTF 0. 2). Implementació de la coincidència de veu zero- foto de l' altaveu.

Millor per a: Generació ràpida, entorns de codi baixa, vistes ràpides

Prova lliure

OuteTTSOuteTTS Lliure

OutTeTS s'estén a grans models d' idioma amb capacitats de text a veu mentre es preserva l' arquitectura original. Permet múltiples dorsals incloent- hi llama.cpp (CUPU), Hugina els transformadors, ExlamaV2, VLLM, i fins i tot navegador enferència mitjançant transformadors.j. característiques zero- foto de veu clonada mitjançant els perfils de l' altaveu desat com a JSON.

Millor per a: desplegament de vores, entorns TTS basats en el navegador, entorns de codi baixa

Prova lliure

Pocket TTSPocket TTS Lliure

Pocket TTS per Kyutai (cretors de Mhis) és un model de text compacte de 100M a veu que dóna força per sobre del seu pes. Funciona de forma eficient a la CPU, accepta una clonació de veu zeros d' una única mostra d' àudio i produeix un discurs natural. La mida petita del model fa ideal per als entorns de desplegament i baixos de codi.

Millor per a: Quadrat lleuger, entorns de només CPU, clonació ràpida de veu

Prova lliure

Kitten TTSKitten TTS Lliure

Kitten TTS per KittenM és un model de text ultra- il· luminació construït en ONNX. Amb variants de 15M a 80 paràmetres (25- 80 MB en el disc), proporciona una síntesi de veu d' alta qualitat a la CPU sense necessitat d' una GPU. Les característiques 8 incorporacions de veu incorporades, ajustables i d' un procés de text per als números, les divises i les unitats. Ida per a les aplicacions de desplegament i de baixa potència.

Millor per a: TTS lleuger, desplegament de vora, aplicacions de baixa potència

Prova lliure

Ming-Omni TTSMing-Omni TTS Lliure

Ming- honi- ts- 0. 5B per inclusióAI és un model de discurs compacte que es construeix a BalingMM esbone amb un descodificador d' àudio a través del flux a través d' un pedaç. Lliurar la sortida 44. 1kHz (una qualitat de CD), accepta una clonació zero- pla de veu d' un segon 3+ de referència, i inclou un control de l'emoció / diarelMSON mitjançant instruccions JSON. Excel· lent estabilitat 0. 83R sobre punts de referència xineses.

Millor per a: Narració d'alt nivell bilingüe, veu controlada per les emocions actuant, contingut de l'àudio xinès

Prova lliure

MOSS-TTS NanoMOSS-TTS Nano Lliure

La família MOSS- TTS-Nano-100M és el compactador 100M-metres variant de la família MOSSSS- TTS, compartint l' arquitectura de retard. Trades la qualitat màxima del model 8B per a pesos ~80x més petits i molt més baix per a les seves despeses, fent que sigui adequada per a desplegaments de franc i d' alta velocitat. El mateix 20- idioma abast.

Millor per a: TTS de lliure, producció d'alt volum, ús interactiu de baixa potència

Prova lliure

BarkBark Estàndard

Model de text auudio basat en transformador que genera un discurs realista, música i efectes sonors.

Desenvolupador: Suno · Llicència: MIT

Intenta-ho

Bark SmallBark Small Estàndard

Versió més lleugera de Bark amb un ús més ràpid de la inferència i menor de memòria.

Desenvolupador: Suno · Llicència: MIT

Intenta-ho

CosyVoice 2CosyVoice 2 Estàndard

TTS escalables d'Alibaba amb naturalitat humana i retard de zero.

Desenvolupador: Alibaba (Tongyi Lab) · Llicència: Apache 2.0

Intenta-ho

Dia TTSDia TTS Estàndard

Model de generació de diàlegs multiparlants que creen converses naturals entre els altaveus.

Desenvolupador: Nari Labs · Llicència: Apache 2.0

Intenta-ho

Parler TTSParler TTS Estàndard

Descriu la veu que voleu en llenguatge natural i en Parler genera un discurs coincident.

Desenvolupador: Hugging Face · Llicència: Apache 2.0

Intenta-ho

IndexTTS-2IndexTTS-2 Estàndard

TTS d'alt control d'emoció i expressitives altes.

Desenvolupador: Index Team · Llicència: Bilibili Model License

Intenta-ho

Spark TTSSpark TTS Estàndard

TTS de veu clonant amb emocions controlables i parlant estil via fuques.

Desenvolupador: SparkAudio · Llicència: CC BY-NC-SA 4.0

Intenta-ho

GPT-SoVITSGPT-SoVITS Estàndard

TTS de veu simple clonant que replica qualsevol veu des de només 5 segons d'àudio.

Desenvolupador: RVC-Boss · Llicència: MIT

Intenta-ho

OrpheusOrpheus Estàndard

Model TTS emocionals de nivell humà entrenats en 100 K hores de dades de parla.

Desenvolupador: Canopy Labs · Llicència: Llama 3.2 Community

Intenta-ho

Qwen3 TTSQwen3 TTS Estàndard

TTS multilingüe de l'Alibaba amb una clonació de veu, veus preestablertes i disseny de veu des del text.

Desenvolupador: Alibaba (Qwen) · Llicència: Apache 2.0

Intenta-ho

VieNeu-TTS-v2VieNeu-TTS-v2 Estàndard

vietnamita + English TTS amb 7 veus preestablertes i clonades de veu zero.

Desenvolupador: Phạm Nguyễn Ngọc Bảo · Llicència: Apache 2.0

Intenta-ho

Chatterbox TurboChatterbox Turbo Estàndard

Caixa de xat ràpid amb etiquetes de retard i de paralingüística per riure, tos i més.

Desenvolupador: Resemble AI · Llicència: MIT

Intenta-ho

VoxCPMVoxCPM Estàndard

L'àudio Tokenzerzer-freeTS produeix 44.1kHz amb una consistència de paràgraf compatible amb el context.

Desenvolupador: OpenBMB · Llicència: Apache 2.0

Intenta-ho

VibeVoiceVibeVoice Estàndard

Model Microsoft per al contingut multiparlador de llarga forma com podcasts i llibres d'àudio.

Desenvolupador: Microsoft · Llicència: MIT

Intenta-ho

CosyVoice3CosyVoice3 Estàndard

TTS de la següent generació multilingüe amb bi-stre, control d'emoció, i clonant la veu zero-s.

Desenvolupador: Alibaba (FunAudioLLM) · Llicència: Apache 2.0

Intenta-ho

NAMAA Saudi TTSNAMAA Saudi TTS Estàndard

Primer obre el TTS saudita-Anbibà. STOVER amb un clon de veu d' qualitat de Chatterbox.

Desenvolupador: NAMAA Space · Llicència: MIT

Intenta-ho

Darwin TTSDarwin TTS Estàndard

variant Qwen3- TTS amb pesos FFN mesclats des del model de llenguatge Qwen3-1. 7B per a clonar-se amb multilingüe.

Desenvolupador: FINAL-Bench · Llicència: Apache 2.0

Intenta-ho

MOSS-TTSDMOSS-TTSD Estàndard

El model de continuació de la continuació de podcasts multiparlants genera converses a l'estil de podcast amb 5 parlants i 60 minuts d'àudio coherent.

Desenvolupador: OpenMOSS · Llicència: Apache 2.0

Intenta-ho

ChatterboxChatterbox Premium

Una clonació de la veu de l'estat d'un punt de mira amb el control d'emoció de la IA.

Qualitat:

Intenta-ho

Tortoise TTSTortoise TTS Premium

Conjunt de text a veu multi-vocatiu en qualitat amb arquitectura autogresiu.

Qualitat:

Intenta-ho

StyleTTS 2StyleTTS 2 Premium

Text a veu humana a través de la difusió d' estil i entrenament adversari.

Qualitat:

Intenta-ho

OpenVoiceOpenVoice Premium

Una clonació de veu instantània amb un control molt gran sobre l' estil, les emocions i l'accent.

Qualitat:

Intenta-ho

Sesame CSMSesame CSM Premium

Model de discurs conversaal que genera un diàleg natural amb temps i emocions apropiades.

Qualitat:

Intenta-ho

CosyVoice 2CosyVoice 2

TTS escalables d'Alibaba amb naturalitat humana i retard de zero.

Idiomes: en, zh, ja, ko, fr, de, it, es

Clona veu

IndexTTS-2IndexTTS-2

TTS d'alt control d'emoció i expressitives altes.

Idiomes: en, zh

Clona veu

Spark TTSSpark TTS

TTS de veu clonant amb emocions controlables i parlant estil via fuques.

Idiomes: en, zh

Clona veu

GPT-SoVITSGPT-SoVITS

TTS de veu simple clonant que replica qualsevol veu des de només 5 segons d'àudio.

Idiomes: en, zh, ja, ko

Clona veu

ChatterboxChatterbox

Una clonació de la veu de l'estat d'un punt de mira amb el control d'emoció de la IA.

Idiomes: en

Clona veu

Tortoise TTSTortoise TTS

Conjunt de text a veu multi-vocatiu en qualitat amb arquitectura autogresiu.

Idiomes: en

Clona veu

OpenVoiceOpenVoice

Una clonació de veu instantània amb un control molt gran sobre l' estil, les emocions i l'accent.

Idiomes: en, zh, ja, ko, fr, es

Clona veu

VieNeu-TTS-v2VieNeu-TTS-v2

vietnamita + English TTS amb 7 veus preestablertes i clonades de veu zero.

Idiomes: vi, en

Clona veu

Chatterbox TurboChatterbox Turbo

Caixa de xat ràpid amb etiquetes de retard i de paralingüística per riure, tos i més.

Idiomes: en

Clona veu

VoxCPMVoxCPM

L'àudio Tokenzerzer-freeTS produeix 44.1kHz amb una consistència de paràgraf compatible amb el context.

Idiomes: en, zh

Clona veu

OuteTTSOuteTTS

TTS basat en LLM que s' executa a la CPU, GPU, o navegador a través de llama.cpp i transformadors.js.

Idiomes: en

Clona veu

Pocket TTSPocket TTS

Model de paràmetre lleuger 100M per Kyutai amb clonació de veu d'una única mostra.

Idiomes: en, fr

Clona veu

CosyVoice3CosyVoice3

TTS de la següent generació multilingüe amb bi-stre, control d'emoció, i clonant la veu zero-s.

Idiomes: en, zh, ja, ko, de, es, fr, it, ru

Clona veu

NAMAA Saudi TTSNAMAA Saudi TTS

Primer obre el TTS saudita-Anbibà. STOVER amb un clon de veu d' qualitat de Chatterbox.

Idiomes: ar

Clona veu

Darwin TTSDarwin TTS

variant Qwen3- TTS amb pesos FFN mesclats des del model de llenguatge Qwen3-1. 7B per a clonar-se amb multilingüe.

Idiomes: en, ko, ja, zh

Clona veu

MOSS-TTSDMOSS-TTSD

El model de continuació de la continuació de podcasts multiparlants genera converses a l'estil de podcast amb 5 parlants i 60 minuts d'àudio coherent.

Idiomes: en, zh

Clona veu

Ming-Omni TTSMing-Omni TTS

Compacta el model de discurs omni-modal de la inclusió AI amb una sortida de 44. 1kHz i un clon de veu zero-shot.

Idiomes: en, zh

Clona veu

MOSS-TTS NanoMOSS-TTS Nano

Una petita variant de 100 anys per a l'SSSST-TS, la mateixa arquitectura, el 80x més petit, el retard de franc.

Idiomes: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Clona veu

Desenvolupador- estrella API

OpenAI- compatible amb l' API REST. Un punt final, 22+ models. Implementació de flux per aplicacions en temps real.

  • Format compatible amb l' OpenAI
  • TTS de corrent per aplicacions en temps realName
  • Processat per lots per tasques grans
  • Notificacions del descommatge WebName
Visualitza els Docs API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Pricació simple, transparent

Deixa lliure. Escala mentre creixis.

Lliure

$0

15.000 caràcters + 5000/ dia

  • 7 models lliures incloent-hi Kokoro
  • 5000 caràcters per generació
  • S' ha inclòs l' accés a l' API
Signa lliure

Iniciador

$9/mounit description in lists

500 crèdits/ mesos

  • Tots els models 22+
  • 100.000 caràcters per generació
  • Clon de veu
Començar
El més popular

Pro

$29/mounit description in lists

2.000 crèdits/ mesos

  • Tot al principi
  • Accés de l' API
  • Processament de prioritat
Obtén Pro

Negocis

$99/mounit description in lists

10.000 crèdits/ mesos

  • Tot en Pro
  • API de Massa
  • Cua de prioritat
Obtén negoci

Visualitzeu tots els plans incloent paquets de crèdit →

Preguntes més freqüents

TTS.ai és la plataforma de veu més completa de la IA, oferint models de text 22+ a veu, clonant la veu, clonant paraules a text i eines d' àudio. Tots els models són oberts sense bloqueig de venedor.

Yes! TTS.ai offers free text-to-speech with Kokoro, Piper, VITS, and MeloTTS models. No account required. Sign up to get 15,000 free characters and access all models. Paid plans start at $9/month.

Per a la velocitat, useu Kokoro o Pioner. Per a qualitat, intenteu CosyVoice 2 o StyleTTS 2. Per a la clonació de veu, useu Xatterbox o GPT- SITS. Per al diàleg, useu Dia TTS. Proveu amb múltiples models en el mateix text per a comparar.

Sí. S OpenAI- compatible amb l' API de TTS, TTS, TTS, clonant la veu i les eines d' àudio. Incloudes en tots els plans, incloent- hi els límits de taxa que s' alineen (Free: 10 req/min, Lit: 20, Inicier: 30, Pro: 60, Negocis: 300). Visualitza la documentació atts.ai/ api /.

La qualitat de veu varia pel model. Els models Premiums com CosyVoice 2, StyleTTS i Chatterbox produeixen un discurs de qualitat humà proper a la innació i emoció natural. Els models lliures com Kokoro ofereixen una qualitat excel· lent per a la majoria dels casos d' ús.

TTS.ai dóna suport a 30 llengües+ a través de la seva biblioteca de model. L' anglès té el suport més ampli, però models com CosyVoice 2 xinesos, japonesos i coreana; nances xinesos, japonès, coreana, i els MeloTS permeten l' anglès, espanyol, xinès, japonès i coreà.

Sí. Tot el procés succeeix als nostres servidors de la GPU dedicats. No emmagatzemen l' entrada de text o generat àudio després del lliurament. Només s' usen mostres de veu per fer còpies exactes per a la sessió actual i no es conservaran. No compartim mai les vostres dades amb tercers partits o useu- lo per a entrenar models.

Sí, tot l'àudio generat a TTS.ai és vostre per usar anuncis comercialment, incloent-hi els vídeos de YouTube, podcasts, aplicacions d'àudio, anuncis i productes. Els nostres models són font oberts sota llicències permissives (MIT, Apache 2.0). Sense atribucions reials o atribucions requerides.

TTS.ai genera àudio en format WAV per omissió per a màxima qualitat. Podeu convertir- lo a MP3, FLAC, OGG, o M4A usant la nostra eina de Convertidor d' àudio lliure. L' API permet especificar directament el format de sortida preferit en la petició.

Carrega una mostra d' àudio curta (com 5 segons) de la veu que voleu clonar, llavors introduïu qualsevol text per a generar el discurs en aquesta veu. Models com ara Chatterbox, GPT- STITS, i CosyVoice 2 permet clonar veu. Les captures de veu clonades, el to, l' accent i l' estil de parla.

Els models lliures (Kokoro, Conducte VITS, MeloTTS) no requereixen cap compte i costa els crèdits zeros. Els models estàndards (2 crèdits/1K) inclouen Barrak, CosyVoice 2, F5- TTS i Dia. Els models Premium (4 caràcters de crèdit/ 1K) inclouen OpenVice, Chatterbox, StyleTTS 2, i Tortose. Generalment els models que ofereixen qualitat superior, veus i característiques addicionals com clonar la veu.

Sí. L' API accepta el processament per lots per a convertir grans volums de text a la parla. Envieu múltiples peticions i recupereu resultats asíncronament usant els treballs UUID. El pla de Negoci ($99/mo) i inclouen accés de cua de prioritat per a un procés per lots més ràpid. Ideal per a la producció d' àudiobook, és clar, contingut i gran escala sobre projectes.
4.1/5 (42)

Les teves reaccions ens ajuden a solucionar problemes.

Comença l' ús de la veu de la IA avui

Uneixre a creadors, desenvolupadors i negocis utilitzant TTS.ai