Free AI Text a veu

31+ Models de codi obert, 231+ veus, 34+ Idiomes: no cal cap compte.

8K+
creadors
31K+
generacions
31+
Models d' IA
231+
veus
0/500 caràcters · Sign up for 5,000 per generation → Lliure
Els teus amics!

Tot el que necessiteu per l'AI de veu

30+ eines impulsades per models de la IA de codi obert

31+ Models de veu IA

La col·lecció més completa de models TTS de codi obert en una plataformaName

KokoroKokoro Lliure

Kokoro és un model de text de 82 milions de text a veu que passa bé per sobre de la seva classe de pes. Malgrat la seva petita mida, produeix un discurs natural i expressiva. Kokoro suporta múltiples llengües, com ara anglès, japonès, xinès i coreà amb una varietat de veus expressives. S' executa increïblement ràpid per generar àudio gairebé 100x més ràpid que el temps real en una GPU.

Millor per a: TTS d' alta qualitat amb mínim de retard i aplicacions de sortida

Prova lliure

PiperPiper Lliure

Pipher és un lleuger motor de text a veu desenvolupat per Rhaspy que utilitza arquitectura VITS i larynx. Funciona totalment a la CPU, fent que ideal per a dispositius de vora, automulació i aplicacions de connexió fora de línia. Amb més de 100 veus a través de 30 idiomes, el conducte proporciona un discurs natural a velocitats reals, fins i tot en un Raspberry 4.

Millor per a: Vistes prèvies ràpides, accessibilitat i aplicacions incrustats

Prova lliure

VITSVITS Lliure

VITS (Inferència normal amb l' aprenentatge de adversaris per al final de text a veu) és un mètode paral· lela a final de TTS que genera més d' àudio natural que dos models d' avui en dia. Això adopta una variació augmentada amb fluxos de flux normalització i un procés d' entrenament adversari, aconseguint una millora significativa en la naturalització.

Millor per a: General- propòsit de text a veu amb prosdy natural

Prova lliure

MeloTTSMeloTTS Lliure

MeloTTS per la meva Shell.ai és una biblioteca multilingüe que permet l' anglès (americà, britànic, australià), espanyol, francès, xinès, japonès i coreana. És extremadament ràpid, processar text en una velocitat a prop de l' hora real tot sol a la CPU. MeloTTS està dissenyat per a la producció i implementa la CPU i la GPU.

Millor per a: Les aplicacions de producció necessiten ràpid, TTS multilingüe

Prova lliure

OuteTTSOuteTTS Lliure

OutTeTS s'estén a grans models d' idioma amb capacitats de text a veu mentre es preserva l' arquitectura original. Permet múltiples dorsals incloent- hi llama.cpp (CUPU), Hugina els transformadors, ExlamaV2, VLLM, i fins i tot navegador enferència mitjançant transformadors.j. característiques zero- foto de veu clonada mitjançant els perfils de l' altaveu desat com a JSON.

Millor per a: desplegament de vores, entorns TTS basats en el navegador, entorns de codi baixa

Prova lliure

Pocket TTSPocket TTS Lliure

Pocket TTS per Kyutai (cretors de Mhis) és un model de text compacte de 100M a veu que dóna força per sobre del seu pes. Funciona de forma eficient a la CPU, accepta una clonació de veu zeros d' una única mostra d' àudio i produeix un discurs natural. La mida petita del model fa ideal per als entorns de desplegament i baixos de codi.

Millor per a: Quadrat lleuger, entorns de només CPU, clonació ràpida de veu

Prova lliure

Kitten TTSKitten TTS Lliure

Kitten TTS per KittenM és un model de text ultra- il· luminació construït en ONNX. Amb variants de 15M a 80 paràmetres (25- 80 MB en el disc), proporciona una síntesi de veu d' alta qualitat a la CPU sense necessitat d' una GPU. Les característiques 8 incorporacions de veu incorporades, ajustables i d' un procés de text per als números, les divises i les unitats. Ida per a les aplicacions de desplegament i de baixa potència.

Millor per a: TTS lleuger, desplegament de vora, aplicacions de baixa potència

Prova lliure

BarkBark Estàndard

Model de text auudio basat en transformador que genera un discurs realista, música i efectes sonors.

Desenvolupador: Suno · Llicència: MIT

Intenta-ho

Bark SmallBark Small Estàndard

Versió més lleugera de Bark amb un ús més ràpid de la inferència i menor de memòria.

Desenvolupador: Suno · Llicència: MIT

Intenta-ho

CosyVoice 2CosyVoice 2 Estàndard

TTS escalables d'Alibaba amb naturalitat humana i retard de zero.

Desenvolupador: Alibaba (Tongyi Lab) · Llicència: Apache 2.0

Intenta-ho

Dia TTSDia TTS Estàndard

Model de generació de diàlegs multiparlants que creen converses naturals entre els altaveus.

Desenvolupador: Nari Labs · Llicència: Apache 2.0

Intenta-ho

Parler TTSParler TTS Estàndard

Descriu la veu que voleu en llenguatge natural i en Parler genera un discurs coincident.

Desenvolupador: Hugging Face · Llicència: Apache 2.0

Intenta-ho

GLM-TTSGLM-TTS Estàndard

Achieves la taxa d'errors de caràcters més baixa entre models TTS de codi obert.

Desenvolupador: Zhipu AI · Llicència: GLM-4 License

Intenta-ho

IndexTTS-2IndexTTS-2 Estàndard

TTS d'alt control d'emoció i expressitives altes.

Desenvolupador: Index Team · Llicència: Bilibili Model License

Intenta-ho

Spark TTSSpark TTS Estàndard

TTS de veu clonant amb emocions controlables i parlant estil via fuques.

Desenvolupador: SparkAudio · Llicència: CC BY-NC-SA 4.0

Intenta-ho

GPT-SoVITSGPT-SoVITS Estàndard

TTS de veu simple clonant que replica qualsevol veu des de només 5 segons d'àudio.

Desenvolupador: RVC-Boss · Llicència: MIT

Intenta-ho

OrpheusOrpheus Estàndard

Model TTS emocionals de nivell humà entrenats en 100 K hores de dades de parla.

Desenvolupador: Canopy Labs · Llicència: Llama 3.2 Community

Intenta-ho

Qwen3 TTSQwen3 TTS Estàndard

TTS multilingüe de l'Alibaba amb una clonació de veu, veus preestablertes i disseny de veu des del text.

Desenvolupador: Alibaba (Qwen) · Llicència: Apache 2.0

Intenta-ho

Chatterbox TurboChatterbox Turbo Estàndard

Caixa de xat ràpid amb etiquetes de retard i de paralingüística per riure, tos i més.

Desenvolupador: Resemble AI · Llicència: MIT

Intenta-ho

Dia 2Dia 2 Estàndard

TTS de dades en primera conversa amb diàleg multiparlador i senyal de paralingüüística.

Desenvolupador: Nari Labs · Llicència: Apache 2.0

Intenta-ho

VoxCPMVoxCPM Estàndard

L'àudio Tokenzerzer-freeTS produeix 44.1kHz amb una consistència de paràgraf compatible amb el context.

Desenvolupador: OpenBMB · Llicència: Apache 2.0

Intenta-ho

TADATADA Estàndard

TTS d' acústic de zero amb un acústic dual, 5x més ràpid que el TLLM.

Desenvolupador: Hume AI · Llicència: MIT

Intenta-ho

VibeVoiceVibeVoice Estàndard

Model Microsoft per al contingut multiparlador de llarga forma com podcasts i llibres d'àudio.

Desenvolupador: Microsoft · Llicència: MIT

Intenta-ho

CosyVoice3CosyVoice3 Estàndard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Desenvolupador: Alibaba (FunAudioLLM) · Llicència: Apache 2.0

Intenta-ho

ChatterboxChatterbox Premium

Una clonació de la veu de l'estat d'un punt de mira amb el control d'emoció de la IA.

Qualitat:

Intenta-ho

Tortoise TTSTortoise TTS Premium

Conjunt de text a veu multi-vocatiu en qualitat amb arquitectura autogresiu.

Qualitat:

Intenta-ho

StyleTTS 2StyleTTS 2 Premium

Text a veu humana a través de la difusió d' estil i entrenament adversari.

Qualitat:

Intenta-ho

OpenVoiceOpenVoice Premium

Una clonació de veu instantània amb un control molt gran sobre l' estil, les emocions i l'accent.

Qualitat:

Intenta-ho

Sesame CSMSesame CSM Premium

Model de discurs conversaal que genera un diàleg natural amb temps i emocions apropiades.

Qualitat:

Intenta-ho

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Qualitat:

Intenta-ho

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Qualitat:

Intenta-ho

CosyVoice 2CosyVoice 2

TTS escalables d'Alibaba amb naturalitat humana i retard de zero.

Idiomes: en, zh, ja, ko, fr, de, it, es

Clona veu

GLM-TTSGLM-TTS

Achieves la taxa d'errors de caràcters més baixa entre models TTS de codi obert.

Idiomes: en, zh

Clona veu

IndexTTS-2IndexTTS-2

TTS d'alt control d'emoció i expressitives altes.

Idiomes: en, zh

Clona veu

Spark TTSSpark TTS

TTS de veu clonant amb emocions controlables i parlant estil via fuques.

Idiomes: en, zh

Clona veu

GPT-SoVITSGPT-SoVITS

TTS de veu simple clonant que replica qualsevol veu des de només 5 segons d'àudio.

Idiomes: en, zh, ja, ko

Clona veu

ChatterboxChatterbox

Una clonació de la veu de l'estat d'un punt de mira amb el control d'emoció de la IA.

Idiomes: en

Clona veu

Tortoise TTSTortoise TTS

Conjunt de text a veu multi-vocatiu en qualitat amb arquitectura autogresiu.

Idiomes: en

Clona veu

OpenVoiceOpenVoice

Una clonació de veu instantània amb un control molt gran sobre l' estil, les emocions i l'accent.

Idiomes: en, zh, ja, ko, fr, de, es, it

Clona veu

Qwen3 TTSQwen3 TTS

TTS multilingüe de l'Alibaba amb una clonació de veu, veus preestablertes i disseny de veu des del text.

Idiomes: en, zh, ja, ko, de, fr, ru, pt, es, it

Clona veu

Chatterbox TurboChatterbox Turbo

Caixa de xat ràpid amb etiquetes de retard i de paralingüística per riure, tos i més.

Idiomes: en

Clona veu

VoxCPMVoxCPM

L'àudio Tokenzerzer-freeTS produeix 44.1kHz amb una consistència de paràgraf compatible amb el context.

Idiomes: en, zh

Clona veu

OuteTTSOuteTTS

TTS basat en LLM que s' executa a la CPU, GPU, o navegador a través de llama.cpp i transformadors.js.

Idiomes: en

Clona veu

Pocket TTSPocket TTS

Model de paràmetre lleuger 100M per Kyutai amb clonació de veu d'una única mostra.

Idiomes: en, fr

Clona veu

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Idiomes: en, zh, ja, ko, de, es, fr, it, ru

Clona veu

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Idiomes: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Clona veu

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Idiomes: en, zh

Clona veu

Desenvolupador- estrella API

OpenAI- compatible amb l' API REST. Un punt final, 22+ models. Implementació de flux per aplicacions en temps real.

  • Format compatible amb l' OpenAI
  • TTS de corrent per aplicacions en temps realName
  • Processat per lots per tasques grans
  • Notificacions del descommatge WebName
Visualitza els Docs API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Pricació simple, transparent

Deixa lliure. Escala mentre creixis.

Lliure

$0

50 crèdits

  • Kokoro, Piper, VITS, MeloTTS
  • Límit de 500 caràcters
  • 3 gen/ hores (sense compte)
Signa lliure

Iniciador

$9/mounit description in lists

500 crèdits/ mesos

  • Tots els models 22+
  • 100.000 caràcters per generació
  • Clon de veu
Començar
El més popular

Pro

$29/mounit description in lists

2.000 crèdits/ mesos

  • Tot al principi
  • Accés de l' API
  • Processament de prioritat
Obtén Pro

Negocis

$99/mounit description in lists

10.000 crèdits/ mesos

  • Tot en Pro
  • API de Massa
  • Cua de prioritat
Obtén negoci

Visualitzeu tots els plans incloent paquets de crèdit →

Preguntes més freqüents

TTS.ai és la plataforma de veu més completa de la IA, oferint models de text 22+ a veu, clonant la veu, clonant paraules a text i eines d' àudio. Tots els models són oberts sense bloqueig de venedor.

Yes! TTS.ai offers free text-to-speech with Kokoro, Piper, VITS, and MeloTTS models. No account required. Sign up to get 15,000 free characters and access all models. Paid plans start at $9/month.

Per a la velocitat, useu Kokoro o Pioner. Per a qualitat, intenteu CosyVoice 2 o StyleTTS 2. Per a la clonació de veu, useu Xatterbox o GPT- SITS. Per al diàleg, useu Dia TTS. Proveu amb múltiples models en el mateix text per a comparar.

Sí. Els plans de vista de l' API compatible amb OpenAI per a TTS, ST, clonant la veu i les eines d' àudio. Disponible en Pro$29/mo) i Enterprise ($99/mo). La documentació de vista en tts.ai/ api /.

La qualitat de veu varia pel model. Els models Premiums com CosyVoice 2, StyleTTS i Chatterbox produeixen un discurs de qualitat humà proper a la innació i emoció natural. Els models lliures com Kokoro ofereixen una qualitat excel· lent per a la majoria dels casos d' ús.

TTS.ai dóna suport a 30 llengües+ a través de la seva biblioteca de model. L' anglès té el suport més ampli, però models com CosyVoice 2 xinesos, japonesos i coreana; nances xinesos, japonès, coreana, i els MeloTS permeten l' anglès, espanyol, xinès, japonès i coreà.

Sí. Tot el procés succeeix als nostres servidors de la GPU dedicats. No emmagatzemen l' entrada de text o generat àudio després del lliurament. Només s' usen mostres de veu per fer còpies exactes per a la sessió actual i no es conservaran. No compartim mai les vostres dades amb tercers partits o useu- lo per a entrenar models.

Sí, tot l'àudio generat a TTS.ai és vostre per usar anuncis comercialment, incloent-hi els vídeos de YouTube, podcasts, aplicacions d'àudio, anuncis i productes. Els nostres models són font oberts sota llicències permissives (MIT, Apache 2.0). Sense atribucions reials o atribucions requerides.

TTS.ai genera àudio en format WAV per omissió per a màxima qualitat. Podeu convertir- lo a MP3, FLAC, OGG, o M4A usant la nostra eina de Convertidor d' àudio lliure. L' API permet especificar directament el format de sortida preferit en la petició.

Carrega una mostra d' àudio curta (com 5 segons) de la veu que voleu clonar, llavors introduïu qualsevol text per a generar el discurs en aquesta veu. Models com ara Chatterbox, GPT- STITS, i CosyVoice 2 permet clonar veu. Les captures de veu clonades, el to, l' accent i l' estil de parla.

Els models lliures (Kokoro, Conducte VITS, MeloTTS) no requereixen cap compte i costa els crèdits zeros. Els models estàndards (2 crèdits/1K) inclouen Barrak, CosyVoice 2, F5- TTS i Dia. Els models Premium (4 caràcters de crèdit/ 1K) inclouen OpenVice, Chatterbox, StyleTTS 2, i Tortose. Generalment els models que ofereixen qualitat superior, veus i característiques addicionals com clonar la veu.

Sí. L' API permet el processament per lots per convertir grans volums de text a la parla. Envieu múltiples peticions i recupereu resultats asíncronament usant els plans de treball UUID. Enterprise ($99/mo) l' accés de cua de prioritat per a un procés per lots més ràpid. Ideal per a la producció d' àudiobook, per descomptat, contingut i gran escala sobre projectes de veu.
4.1/5 (21)

What could we improve? Your feedback helps us fix issues.

Comença l' ús de la veu de la IA avui

Uneixre a creadors, desenvolupadors i negocis utilitzant TTS.ai