Free AI Text a veu

20+ Models de codi obert, 107+ veus, 32+ Idiomes: no cal cap compte.

1K+
creadors
2K+
generacions
20+
Models d' IA
107+
veus
0/500 caràcters Lliure
Com TTS.ai? Digue-li als teus amics!

Tot el que necessiteu per l'AI de veu

30+ eines impulsades per models de la IA de codi obert

20+ Models de veu IA

La col·lecció més completa de models TTS de codi obert en una plataformaName

KokoroKokoro Free

Kokoro és un model de text de 82 milions de text a veu que passa bé per sobre de la seva classe de pes. Malgrat la seva petita mida, produeix un discurs natural i expressiva. Kokoro suporta múltiples llengües, com ara anglès, japonès, xinès i coreà amb una varietat de veus expressives. S' executa increïblement ràpid per generar àudio gairebé 100x més ràpid que el temps real en una GPU.

Millor per a: TTS d' alta qualitat amb mínim de retard i aplicacions de sortida

Prova lliure

PiperPiper Free

Pipher és un lleuger motor de text a veu desenvolupat per Rhaspy que utilitza arquitectura VITS i larynx. Funciona totalment a la CPU, fent que ideal per a dispositius de vora, automulació i aplicacions de connexió fora de línia. Amb més de 100 veus a través de 30 idiomes, el conducte proporciona un discurs natural a velocitats reals, fins i tot en un Raspberry 4.

Millor per a: Vistes prèvies ràpides, accessibilitat i aplicacions incrustats

Prova lliure

VITSVITS Free

VITS (Inferència normal amb l' aprenentatge de adversaris per al final de text a veu) és un mètode paral· lela a final de TTS que genera més d' àudio natural que dos models d' avui en dia. Això adopta una variació augmentada amb fluxos de flux normalització i un procés d' entrenament adversari, aconseguint una millora significativa en la naturalització.

Millor per a: General- propòsit de text a veu amb prosdy natural

Prova lliure

MeloTTSMeloTTS Free

MeloTTS per la meva Shell.ai és una biblioteca multilingüe que permet l' anglès (americà, britànic, australià), espanyol, francès, xinès, japonès i coreana. És extremadament ràpid, processar text en una velocitat a prop de l' hora real tot sol a la CPU. MeloTTS està dissenyat per a la producció i implementa la CPU i la GPU.

Millor per a: Les aplicacions de producció necessiten ràpid, TTS multilingüe

Prova lliure

BarkBark Standard

Model de text auudio basat en transformador que genera un discurs realista, música i efectes sonors.

Desenvolupador: Suno · Llicència: MIT

Intenta-ho

Bark SmallBark Small Standard

Versió més lleugera de Bark amb un ús més ràpid de la inferència i menor de memòria.

Desenvolupador: Suno · Llicència: MIT

Intenta-ho

CosyVoice 2CosyVoice 2 Standard

TTS escalables d'Alibaba amb naturalitat humana i retard de zero.

Desenvolupador: Alibaba (Tongyi Lab) · Llicència: Apache 2.0

Intenta-ho

Dia TTSDia TTS Standard

Model de generació de diàlegs multiparlants que creen converses naturals entre els altaveus.

Desenvolupador: Nari Labs · Llicència: Apache 2.0

Intenta-ho

Parler TTSParler TTS Standard

Descriu la veu que voleu en llenguatge natural i en Parler genera un discurs coincident.

Desenvolupador: Hugging Face · Llicència: Apache 2.0

Intenta-ho

GLM-TTSGLM-TTS Standard

Achieves la taxa d'errors de caràcters més baixa entre models TTS de codi obert.

Desenvolupador: Zhipu AI · Llicència: GLM-4 License

Intenta-ho

IndexTTS-2IndexTTS-2 Standard

TTS d'alt control d'emoció i expressitives altes.

Desenvolupador: Index Team · Llicència: Bilibili Model License

Intenta-ho

Spark TTSSpark TTS Standard

TTS de veu clonant amb emocions controlables i parlant estil via fuques.

Desenvolupador: SparkAudio · Llicència: CC BY-NC-SA 4.0

Intenta-ho

GPT-SoVITSGPT-SoVITS Standard

TTS de veu simple clonant que replica qualsevol veu des de només 5 segons d'àudio.

Desenvolupador: RVC-Boss · Llicència: MIT

Intenta-ho

OrpheusOrpheus Standard

Model TTS emocionals de nivell humà entrenats en 100 K hores de dades de parla.

Desenvolupador: Canopy Labs · Llicència: Llama 3.2 Community

Intenta-ho

Qwen3 TTSQwen3 TTS Standard

TTS multilingüe de l'Alibaba amb una clonació de veu, veus preestablertes i disseny de veu des del text.

Desenvolupador: Alibaba (Qwen) · Llicència: Apache 2.0

Intenta-ho

ChatterboxChatterbox Premium

Una clonació de la veu de l'estat d'un punt de mira amb el control d'emoció de la IA.

Qualitat:

Intenta-ho

Tortoise TTSTortoise TTS Premium

Conjunt de text a veu multi-vocatiu en qualitat amb arquitectura autogresiu.

Qualitat:

Intenta-ho

StyleTTS 2StyleTTS 2 Premium

Text a veu humana a través de la difusió d' estil i entrenament adversari.

Qualitat:

Intenta-ho

OpenVoiceOpenVoice Premium

Una clonació de veu instantània amb un control molt gran sobre l' estil, les emocions i l'accent.

Qualitat:

Intenta-ho

Sesame CSMSesame CSM Premium

Model de discurs conversaal que genera un diàleg natural amb temps i emocions apropiades.

Qualitat:

Intenta-ho

CosyVoice 2CosyVoice 2

TTS escalables d'Alibaba amb naturalitat humana i retard de zero.

Idiomes: en, zh, ja, ko, fr, de, it, es

Clona veu

GLM-TTSGLM-TTS

Achieves la taxa d'errors de caràcters més baixa entre models TTS de codi obert.

Idiomes: en, zh

Clona veu

IndexTTS-2IndexTTS-2

TTS d'alt control d'emoció i expressitives altes.

Idiomes: en, zh

Clona veu

Spark TTSSpark TTS

TTS de veu clonant amb emocions controlables i parlant estil via fuques.

Idiomes: en, zh

Clona veu

GPT-SoVITSGPT-SoVITS

TTS de veu simple clonant que replica qualsevol veu des de només 5 segons d'àudio.

Idiomes: en, zh, ja, ko

Clona veu

ChatterboxChatterbox

Una clonació de la veu de l'estat d'un punt de mira amb el control d'emoció de la IA.

Idiomes: en

Clona veu

Tortoise TTSTortoise TTS

Conjunt de text a veu multi-vocatiu en qualitat amb arquitectura autogresiu.

Idiomes: en

Clona veu

OpenVoiceOpenVoice

Una clonació de veu instantània amb un control molt gran sobre l' estil, les emocions i l'accent.

Idiomes: en, zh, ja, ko, fr, de, es, it

Clona veu

Qwen3 TTSQwen3 TTS

TTS multilingüe de l'Alibaba amb una clonació de veu, veus preestablertes i disseny de veu des del text.

Idiomes: en, zh, ja, ko, de, fr, ru, pt, es, it

Clona veu

Desenvolupador- estrella API

OpenAI- compatible amb l' API REST. Un punt final, 22+ models. Implementació de flux per aplicacions en temps real.

  • Format compatible amb l' OpenAI
  • TTS de corrent per aplicacions en temps realName
  • Processat per lots per tasques grans
  • Notificacions del descommatge WebName
Visualitza els Docs API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Pricació simple, transparent

Deixa lliure. Escala mentre creixis.

Lliure

$0

50 crèdits

  • Kokoro, Piper, VITS, MeloTTS
  • Límit de 500 caràcters
  • 3 gen/ hores (sense compte)
Signa lliure

Iniciador

$9/mounit description in lists

500 crèdits/ mesos

  • Tots els models 22+
  • 100.000 caràcters per generació
  • Clon de veu
Començar
El més popular

Pro

$29/mounit description in lists

2.000 crèdits/ mesos

  • Tot al principi
  • Accés de l' API
  • Processament de prioritat
Obtén Pro

Negocis

$99/mounit description in lists

10.000 crèdits/ mesos

  • Tot en Pro
  • API de Massa
  • Cua de prioritat
Obtén negoci

Visualitzeu tots els plans incloent paquets de crèdit →

Preguntes més freqüents

TTS.ai és la plataforma de veu més completa de la IA, oferint models de text 22+ a veu, clonant la veu, clonant paraules a text i eines d' àudio. Tots els models són oberts sense bloqueig de venedor.

Yes! TTS.ai offers free text-to-speech with Kokoro, Piper, VITS, and MeloTTS models. No account required. Sign up to get 15,000 free characters and access all models. Paid plans start at $9/month.

Per a la velocitat, useu Kokoro o Pioner. Per a qualitat, intenteu CosyVoice 2 o StyleTTS 2. Per a la clonació de veu, useu Xatterbox o GPT- SITS. Per al diàleg, useu Dia TTS. Proveu amb múltiples models en el mateix text per a comparar.

Sí. Els plans de vista de l' API compatible amb OpenAI per a TTS, ST, clonant la veu i les eines d' àudio. Disponible en Pro$29/mo) i Enterprise ($99/mo). La documentació de vista en tts.ai/ api /.

La qualitat de veu varia pel model. Els models Premiums com CosyVoice 2, StyleTTS i Chatterbox produeixen un discurs de qualitat humà proper a la innació i emoció natural. Els models lliures com Kokoro ofereixen una qualitat excel· lent per a la majoria dels casos d' ús.

TTS.ai dóna suport a 30 llengües+ a través de la seva biblioteca de model. L' anglès té el suport més ampli, però models com CosyVoice 2 xinesos, japonesos i coreana; nances xinesos, japonès, coreana, i els MeloTS permeten l' anglès, espanyol, xinès, japonès i coreà.

Sí. Tot el procés succeeix als nostres servidors de la GPU dedicats. No emmagatzemen l' entrada de text o generat àudio després del lliurament. Només s' usen mostres de veu per fer còpies exactes per a la sessió actual i no es conservaran. No compartim mai les vostres dades amb tercers partits o useu- lo per a entrenar models.

Sí, tot l'àudio generat a TTS.ai és vostre per usar anuncis comercialment, incloent-hi els vídeos de YouTube, podcasts, aplicacions d'àudio, anuncis i productes. Els nostres models són font oberts sota llicències permissives (MIT, Apache 2.0). Sense atribucions reials o atribucions requerides.

TTS.ai genera àudio en format WAV per omissió per a màxima qualitat. Podeu convertir- lo a MP3, FLAC, OGG, o M4A usant la nostra eina de Convertidor d' àudio lliure. L' API permet especificar directament el format de sortida preferit en la petició.

Carrega una mostra d' àudio curta (com 5 segons) de la veu que voleu clonar, llavors introduïu qualsevol text per a generar el discurs en aquesta veu. Models com ara Chatterbox, GPT- STITS, i CosyVoice 2 permet clonar veu. Les captures de veu clonades, el to, l' accent i l' estil de parla.

Els models lliures (Kokoro, Conducte VITS, MeloTTS) no requereixen cap compte i costa els crèdits zeros. Els models estàndards (2 crèdits/1K) inclouen Barrak, CosyVoice 2, F5- TTS i Dia. Els models Premium (4 caràcters de crèdit/ 1K) inclouen OpenVice, Chatterbox, StyleTTS 2, i Tortose. Generalment els models que ofereixen qualitat superior, veus i característiques addicionals com clonar la veu.

Sí. L' API permet el processament per lots per convertir grans volums de text a la parla. Envieu múltiples peticions i recupereu resultats asíncronament usant els plans de treball UUID. Enterprise ($99/mo) l' accés de cua de prioritat per a un procés per lots més ràpid. Ideal per a la producció d' àudiobook, per descomptat, contingut i gran escala sobre projectes de veu.
4.0/5 (8)

Comença l' ús de la veu de la IA avui

Uneixre a creadors, desenvolupadors i negocis utilitzant TTS.ai