Free AI Text a veu
31+ Models de codi obert, 231+ veus, 34+ Idiomes: no cal cap compte.
Tot el que necessiteu per l'AI de veu
30+ eines impulsades per models de la IA de codi obert
31+ Models de veu IA
La col·lecció més completa de models TTS de codi obert en una plataformaName
Kokoro Lliure
Kokoro és un model de text de 82 milions de text a veu que passa bé per sobre de la seva classe de pes. Malgrat la seva petita mida, produeix un discurs natural i expressiva. Kokoro suporta múltiples llengües, com ara anglès, japonès, xinès i coreà amb una varietat de veus expressives. S' executa increïblement ràpid per generar àudio gairebé 100x més ràpid que el temps real en una GPU.
Millor per a: TTS d' alta qualitat amb mínim de retard i aplicacions de sortida
Prova lliure
Piper Lliure
Pipher és un lleuger motor de text a veu desenvolupat per Rhaspy que utilitza arquitectura VITS i larynx. Funciona totalment a la CPU, fent que ideal per a dispositius de vora, automulació i aplicacions de connexió fora de línia. Amb més de 100 veus a través de 30 idiomes, el conducte proporciona un discurs natural a velocitats reals, fins i tot en un Raspberry 4.
Millor per a: Vistes prèvies ràpides, accessibilitat i aplicacions incrustats
Prova lliure
VITS Lliure
VITS (Inferència normal amb l' aprenentatge de adversaris per al final de text a veu) és un mètode paral· lela a final de TTS que genera més d' àudio natural que dos models d' avui en dia. Això adopta una variació augmentada amb fluxos de flux normalització i un procés d' entrenament adversari, aconseguint una millora significativa en la naturalització.
Millor per a: General- propòsit de text a veu amb prosdy natural
Prova lliure
MeloTTS Lliure
MeloTTS per la meva Shell.ai és una biblioteca multilingüe que permet l' anglès (americà, britànic, australià), espanyol, francès, xinès, japonès i coreana. És extremadament ràpid, processar text en una velocitat a prop de l' hora real tot sol a la CPU. MeloTTS està dissenyat per a la producció i implementa la CPU i la GPU.
Millor per a: Les aplicacions de producció necessiten ràpid, TTS multilingüe
Prova lliure
OuteTTS Lliure
OutTeTS s'estén a grans models d' idioma amb capacitats de text a veu mentre es preserva l' arquitectura original. Permet múltiples dorsals incloent- hi llama.cpp (CUPU), Hugina els transformadors, ExlamaV2, VLLM, i fins i tot navegador enferència mitjançant transformadors.j. característiques zero- foto de veu clonada mitjançant els perfils de l' altaveu desat com a JSON.
Millor per a: desplegament de vores, entorns TTS basats en el navegador, entorns de codi baixa
Prova lliure
Pocket TTS Lliure
Pocket TTS per Kyutai (cretors de Mhis) és un model de text compacte de 100M a veu que dóna força per sobre del seu pes. Funciona de forma eficient a la CPU, accepta una clonació de veu zeros d' una única mostra d' àudio i produeix un discurs natural. La mida petita del model fa ideal per als entorns de desplegament i baixos de codi.
Millor per a: Quadrat lleuger, entorns de només CPU, clonació ràpida de veu
Prova lliure
Kitten TTS Lliure
Kitten TTS per KittenM és un model de text ultra- il· luminació construït en ONNX. Amb variants de 15M a 80 paràmetres (25- 80 MB en el disc), proporciona una síntesi de veu d' alta qualitat a la CPU sense necessitat d' una GPU. Les característiques 8 incorporacions de veu incorporades, ajustables i d' un procés de text per als números, les divises i les unitats. Ida per a les aplicacions de desplegament i de baixa potència.
Millor per a: TTS lleuger, desplegament de vora, aplicacions de baixa potència
Prova lliure
Bark Estàndard
Model de text auudio basat en transformador que genera un discurs realista, música i efectes sonors.
Desenvolupador: Suno · Llicència: MIT
Intenta-ho
Bark Small Estàndard
Versió més lleugera de Bark amb un ús més ràpid de la inferència i menor de memòria.
Desenvolupador: Suno · Llicència: MIT
Intenta-ho
CosyVoice 2 Estàndard
TTS escalables d'Alibaba amb naturalitat humana i retard de zero.
Desenvolupador: Alibaba (Tongyi Lab) · Llicència: Apache 2.0
Intenta-ho
Dia TTS Estàndard
Model de generació de diàlegs multiparlants que creen converses naturals entre els altaveus.
Desenvolupador: Nari Labs · Llicència: Apache 2.0
Intenta-ho
Parler TTS Estàndard
Descriu la veu que voleu en llenguatge natural i en Parler genera un discurs coincident.
Desenvolupador: Hugging Face · Llicència: Apache 2.0
Intenta-ho
GLM-TTS Estàndard
Achieves la taxa d'errors de caràcters més baixa entre models TTS de codi obert.
Desenvolupador: Zhipu AI · Llicència: GLM-4 License
Intenta-ho
IndexTTS-2 Estàndard
TTS d'alt control d'emoció i expressitives altes.
Desenvolupador: Index Team · Llicència: Bilibili Model License
Intenta-ho
Spark TTS Estàndard
TTS de veu clonant amb emocions controlables i parlant estil via fuques.
Desenvolupador: SparkAudio · Llicència: CC BY-NC-SA 4.0
Intenta-ho
GPT-SoVITS Estàndard
TTS de veu simple clonant que replica qualsevol veu des de només 5 segons d'àudio.
Desenvolupador: RVC-Boss · Llicència: MIT
Intenta-ho
Orpheus Estàndard
Model TTS emocionals de nivell humà entrenats en 100 K hores de dades de parla.
Desenvolupador: Canopy Labs · Llicència: Llama 3.2 Community
Intenta-ho
Qwen3 TTS Estàndard
TTS multilingüe de l'Alibaba amb una clonació de veu, veus preestablertes i disseny de veu des del text.
Desenvolupador: Alibaba (Qwen) · Llicència: Apache 2.0
Intenta-ho
Chatterbox Turbo Estàndard
Caixa de xat ràpid amb etiquetes de retard i de paralingüística per riure, tos i més.
Desenvolupador: Resemble AI · Llicència: MIT
Intenta-ho
Dia 2 Estàndard
TTS de dades en primera conversa amb diàleg multiparlador i senyal de paralingüüística.
Desenvolupador: Nari Labs · Llicència: Apache 2.0
Intenta-ho
VoxCPM Estàndard
L'àudio Tokenzerzer-freeTS produeix 44.1kHz amb una consistència de paràgraf compatible amb el context.
Desenvolupador: OpenBMB · Llicència: Apache 2.0
Intenta-ho
TADA Estàndard
TTS d' acústic de zero amb un acústic dual, 5x més ràpid que el TLLM.
Desenvolupador: Hume AI · Llicència: MIT
Intenta-ho
VibeVoice Estàndard
Model Microsoft per al contingut multiparlador de llarga forma com podcasts i llibres d'àudio.
Desenvolupador: Microsoft · Llicència: MIT
Intenta-ho
CosyVoice3 Estàndard
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Desenvolupador: Alibaba (FunAudioLLM) · Llicència: Apache 2.0
Intenta-ho
CosyVoice 2
TTS escalables d'Alibaba amb naturalitat humana i retard de zero.
Idiomes: en, zh, ja, ko, fr, de, it, es
Clona veu
GLM-TTS
Achieves la taxa d'errors de caràcters més baixa entre models TTS de codi obert.
Idiomes: en, zh
Clona veu
Spark TTS
TTS de veu clonant amb emocions controlables i parlant estil via fuques.
Idiomes: en, zh
Clona veu
GPT-SoVITS
TTS de veu simple clonant que replica qualsevol veu des de només 5 segons d'àudio.
Idiomes: en, zh, ja, ko
Clona veu
Chatterbox
Una clonació de la veu de l'estat d'un punt de mira amb el control d'emoció de la IA.
Idiomes: en
Clona veu
Tortoise TTS
Conjunt de text a veu multi-vocatiu en qualitat amb arquitectura autogresiu.
Idiomes: en
Clona veu
OpenVoice
Una clonació de veu instantània amb un control molt gran sobre l' estil, les emocions i l'accent.
Idiomes: en, zh, ja, ko, fr, de, es, it
Clona veu
Qwen3 TTS
TTS multilingüe de l'Alibaba amb una clonació de veu, veus preestablertes i disseny de veu des del text.
Idiomes: en, zh, ja, ko, de, fr, ru, pt, es, it
Clona veu
Chatterbox Turbo
Caixa de xat ràpid amb etiquetes de retard i de paralingüística per riure, tos i més.
Idiomes: en
Clona veu
VoxCPM
L'àudio Tokenzerzer-freeTS produeix 44.1kHz amb una consistència de paràgraf compatible amb el context.
Idiomes: en, zh
Clona veu
OuteTTS
TTS basat en LLM que s' executa a la CPU, GPU, o navegador a través de llama.cpp i transformadors.js.
Idiomes: en
Clona veu
Pocket TTS
Model de paràmetre lleuger 100M per Kyutai amb clonació de veu d'una única mostra.
Idiomes: en, fr
Clona veu
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Idiomes: en, zh, ja, ko, de, es, fr, it, ru
Clona veu
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
Idiomes: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
Clona veu
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
Idiomes: en, zh
Clona veuDesenvolupador- estrella API
OpenAI- compatible amb l' API REST. Un punt final, 22+ models. Implementació de flux per aplicacions en temps real.
- Format compatible amb l' OpenAI
- TTS de corrent per aplicacions en temps realName
- Processat per lots per tasques grans
- Notificacions del descommatge WebName
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Pricació simple, transparent
Deixa lliure. Escala mentre creixis.
Lliure
50 crèdits
- Kokoro, Piper, VITS, MeloTTS
- Límit de 500 caràcters
- 3 gen/ hores (sense compte)
Iniciador
500 crèdits/ mesos
- Tots els models 22+
- 100.000 caràcters per generació
- Clon de veu
Pro
2.000 crèdits/ mesos
- Tot al principi
- Accés de l' API
- Processament de prioritat
Negocis
10.000 crèdits/ mesos
- Tot en Pro
- API de Massa
- Cua de prioritat
Preguntes més freqüents
What could we improve? Your feedback helps us fix issues.
Comença l' ús de la veu de la IA avui
Uneixre a creadors, desenvolupadors i negocis utilitzant TTS.ai