Libera AI Teksto- al- ParoloComment

33+ malfermkodaj modeloj, 273+ voĉoj, 33+ Lingvoj. Neniu konto necesas.

17K+
kreintoj
70K+
generacioj
33+
AI modeloj
273+
voĉoj
0/500 signoj · Subskribu por 5,000 po generacio → Libera
Ĉu vi ŝatas TTS.ai? Diru al viaj amikoj!

33+ AI- voĉaj modeloj

La plej ampleksa kolekto de malfermkodaj TTS-modeloj en unu platformo

KokoroKokoro Libera

Kokoro estas 82-miliona parametra teksto-al-parolo-modelo kiu bone superas sian pezan klason. Spite sian malgrandan grandecon, ĝi produktas rimarkinde naturan kaj esprimplenan paroladon. Kokoro subtenas plurajn lingvojn inkluzive de la angla, japana, ĉina, kaj korea kun vario de esprimplenaj voĉoj. Ĝi funkcias nekredeble rapide — generante sonon preskaŭ 100-oble pli rapide ol realtempa sur GPU.

Plej bona por: Altkvalita TTS kun minimuma prokrasto, fluantaj aplikaĵoj

Provu senpage

PiperPiper Libera

Piper estas malpeza teksto-al-vorta motoro evoluigita de Rhasspy kiu uzas VITS kaj larynx arkitekturojn. Ĝi ruliĝas tute sur CPU, kio faras ĝin ideala por periferiaj aparatoj, hejma aŭtomatigo, kaj aplikaĵoj kiuj bezonas senretan TTS. Kun pli ol 100 voĉoj en pli ol 30 lingvoj, Piper liveras nature sonantan paroladon je realtempa rapideco eĉ sur Raspberry Pi 4.

Plej bona por: Rapidaj antaŭrigardoj, alirebleco, kaj enkorpigitaj aplikaĵoj

Provu senpage

VITSVITS Libera

VITS (Variaciona Inferigo kun Kontraŭstara Lernado por Fina Fina Tekst- al- Parola Metodo) estas paralela fin- al- fina TTS- metodo kiu generas pli nature sonantan sonon ol nunaj du- paŝaj modeloj. Ĝi adoptas variacionan inferigon plifortigitan per normaligaj fluoj kaj kontraŭstara trejna procezo, atingante signifan plibonigon en natureco.

Plej bona por: Ĝeneraluzebla teksto-al-vorto kun natura prozodioName

Provu senpage

MeloTTSMeloTTS Libera

MeloTTS de MyShell. ai estas multlingva TTS- biblioteko subtenanta la anglan (usonan, britan, hindan, aŭstralian), la hispanan, la francan, la ĉinan, la japanan, kaj la korean. Ĝi estas ekstreme rapida, traktante tekston je preskaŭ realtempa rapideco nur per CPU. MeloTTS estas desegnita por produkta uzo kaj subtenas kaj CPU kaj GPU- dedukton.

Plej bona por: Produktivaj aplikaĵoj kiuj bezonas rapidan, multlingvan TTS

Provu senpage

Kani TTS 2Kani TTS 2 Libera

Kani-TTS-2 de NineNineSix estas ultra-malpeza 400M parametra modelo konstruita sur LiquidAI LFM2 dorso kun Nvidia NanoCodec. Ĝi ruliĝas en nur 3GB VRAM kaj atingas 10 sekundojn da parolado en ~2 sekundoj (RTF 0.2). Ĝi subtenas nulan voĉan klonadon per laŭtparoliloj.

Plej bona por: Rapida generado, medioj kun malmultaj rimedoj, rapidaj antaŭrigardoj

Provu senpage

OuteTTSOuteTTS Libera

OuteTTS etendas grandajn lingvajn modelojn per tekst-al-parolaj kapabloj dum konservado de la origina arkitekturo. Ĝi subtenas plurajn internajn partojn inkluzive llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, kaj eĉ retumilan inferecon per Transformers.js. Ĝi havas nulan voĉan klonadon per parolantoj konservitaj kiel JSON.

Plej bona por: Edge-disvastigo, retumilo-bazita TTS, malalt-risurcaj medioj

Provu senpage

Pocket TTSPocket TTS Libera

Pocket TTS de Kyutai (kreintoj de Moshi) estas kompakta 100M parametra teksto-al-vorta modelo kiu estas multe pli potenca ol ĝia pezo. Ĝi funkcias efike sur CPU, subtenas nulan voĉan klonadon el ununura aŭd-ekzemplo, kaj produktas nature sonantan paroladon. La malgranda modelo faras ĝin ideala por rando-disvastigo kaj malriĉaj rimedoj.

Plej bona por: Malpeza disvastigo, nur CPU-aj medioj, rapida voĉ-klonado

Provu senpage

Kitten TTSKitten TTS Libera

Kitten TTS de KittenML estas ultra- malpeza teksto- al- parola modelo konstruita sur ONNX. Kun variantoj de 15M ĝis 80M parametroj (25- 80 MB sur disko), ĝi liveras altkvalitan voĉan sintezon sur CPU sen bezonado de GPU. Ĝi havas 8 enkonstruitajn voĉojn, agordeblan parolrapidecon, kaj enkonstruitan tekstan antaŭtraktadon por nombroj, valutoj, kaj unuoj. Ideala por rando- disvastigo kaj malalt- latentaj aplikaĵoj. Name

Plej bona por: Rapida malpeza TTS, rando- disvastigo, malalt-latenca aplikaĵo

Provu senpage

Ming-Omni TTSMing-Omni TTS Libera

Ming- omni- tts- 0. 5B de inclusionAI estas kompakta ĉie- modala parola modelo konstruita sur la densa dorso de BailingMM kun Flikaĵo- post- Flikaĵo- flu- kongrua aŭda dekodilo. Ĝi liveras 44. 1 kHz eligo (proksime al KD- kvalito), subtenas nulan voĉan klonadon de 3+ sekundoj referenco, kaj inkludas enkonstruitan emocian / dialektan / BGM- kontrolon per JSON- instrukcioj. Elstaraj stabileco — 0. 83% WER sur ĉinaj referencoj.

Plej bona por: Alta-fideleca dulingva rakontado, emoci-kontrolita voĉo-aktado, ĉina aŭdlibro enhavo

Provu senpage

MOSS-TTS NanoMOSS-TTS Nano Libera

MOSS-TTS-Nano-100M estas la kompakta 100M-parametra varianto de OpenMOSS de la MOSS-TTS-familio, kiu uzas la delay-transformer-arkitekturo. Ĝi interŝanĝas la maksimuman kvaliton de la 8B-modelo por ~80-oble pli malgrandaj pezoj kaj draste pli malalta VRAM por ĉiu peto, kio faras ĝin taŭga por libera-nivelaj kaj alt-trafluaj disvolvoj. Same 20-lingva atingo.

Plej bona por: Liber-nivela TTS, alta-volumena produktado, malalt-latenca interaga uzo

Provu senpage

BarkBark Normala

Transform-bazita teksto-al-aŭda modelo kiu generas realisman paroladon, muzikon, kaj sonajn efektojn.

Programisto: Suno · Licenco: MIT

Provu ĝin

Bark SmallBark Small Normala

Malpeza versio de Bark kun pli rapida deduktado kaj pli malalta memoro-uzo.

Programisto: Suno · Licenco: MIT

Provu ĝin

CosyVoice 2CosyVoice 2 Normala

Alibaba's skalebla streaming TTS kun homa-pareco natureco kaj preskaŭ nula latenteco.

Programisto: Alibaba (Tongyi Lab) · Licenco: Apache 2.0

Provu ĝin

Dia TTSDia TTS Normala

Multi-parolanto dialogo generacio modelo kiu kreas naturajn konversaciojn inter parolantoj.

Programisto: Nari Labs · Licenco: Apache 2.0

Provu ĝin

Parler TTSParler TTS Normala

Priskribu la voĉon kiun vi volas en natura lingvo kaj Parler kreos kongruan paroladon.

Programisto: Hugging Face · Licenco: Apache 2.0

Provu ĝin

IndexTTS-2IndexTTS-2 Normala

Ĝenerale oni parolas pri TTT-legilo, kiu havas bonan grafikan interfacon kaj altan rapidecon.

Programisto: Index Team · Licenco: Bilibili Model License

Provu ĝin

Spark TTSSpark TTS Normala

Voĉo klonado TTS kun kontrolata emocio kaj parola stilo tra alvokoj.

Programisto: SparkAudio · Licenco: CC BY-NC-SA 4.0

Provu ĝin

GPT-SoVITSGPT-SoVITS Normala

Kelkaj voĉoj klonado TTS kiu replikas ajnan voĉon de nur 5 sekundoj de aŭdo.

Programisto: RVC-Boss · Licenco: MIT

Provu ĝin

OrpheusOrpheus Normala

100.000 horoj da parolaj datumoj.

Programisto: Canopy Labs · Licenco: Llama 3.2 Community

Provu ĝin

Qwen3 TTSQwen3 TTS Normala

Alibaba's multlingva TTS kun voĉo klonado, antaŭdifinitaj voĉoj, kaj voĉo dezajno de teksto.

Programisto: Alibaba (Qwen) · Licenco: Apache 2.0

Provu ĝin

VieNeu-TTS-v2VieNeu-TTS-v2 Normala

Vjetnama + angla kodŝanĝa TTS kun 7 antaŭdifinitaj voĉoj kaj nulo- pafa voĉklonado. Nur CPU, ne necesas GPU. Name

Programisto: Phạm Nguyễn Ngọc Bảo · Licenco: Apache 2.0

Provu ĝin

Chatterbox TurboChatterbox Turbo Normala

Pli rapida Chatterbox kun sub-200ms latenteco kaj paralingvaj etikedoj por ridoj, tuso, kaj pli.

Programisto: Resemble AI · Licenco: MIT

Provu ĝin

VoxCPMVoxCPM Normala

La 44.1 kHz-a frekvenco estas uzata por la elsendoj de la radiostacio.

Programisto: OpenBMB · Licenco: Apache 2.0

Provu ĝin

VibeVoiceVibeVoice Normala

Microsoft-modelo por longforma multparolanta enhavo kiel podkastoj kaj aŭdlibroj.

Programisto: Microsoft · Licenco: MIT

Provu ĝin

CosyVoice3CosyVoice3 Normala

Sekva generacio de multlingva TTS kun du-flua, emocia kontrolo, kaj nulo-pafa voĉo-klonado.

Programisto: Alibaba (FunAudioLLM) · Licenco: Apache 2.0

Provu ĝin

NAMAA Saudi TTSNAMAA Saudi TTS Normala

Unua malfermita TTS por la Saud- Araba. Denaska Sauda dialekto kun voĉ- klonado de kvalito de Ĉatelbokso. Name

Programisto: NAMAA Space · Licenco: MIT

Provu ĝin

Darwin TTSDarwin TTS Normala

La plej konata estas la Qwen3-1.7B, kiu estas la plej malnova lingvomodelo por la transskribado de la ĉina lingvo.

Programisto: FINAL-Bench · Licenco: Apache 2.0

Provu ĝin

MOSS-TTSDMOSS-TTSD Normala

La plej konata estas la 12-minuta filmo "La Ŝanĝo" (angle: The Change), kiu enhavas 50-minutan filmon kaj 60-minutan dokumentaron.

Programisto: OpenMOSS · Licenco: Apache 2.0

Provu ĝin

ChatterboxChatterbox Premium

Ŝtata-de-la-arto zero-shot voĉo klonado kun emocia kontrolo de Resemble AI.

Kvalito:

Provu ĝin

Tortoise TTSTortoise TTS Premium

Plurvoĉa teksto-al-parolo fokusiĝas je kvalito kun aŭtoregresiva arkitekturo.

Kvalito:

Provu ĝin

StyleTTS 2StyleTTS 2 Premium

Teksto-al-parolo je homa nivelo per stila disvastigo kaj kontraŭstara trejnado.

Kvalito:

Provu ĝin

OpenVoiceOpenVoice Premium

Tuja voĉo klonado kun granulara kontrolo super stilo, emocio, kaj akcento.

Kvalito:

Provu ĝin

Sesame CSMSesame CSM Premium

Konversacia parola modelo generanta naturan dialogon kun taŭga tempo kaj emocio.

Kvalito:

Provu ĝin

CosyVoice 2CosyVoice 2

Alibaba's skalebla streaming TTS kun homa-pareco natureco kaj preskaŭ nula latenteco.

Lingvoj: en, zh, ja, ko, fr, de, it, es

Kloni voĉon

IndexTTS-2IndexTTS-2

Ĝenerale oni parolas pri TTT-legilo, kiu havas bonan grafikan interfacon kaj altan rapidecon.

Lingvoj: en, zh

Kloni voĉon

Spark TTSSpark TTS

Voĉo klonado TTS kun kontrolata emocio kaj parola stilo tra alvokoj.

Lingvoj: en, zh

Kloni voĉon

GPT-SoVITSGPT-SoVITS

Kelkaj voĉoj klonado TTS kiu replikas ajnan voĉon de nur 5 sekundoj de aŭdo.

Lingvoj: en, zh, ja, ko

Kloni voĉon

ChatterboxChatterbox

Ŝtata-de-la-arto zero-shot voĉo klonado kun emocia kontrolo de Resemble AI.

Lingvoj: en

Kloni voĉon

Tortoise TTSTortoise TTS

Plurvoĉa teksto-al-parolo fokusiĝas je kvalito kun aŭtoregresiva arkitekturo.

Lingvoj: en

Kloni voĉon

OpenVoiceOpenVoice

Tuja voĉo klonado kun granulara kontrolo super stilo, emocio, kaj akcento.

Lingvoj: en, zh, ja, ko, fr, es

Kloni voĉon

VieNeu-TTS-v2VieNeu-TTS-v2

Vjetnama + angla kodŝanĝa TTS kun 7 antaŭdifinitaj voĉoj kaj nulo- pafa voĉklonado. Nur CPU, ne necesas GPU. Name

Lingvoj: vi, en

Kloni voĉon

Chatterbox TurboChatterbox Turbo

Pli rapida Chatterbox kun sub-200ms latenteco kaj paralingvaj etikedoj por ridoj, tuso, kaj pli.

Lingvoj: en

Kloni voĉon

VoxCPMVoxCPM

La 44.1 kHz-a frekvenco estas uzata por la elsendoj de la radiostacio.

Lingvoj: en, zh

Kloni voĉon

OuteTTSOuteTTS

LLM-bazita TTS kiu ruliĝas sur CPU, GPU, aŭ retumilo tra llama.cpp kaj Transformers.js.

Lingvoj: en

Kloni voĉon

Pocket TTSPocket TTS

100 mm-a diametro de la ĉasio, kun 100 mm-a diametro de la ĉasio.

Lingvoj: en, fr

Kloni voĉon

CosyVoice3CosyVoice3

Sekva generacio de multlingva TTS kun du-flua, emocia kontrolo, kaj nulo-pafa voĉo-klonado.

Lingvoj: en, zh, ja, ko, de, es, fr, it, ru

Kloni voĉon

NAMAA Saudi TTSNAMAA Saudi TTS

Unua malfermita TTS por la Saud- Araba. Denaska Sauda dialekto kun voĉ- klonado de kvalito de Ĉatelbokso. Name

Lingvoj: ar

Kloni voĉon

Darwin TTSDarwin TTS

La plej konata estas la Qwen3-1.7B, kiu estas la plej malnova lingvomodelo por la transskribado de la ĉina lingvo.

Lingvoj: en, ko, ja, zh

Kloni voĉon

MOSS-TTSDMOSS-TTSD

La plej konata estas la 12-minuta filmo "La Ŝanĝo" (angle: The Change), kiu enhavas 50-minutan filmon kaj 60-minutan dokumentaron.

Lingvoj: en, zh

Kloni voĉon

Ming-Omni TTSMing-Omni TTS

La 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo.

Lingvoj: en, zh

Kloni voĉon

MOSS-TTS NanoMOSS-TTS Nano

Tiny 100M MOSS-TTS varianto — sama arkitekturo, 80x pli malgranda, libera-nivela latenteco.

Lingvoj: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Kloni voĉon

Programisto-unua API

OpenAI-kongrua REST API. Unu finpunkto, pli ol 22 modeloj. Subteno de fluado por realtempaj aplikaĵoj.

  • OpenAI-kongrua formato
  • Flua TTS por realtempaj aplikaĵoj
  • Batch- prilaborado por grandaj taskoj
  • Webhook-atentigoj
Rigardi API- dokumentojn
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Simpla, Travidebla Prezigo

Komencu libera. Skaliĝu dum vi kreskas.

Libera

$0

15,000 signoj + 5,000/tago

  • 7 liberaj modeloj inkluzive de Kokoro
  • 5000 signoj po generacio
  • API- aliro inkludita
Aliĝi senpage

Lanĉilo

$9/monatoj

500 kreditoj/monato

  • Ĉiuj 22+ modeloj
  • 100, 000 signoj po generacio
  • Voĉa klonado
Komenci
Plej populara

Pro

$29/monatoj

2,000 kreditoj/monato

  • Ĉio en Startilo
  • API- aliro
  • Prioritata prilaborado
Get Pro

Negoco

$99/monatoj

10,000 kreditoj/monato

  • Ĉio en Pro
  • Bulka API
  • Prioritata vico
Preni taskon

Vidu ĉiujn planojn inkluzive de kreditpakaĵoj →

Oftaj demandoj

TTS.ai estas la plej ampleksa AI-voĉa platformo, kiu ofertas pli ol 22 tekst-al-parolo-modelojn, voĉan klonadon, parolon-al-tekston, kaj aŭdajn ilojn. Ĉiuj modeloj estas malfermkodaj sen vendisto-ŝloso.

Jes! TTS.ai ofertas senpage tekst-al-vortan tradukadon per Kokoro, Piper, VITS, kaj MeloTTS modeloj. Neniu konto necesas. Aliĝi por ricevi 15,000 senpagajn signojn kaj aliron al ĉiuj modeloj. Pagaj planoj komenciĝas je $9/monate.

Por rapideco, uzu Kokoro aŭ Piper. Por kvalito, provu CosyVoice 2 aŭ StyleTTS 2. Por voĉklonado, uzu Chatterbox aŭ GPT- SoVITS. Por dialogo, uzu Dia TTS. Provu plurajn modelojn sur la sama teksto por kompari.

Jes. OpenAI-kongrua REST API por TTS, STT, voĉ-klonado, kaj aŭdaj iloj. Inkluzivita en ĉiu plano inkluzive de libera, kun rapido-limoj kiuj skaliĝas laŭ nivelo (Free: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Business: 300). Vidu dokumentaron ĉe tts.ai/api/.

La voĉkvalito varias laŭ modelo. Premium-modeloj kiel CosyVoice 2, StyleTTS 2, kaj Chatterbox produktas preskaŭ homan kvaliton de parolado kun natura intonacio kaj emocio. Senpagaj modeloj kiel Kokoro ofertas elstaran kvaliton por plej multaj uzadoj.

TTS.ai subtenas pli ol 30 lingvojn tra sia modelbiblioteko. La angla havas la plej ampleksan modelan subtenon, sed modeloj kiel CosyVoice 2 kovras la ĉinan, japanan kaj korean; GPT-SoVITS pritraktas la ĉinan, japanan, korean kaj la anglan; kaj MeloTTS subtenas la anglan, hispanan, francan, ĉinan, japanan kaj korean.

Jes. Ĉiuj prilaboradoj okazas sur niaj dediĉitaj GPU- serviloj. Ni ne konservas vian tekstan enmeton aŭ generitan sonon post liverado. Alŝutitaj voĉaj specimenoj por klonado estas uzataj nur por la nuna seanco kaj ne estas konservitaj. Ni neniam kunhavas viajn datumojn kun triaj aŭ uzas ilin por trejni modelojn.

Jes. Ĉiuj sonoj kreitaj per TTS.ai estas viaj por komerca uzo, inkluzive por YouTube-videoj, podkastoj, aŭdlibroj, aplikaĵoj, reklamoj kaj produktoj. Niaj modeloj estas malfermkodaj laŭ permesaj permesiloj (MIT, Apache 2.0). Neniu rajto aŭ atribuo necesas.

TTS.ai defaŭlte generas sonon en WAV-formato por maksimuma kvalito. Vi povas konverti al MP3, FLAC, OGG, aŭ M4A uzante nian senpagan sonkonvertilon. La API subtenas specifi vian preferatan eligoformaton rekte en la peto.

Alŝutu mallongan sonspecimenon (ne pli ol 5 sekundoj) de la voĉo kiun vi volas kloni, tiam tajpu iun ajn tekston por generi parolon en tiu voĉo. Modeloj kiel Chatterbox, GPT-SoVITS, kaj CosyVoice 2 subtenas voĉan klonadon. La klonita voĉo kaptas tonon, akĉenton, kaj parolan stilon.

Senpagaj modeloj (Kokoro, Piper, VITS, MeloTTS) ne postulas konton kaj kostas nulon da kreditoj. Normalaj modeloj (2 kreditoj/1K signoj) inkluzivas Bark, CosyVoice 2, F5-TTS, kaj Dia. Premium-modeloj (4 kreditoj/1K signoj) inkluzivas OpenVoice, Chatterbox, StyleTTS 2, kaj Tortoise. Pagaj modeloj ĝenerale ofertas pli altan kvaliton, pli da voĉoj, kaj aldonajn funkciojn kiel voĉklonado.

Jes. La API subtenas batch-procezon por konverti grandajn volumojn de teksto al parolado. Sendu plurajn petojn kaj retrovu rezultojn nesinkrone uzante taskojn UUID. La Business-plano ($99/mo) kaj pli altaj inkluzivas prioritatan vicon por pli rapida batch-procezado. Ideala por produktado de sonlibroj, kurso-enhavo, kaj grandskalaj voĉaj projektoj.
4.1/5 (42)

Kion ni povus plibonigi? Via reago helpas nin solvi problemojn.

Komenci uzi AI-voĉon hodiaŭ

Aliĝi al kreintoj, programistoj kaj entreprenoj uzantaj TTS.ai