Libera AI Teksto- al- ParoloComment
33+ malfermkodaj modeloj, 273+ voĉoj, 33+ Lingvoj. Neniu konto necesas.
Ĉio, kion vi bezonas por voĉa AIName
Pli ol 30 iloj funkciigitaj per malfermkodaj AI-modeloj
33+ AI- voĉaj modeloj
La plej ampleksa kolekto de malfermkodaj TTS-modeloj en unu platformo
Kokoro Libera
Kokoro estas 82-miliona parametra teksto-al-parolo-modelo kiu bone superas sian pezan klason. Spite sian malgrandan grandecon, ĝi produktas rimarkinde naturan kaj esprimplenan paroladon. Kokoro subtenas plurajn lingvojn inkluzive de la angla, japana, ĉina, kaj korea kun vario de esprimplenaj voĉoj. Ĝi funkcias nekredeble rapide — generante sonon preskaŭ 100-oble pli rapide ol realtempa sur GPU.
Plej bona por: Altkvalita TTS kun minimuma prokrasto, fluantaj aplikaĵoj
Provu senpage
Piper Libera
Piper estas malpeza teksto-al-vorta motoro evoluigita de Rhasspy kiu uzas VITS kaj larynx arkitekturojn. Ĝi ruliĝas tute sur CPU, kio faras ĝin ideala por periferiaj aparatoj, hejma aŭtomatigo, kaj aplikaĵoj kiuj bezonas senretan TTS. Kun pli ol 100 voĉoj en pli ol 30 lingvoj, Piper liveras nature sonantan paroladon je realtempa rapideco eĉ sur Raspberry Pi 4.
Plej bona por: Rapidaj antaŭrigardoj, alirebleco, kaj enkorpigitaj aplikaĵoj
Provu senpage
VITS Libera
VITS (Variaciona Inferigo kun Kontraŭstara Lernado por Fina Fina Tekst- al- Parola Metodo) estas paralela fin- al- fina TTS- metodo kiu generas pli nature sonantan sonon ol nunaj du- paŝaj modeloj. Ĝi adoptas variacionan inferigon plifortigitan per normaligaj fluoj kaj kontraŭstara trejna procezo, atingante signifan plibonigon en natureco.
Plej bona por: Ĝeneraluzebla teksto-al-vorto kun natura prozodioName
Provu senpage
MeloTTS Libera
MeloTTS de MyShell. ai estas multlingva TTS- biblioteko subtenanta la anglan (usonan, britan, hindan, aŭstralian), la hispanan, la francan, la ĉinan, la japanan, kaj la korean. Ĝi estas ekstreme rapida, traktante tekston je preskaŭ realtempa rapideco nur per CPU. MeloTTS estas desegnita por produkta uzo kaj subtenas kaj CPU kaj GPU- dedukton.
Plej bona por: Produktivaj aplikaĵoj kiuj bezonas rapidan, multlingvan TTS
Provu senpage
Kani TTS 2 Libera
Kani-TTS-2 de NineNineSix estas ultra-malpeza 400M parametra modelo konstruita sur LiquidAI LFM2 dorso kun Nvidia NanoCodec. Ĝi ruliĝas en nur 3GB VRAM kaj atingas 10 sekundojn da parolado en ~2 sekundoj (RTF 0.2). Ĝi subtenas nulan voĉan klonadon per laŭtparoliloj.
Plej bona por: Rapida generado, medioj kun malmultaj rimedoj, rapidaj antaŭrigardoj
Provu senpage
OuteTTS Libera
OuteTTS etendas grandajn lingvajn modelojn per tekst-al-parolaj kapabloj dum konservado de la origina arkitekturo. Ĝi subtenas plurajn internajn partojn inkluzive llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, kaj eĉ retumilan inferecon per Transformers.js. Ĝi havas nulan voĉan klonadon per parolantoj konservitaj kiel JSON.
Plej bona por: Edge-disvastigo, retumilo-bazita TTS, malalt-risurcaj medioj
Provu senpage
Pocket TTS Libera
Pocket TTS de Kyutai (kreintoj de Moshi) estas kompakta 100M parametra teksto-al-vorta modelo kiu estas multe pli potenca ol ĝia pezo. Ĝi funkcias efike sur CPU, subtenas nulan voĉan klonadon el ununura aŭd-ekzemplo, kaj produktas nature sonantan paroladon. La malgranda modelo faras ĝin ideala por rando-disvastigo kaj malriĉaj rimedoj.
Plej bona por: Malpeza disvastigo, nur CPU-aj medioj, rapida voĉ-klonado
Provu senpage
Kitten TTS Libera
Kitten TTS de KittenML estas ultra- malpeza teksto- al- parola modelo konstruita sur ONNX. Kun variantoj de 15M ĝis 80M parametroj (25- 80 MB sur disko), ĝi liveras altkvalitan voĉan sintezon sur CPU sen bezonado de GPU. Ĝi havas 8 enkonstruitajn voĉojn, agordeblan parolrapidecon, kaj enkonstruitan tekstan antaŭtraktadon por nombroj, valutoj, kaj unuoj. Ideala por rando- disvastigo kaj malalt- latentaj aplikaĵoj. Name
Plej bona por: Rapida malpeza TTS, rando- disvastigo, malalt-latenca aplikaĵo
Provu senpage
Ming-Omni TTS Libera
Ming- omni- tts- 0. 5B de inclusionAI estas kompakta ĉie- modala parola modelo konstruita sur la densa dorso de BailingMM kun Flikaĵo- post- Flikaĵo- flu- kongrua aŭda dekodilo. Ĝi liveras 44. 1 kHz eligo (proksime al KD- kvalito), subtenas nulan voĉan klonadon de 3+ sekundoj referenco, kaj inkludas enkonstruitan emocian / dialektan / BGM- kontrolon per JSON- instrukcioj. Elstaraj stabileco — 0. 83% WER sur ĉinaj referencoj.
Plej bona por: Alta-fideleca dulingva rakontado, emoci-kontrolita voĉo-aktado, ĉina aŭdlibro enhavo
Provu senpage
MOSS-TTS Nano Libera
MOSS-TTS-Nano-100M estas la kompakta 100M-parametra varianto de OpenMOSS de la MOSS-TTS-familio, kiu uzas la delay-transformer-arkitekturo. Ĝi interŝanĝas la maksimuman kvaliton de la 8B-modelo por ~80-oble pli malgrandaj pezoj kaj draste pli malalta VRAM por ĉiu peto, kio faras ĝin taŭga por libera-nivelaj kaj alt-trafluaj disvolvoj. Same 20-lingva atingo.
Plej bona por: Liber-nivela TTS, alta-volumena produktado, malalt-latenca interaga uzo
Provu senpage
Bark Normala
Transform-bazita teksto-al-aŭda modelo kiu generas realisman paroladon, muzikon, kaj sonajn efektojn.
Programisto: Suno · Licenco: MIT
Provu ĝin
Bark Small Normala
Malpeza versio de Bark kun pli rapida deduktado kaj pli malalta memoro-uzo.
Programisto: Suno · Licenco: MIT
Provu ĝin
CosyVoice 2 Normala
Alibaba's skalebla streaming TTS kun homa-pareco natureco kaj preskaŭ nula latenteco.
Programisto: Alibaba (Tongyi Lab) · Licenco: Apache 2.0
Provu ĝin
Dia TTS Normala
Multi-parolanto dialogo generacio modelo kiu kreas naturajn konversaciojn inter parolantoj.
Programisto: Nari Labs · Licenco: Apache 2.0
Provu ĝin
Parler TTS Normala
Priskribu la voĉon kiun vi volas en natura lingvo kaj Parler kreos kongruan paroladon.
Programisto: Hugging Face · Licenco: Apache 2.0
Provu ĝin
IndexTTS-2 Normala
Ĝenerale oni parolas pri TTT-legilo, kiu havas bonan grafikan interfacon kaj altan rapidecon.
Programisto: Index Team · Licenco: Bilibili Model License
Provu ĝin
Spark TTS Normala
Voĉo klonado TTS kun kontrolata emocio kaj parola stilo tra alvokoj.
Programisto: SparkAudio · Licenco: CC BY-NC-SA 4.0
Provu ĝin
GPT-SoVITS Normala
Kelkaj voĉoj klonado TTS kiu replikas ajnan voĉon de nur 5 sekundoj de aŭdo.
Programisto: RVC-Boss · Licenco: MIT
Provu ĝin
Orpheus Normala
100.000 horoj da parolaj datumoj.
Programisto: Canopy Labs · Licenco: Llama 3.2 Community
Provu ĝin
Qwen3 TTS Normala
Alibaba's multlingva TTS kun voĉo klonado, antaŭdifinitaj voĉoj, kaj voĉo dezajno de teksto.
Programisto: Alibaba (Qwen) · Licenco: Apache 2.0
Provu ĝin
VieNeu-TTS-v2 Normala
Vjetnama + angla kodŝanĝa TTS kun 7 antaŭdifinitaj voĉoj kaj nulo- pafa voĉklonado. Nur CPU, ne necesas GPU. Name
Programisto: Phạm Nguyễn Ngọc Bảo · Licenco: Apache 2.0
Provu ĝin
Chatterbox Turbo Normala
Pli rapida Chatterbox kun sub-200ms latenteco kaj paralingvaj etikedoj por ridoj, tuso, kaj pli.
Programisto: Resemble AI · Licenco: MIT
Provu ĝin
VoxCPM Normala
La 44.1 kHz-a frekvenco estas uzata por la elsendoj de la radiostacio.
Programisto: OpenBMB · Licenco: Apache 2.0
Provu ĝin
VibeVoice Normala
Microsoft-modelo por longforma multparolanta enhavo kiel podkastoj kaj aŭdlibroj.
Programisto: Microsoft · Licenco: MIT
Provu ĝin
CosyVoice3 Normala
Sekva generacio de multlingva TTS kun du-flua, emocia kontrolo, kaj nulo-pafa voĉo-klonado.
Programisto: Alibaba (FunAudioLLM) · Licenco: Apache 2.0
Provu ĝin
NAMAA Saudi TTS Normala
Unua malfermita TTS por la Saud- Araba. Denaska Sauda dialekto kun voĉ- klonado de kvalito de Ĉatelbokso. Name
Programisto: NAMAA Space · Licenco: MIT
Provu ĝin
Darwin TTS Normala
La plej konata estas la Qwen3-1.7B, kiu estas la plej malnova lingvomodelo por la transskribado de la ĉina lingvo.
Programisto: FINAL-Bench · Licenco: Apache 2.0
Provu ĝin
MOSS-TTSD Normala
La plej konata estas la 12-minuta filmo "La Ŝanĝo" (angle: The Change), kiu enhavas 50-minutan filmon kaj 60-minutan dokumentaron.
Programisto: OpenMOSS · Licenco: Apache 2.0
Provu ĝin
CosyVoice 2
Alibaba's skalebla streaming TTS kun homa-pareco natureco kaj preskaŭ nula latenteco.
Lingvoj: en, zh, ja, ko, fr, de, it, es
Kloni voĉon
IndexTTS-2
Ĝenerale oni parolas pri TTT-legilo, kiu havas bonan grafikan interfacon kaj altan rapidecon.
Lingvoj: en, zh
Kloni voĉon
Spark TTS
Voĉo klonado TTS kun kontrolata emocio kaj parola stilo tra alvokoj.
Lingvoj: en, zh
Kloni voĉon
GPT-SoVITS
Kelkaj voĉoj klonado TTS kiu replikas ajnan voĉon de nur 5 sekundoj de aŭdo.
Lingvoj: en, zh, ja, ko
Kloni voĉon
Chatterbox
Ŝtata-de-la-arto zero-shot voĉo klonado kun emocia kontrolo de Resemble AI.
Lingvoj: en
Kloni voĉon
Tortoise TTS
Plurvoĉa teksto-al-parolo fokusiĝas je kvalito kun aŭtoregresiva arkitekturo.
Lingvoj: en
Kloni voĉon
OpenVoice
Tuja voĉo klonado kun granulara kontrolo super stilo, emocio, kaj akcento.
Lingvoj: en, zh, ja, ko, fr, es
Kloni voĉon
VieNeu-TTS-v2
Vjetnama + angla kodŝanĝa TTS kun 7 antaŭdifinitaj voĉoj kaj nulo- pafa voĉklonado. Nur CPU, ne necesas GPU. Name
Lingvoj: vi, en
Kloni voĉon
Chatterbox Turbo
Pli rapida Chatterbox kun sub-200ms latenteco kaj paralingvaj etikedoj por ridoj, tuso, kaj pli.
Lingvoj: en
Kloni voĉon
VoxCPM
La 44.1 kHz-a frekvenco estas uzata por la elsendoj de la radiostacio.
Lingvoj: en, zh
Kloni voĉon
OuteTTS
LLM-bazita TTS kiu ruliĝas sur CPU, GPU, aŭ retumilo tra llama.cpp kaj Transformers.js.
Lingvoj: en
Kloni voĉon
Pocket TTS
100 mm-a diametro de la ĉasio, kun 100 mm-a diametro de la ĉasio.
Lingvoj: en, fr
Kloni voĉon
CosyVoice3
Sekva generacio de multlingva TTS kun du-flua, emocia kontrolo, kaj nulo-pafa voĉo-klonado.
Lingvoj: en, zh, ja, ko, de, es, fr, it, ru
Kloni voĉon
NAMAA Saudi TTS
Unua malfermita TTS por la Saud- Araba. Denaska Sauda dialekto kun voĉ- klonado de kvalito de Ĉatelbokso. Name
Lingvoj: ar
Kloni voĉon
Darwin TTS
La plej konata estas la Qwen3-1.7B, kiu estas la plej malnova lingvomodelo por la transskribado de la ĉina lingvo.
Lingvoj: en, ko, ja, zh
Kloni voĉon
MOSS-TTSD
La plej konata estas la 12-minuta filmo "La Ŝanĝo" (angle: The Change), kiu enhavas 50-minutan filmon kaj 60-minutan dokumentaron.
Lingvoj: en, zh
Kloni voĉon
Ming-Omni TTS
La 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo.
Lingvoj: en, zh
Kloni voĉon
MOSS-TTS Nano
Tiny 100M MOSS-TTS varianto — sama arkitekturo, 80x pli malgranda, libera-nivela latenteco.
Lingvoj: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Kloni voĉonProgramisto-unua API
OpenAI-kongrua REST API. Unu finpunkto, pli ol 22 modeloj. Subteno de fluado por realtempaj aplikaĵoj.
- OpenAI-kongrua formato
- Flua TTS por realtempaj aplikaĵoj
- Batch- prilaborado por grandaj taskoj
- Webhook-atentigoj
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Simpla, Travidebla Prezigo
Komencu libera. Skaliĝu dum vi kreskas.
Libera
15,000 signoj + 5,000/tago
- 7 liberaj modeloj inkluzive de Kokoro
- 5000 signoj po generacio
- API- aliro inkludita
Lanĉilo
500 kreditoj/monato
- Ĉiuj 22+ modeloj
- 100, 000 signoj po generacio
- Voĉa klonado
Pro
2,000 kreditoj/monato
- Ĉio en Startilo
- API- aliro
- Prioritata prilaborado
Oftaj demandoj
Kion ni povus plibonigi? Via reago helpas nin solvi problemojn.
Komenci uzi AI-voĉon hodiaŭ
Aliĝi al kreintoj, programistoj kaj entreprenoj uzantaj TTS.ai