Àkọlé àtòjọ-ẹ̀yàn

Convert text to natural-sounding speech with open-source AI models. Free to use, no account required.

Ṣàfihàn

A kò ní àwọn ìrànwọ́ TTS nínú ìtàn rẹ̀. Yọ̀ọ̀kan rán wà láti fàyè gba àwọn rẹ̀! Fi Ojú Rẹ̀ pamọ́

0/500 Àwọn àmì-àṣírí · Sign up for 5,000 per generation →

Ṣẹ̀dà fun àwọn àmì-àṣírí 5,000

Àwọn Ìṣàmúlò-ètò (Àwọn Àwọn Àkọ́kọ́ Àwọn Àkọ́kọ́ Àwọn Àkọ́kọ́)

Fi àkọlé rẹ pamọ́ sí àwọn àmì-ìwé SSML fún ìdáràn:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Àwọn Àmì-ìwé Ìjánu-ìró / Ìyárà

Ṣàfikún àwọn àmì-ìwé ìrànwọ́ fún ìgbàdá (ìdáràn àwọn ìṣàmúlò-ètò)

Àwọn Àwọn Àkọlé

Àwọn àwọn ìṣàfarawé àwọn àwọn ìṣàfarawé àwọn (ọrọ = ìṣàfàlì):

Ìjánu-ìsún 0

-12 +12

Àwọn ìṣàmúlò-ètò

Àwọn àmì-ìwé

Àwọn Àwọn Àwọn Àwọn Àwọn

Ìgúnrégé àwọn ààtòjọ-ẹ̀yàn

Ìjánu-ìṣàmúlò-ètò 1.0x

0.5x 2.0x

Free pẹlu Piper, VITS, MeloTTS

Àwọn àwòrán tí o ti ṣẹ̀dà tí o bá han níbẹ̀. Yan àwọn àwòrán, tẹ̀lẹ̀ àkọlé, ki o si tẹ̀ Ṣẹ̀dà.

Àwọn Àtòjọ-ẹ̀yàn

Dia TTS

Standard

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

Alábòójútó:	Nari Labs
Àwọn Àmì-ìwé:	Apache 2.0
Ìjánu-ìsún	Medium
Ìgúnrégé:
Àwọn ìrísí-lẹ́tà	1 Àwọn ìrísí-lẹ́tà
VRAM	4GB
Àwọn Àmì-ìwé	Kò gbàgbọ́

Àwọn Àbùdá:

Multi-speaker Dialog generation Natural turn-taking Emotional expression 1.6B parameters

Ó dara jù fún:: Podcasts, audiobook dialogues, conversational content

Àwọn Àlàyé fún Àwọn Àtòjọ-ẹ̀yàn

Lo àwọn ìṣàfarawé àwọn àmì-ìwé láti mú àwọn ìpàsẹ̀ àti àwọn ìṣàfarawé pamọ́
Spell out numbers and abbreviations for clearer pronunciation
Fi àwọn àyọkà ìṣàfarawé àwọn àwọn àyọkà ìsàlẹ̀-ilà hàn
Use ellipsis (...) for longer dramatic pauses
Wá Kokoro tàbí CosyVoice 2 fún àwọn àwọn ìrísí-lẹ́tà tí a fẹ́
Lo Dia fún àwọn àkọlé àwọn ìgbàkọ-àgbègbè àti àwọn ìrísí-lẹ́tà

Ìlò Àwọn Àwòrán

Àwọn àwọn ààyè-iṣẹ́	Àwọn àwọn àmì-ìwé 1K
Àìfihàn	0 àwọn ìṣàmúlò-ètò (kò ní ìdáràn)
Àwọn ìkúndùǹ	Àwọn àmì-ìwé
Àwọn ìṣàmúlò-ètò	Àwọn àmì-ìwé

Gba àwọn àmì-ìwé mìíràn

Bií a ṣe lè ló àkọ́lé AI láti jẹ́ ìṣàfarawé

Ṣẹ̀dà àwọn àwòrán ìṣàfarawe-ìdáràn-ìdáràn nínú àwọn ìṣàmúlò-ètò àìdáràn mẹ́tà. Kò ní ìmọ̀ tí a fẹ́.

Àwọn ìṣàmúlò-ètò

Fi àkọlé rẹ̀ sípò

Ṣàfihàn, pàtó tàbí fi àkọlé àwòrán tí o fẹ́ láti yipada sí ìtàn. Àwọn àwọn àmì-ìwé tí a tí fi pamọ́ láti inú àwọn òǹlò tí a tí fi wọlé. Lo àwọn àkọlé àwòrán láti mú ìdáràn àwọn ìṣàfihàn, àwọn ìpàsẹ̀, àti àwọn àwọn àmì-ìwé.

Àkóónú 2

Yan àwọn àwòrán

Yan láti inú àwọn àwọn ìṣàmúlò-ètò AI 20+ nínú àwọn ìpele mẹ́tà. Yan àwòrán tí o dápọ̀ sí àwọn ìrísí-lẹ́tà rẹ, yaǹọ́ ìtàn rẹ̀, ṣí ààtò ìṣàfihàn láti 0.5x sí 2.0x, àtì yaǹọ́ ìṣàfihàn àwọn ìṣàfihàn rẹ̀ tí o fẹ́ (MP3, WAV, OGG, tàbí FLAC).

Àkóónú ààyè-iṣẹ́

Ṣẹ̀dà & Àkọsílẹ̀

Click Generate and your audio is ready in seconds. Preview with the built-in player, download in your chosen format, or copy a shareable link. Use the API for batch processing and integration into your workflow.

Àwọn Àwọn Ìṣàmúlò-ètò Àkọ́kọ́

Awọn ọrọ-ọrọ ti a ṣe nipasẹ AI n ṣe atunṣe bi awọn eniyan ṣe ṣẹda, lo, ati ṣe ibaraẹnisọrọ pẹlu awọn ohun orin orin ni ọpọlọpọ awọn ile-iṣẹ.

Àwọn àkọlé

Ṣàfikún àwọn àkọlé nínú àwọn àkọlé àwòrán àwọn ìṣàfarawe-ìròyìn àti àwọn ìṣàfihàn ìṣàfihàn. Àwọn ìṣàfihàn àwọn ìgbàkọ̀ọ̀kan nínú àwọn àkọlé àwòrán.

Àwọn Àmì-ìwé Àwòrán

Ṣẹ̀dá àwọn àwòrán-ìrọ̀ ìmọ̀ fun YouTube, TikTok, Instagram Reels, àti Shorts. 100+ àwòrán tàbí kọ̀ǹpútà rẹ̀.

Àwọn Pódíẹ̀tì

Ṣẹ̀dà àwọn ààyè-iṣẹ́ podcast láti inú àwọn ìsàlẹ̀-ilà láti inú àwọn ìrànwọ́ AI. Lo Dia fún àwọn ìṣàfihàn àwọn ìgbàkọ́ àwọn ìgbàkọ́ meji.

Àwọn Ìṣàmúlò-ètò

Àwọn àwòrán AI fún àwọn ere indie, àwọn àkọlé àwòrán, àti àwọn àkọlé àwòrán. Àwọn àgbèkalẹ̀ NPC, àwọn àwòrán àwọn àwọn ìtàn, àwọn ìtàn 30+

Àwọn Ìṣàmúlò-ètò

Ṣàfikún àwọn ààyè-iṣẹ́ ìṣàmúlò-ètò, àwọn ìṣàmúlò-ètò, àti àwọn ààyè-iṣẹ́ ìṣàfihàn sí àwòrán. Àwọn ìṣàfihàn ìtàn-àwọn fún àwọn pánẹ́ẹ̀lì ìwọ̀n-àwọ̀n.

Àwọn ìṣàfihàn

Fi àwọn ojú-ìwé, àwọn àkọsílẹ̀, àti àwọn ìṣàmúlò-ètò pamọ́. Ìdákọ́ àwọn àkọsílẹ̀ àti ìṣàfilọ́lẹ̀ àwọn àkọsílẹ̀-si-àkọsílẹ̀.

Àwọn Ìṣàmúlò-ètò Fẹ́ẹ̀lì

Power IVR systems, phone menus, and customer service with natural AI voices. Low-latency streaming for call centers.

Àwọn Àkọsílẹ̀ Àwọn Àkọsílẹ̀

Awọn itan TikTok, Instagram Reels, Awọn asọye Twitter / X, Awọn fọto YouTube. Iṣẹ-ṣiṣe iyara pẹlu awọn awoṣe ọfẹ.

Ìjánu-ìṣàmúlò-ètò

Àwọn ìṣàfilọ́lẹ̀ Twitch TTS, àgbékalẹ̀-si-ìrọ́, àwọn àgbèkalẹ̀ AI, àti àwọn bótì Discord. Ìgbà ìdá, àwọn ìròyìn 100+

Ìjánu-ìfún

Ad voiceovers, explainer video, product demos, ati awọn ifihan tita. Sọ́kalẹ̀ ìyárá orin ni gbogbo awọn igbega.

Àwọn àwọn ààyè-iṣẹ́

Ṣàfihàn àti dùbú àwọn àwòrán sí àwọn ìtàn 30+ láti inú AI tí a bá sọ̀rọ̀-dá. Àwọn ìṣàfihàn-àtòjútó àti àwọn ìṣàfihàn-àgbègbè.

Ìṣàfilọ́lẹ̀ & & Ìṣàfilọ́lẹ̀

Ìṣàfilọ́lẹ̀ tí a gbọ́, àwọn àkọlé tí a tí ǹlọ́, àwọn ìṣàfilọ́lẹ̀ tí a ǹgbọ́, àwọn àwòrán AI tí a ǹgbọ́.

Àwọn Àtòjọ-ẹ̀yàn

Àwọn àwọn àwòrán àwọn àwòrán

Àwọn ìṣàfihàn àwọn ìṣàfihàn fún àwọn móòdù AI fún gbogbo àwọn tí a wa ni TTS.ai. Ṣàfikún ìwọ̀n, ìrárá, ìrànwọ́ àwọn ìṣàfihàn, àti àwọn àbùdá láti wa móòdù tí o yẹ fún ìṣẹ́ rẹ̀.

Kokoro

Free

Kokoro ní móòdù àkọlé-si-ìbàlẹ̀ àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Hexgrad

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

VRAM:
1.5GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

Àwọn ààtòjọ-ẹ̀yàn Ìjánu-ìsún Àwọn àwòrán ìṣàfihàn Àwọn Àgbègbè Àwọn Ìṣàmúlò-ètò

Ó dara jù fún:: TTS ìṣàmúlò-ètò ìṣàfilọ́lẹ̀ tí a bá fi àwọn ìṣàmúlò-ètò ìṣàfilọ́lẹ̀ pamọ́

Àwọn ààyè-iṣẹ́ Kokoro

Piper

Free

Piper ní inú iṣẹ́ àkọlé-si-ìbàlẹ̀ tí Rhasspy tí lo VITS atí larynx architectures. Ò rọ́ọ̀nù ní pàtó nípa CPU, tí o fi jẹ́ ìṣàfarawésókè fún àwọn àpá-ìṣàmúlò-ètò, ìṣàfihàn ilé, àtí àwọn ìṣàmúlò-ètò tí fẹ́ TTS tí kò bá jẹ́ nípa intanẹ́ẹ̀tì. Nínú àwọn ìraǹrọ̀ 100 lọ́wọ́lọ́wọ́ nínú àwọn ìtàn 30+ ni Piper ǹfi àwọn àkọlé tí a tí ìgbá tí a tí ǹṣè gbọ̀ nínú àwọn ìṣàfihàn tí a tí ǹṣè nínú Raspberry Pi 4.

Alábòójútó::
Rhasspy

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

CPU-friendly Àwọn Ìṣàmúlò-ètò Àwọn Àmì-ìwé Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn ìṣàfilọ́lẹ̀ SSML

Ó dara jù fún:: Àwọn ìṣàfihàn ìtàn, ìrànwọ́, àti àwọn ìṣàmúlò-ètò àìdálẹ̀

Àwọn ààyè-iṣẹ́ Piper

VITS

Free

VITS (Ìṣàfilọ́lẹ̀ Ìyatọ̀ láti inú ìmọ̀ ìṣàfilọ́lẹ̀ ìṣàfilọ́lẹ̀ fún àkọlé-si-ìbàlẹ̀-si-ìbàlẹ̀) ní àwọn ìṣàfilọ́lẹ̀ TTS ìsàlẹ̀ fún ìsàlẹ̀ tí wọ́n mú àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Jaehyeon Kim et al.

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, ja, ko

VRAM:
1GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

Àwọn àwọn àgbékalẹ̀ Àwọn ìṣàmúlò-ètò ìṣàfarawé Àwọn àwọn àgbékalẹ̀ Àwọn ìgbàkọ̀ọ̀kan

Ó dara jù fún:: Àkọlé-si-ìgbàyélú-ìgbàyélú-ìgbàyélú-ìgbàyélú-ìgbàyélú-ìgbàyélú-ìgbàyélú

Àwọn ààyè-iṣẹ́ VITS

MeloTTS

Free

MeloTTS láti MyShell.ai ní àwọn láìbòójútó TTS tí wọ́n gbọ́dọ̀ sílẹ̀ nínú àwọn ìtàn mìíràn tí wọ́n gbọ́dọ̀ sílẹ̀ nínú Àwọn Àkọsílẹ̀ (Ameríka, British, Indian, Australia), Sẹ́fànì, Fẹ́rẹ̀sì, Chinese, Japanese, àti Korean. O jẹ́ ìráwọ́lẹ̀, ìṣàfarawé àwọn àkọsílẹ̀ nínú ìráwọ́lẹ̀ àwọn àkókò nínú CPU. MeloTTS tí a ṣè fún ìlòòròrò àti ìṣàfarawé CPU àti GPU.

Alábòójútó::
MyShell.ai

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

CPU-Óòdúró Àwọn Àwọn Àwọn Àwọn Àwọn àwọn ìṣàfarawégbè Àwọn àwọn ààyè-iṣẹ́ Latency kéré

Ó dara jù fún:: Àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò tí fẹ́ ìṣàmúlò-ètò TTS àìpẹ̀, àwọn ìṣàmúlò-ètò mìíràn

Àwọn ààyè-iṣẹ́ MeloTTS

Bark

Standard

Bark tí Suno jẹ́ móòdù àkọlé-si-àwòrán tí a dá lorí ìṣàfarawe-ìdálẹ̀ tí lè mú ìgbàgbọ́ tí o jẹ́ ìṣàfarawe-ìṣàfilọ́lẹ̀, àwọn ìtàn-ìdálẹ̀ gẹgẹbi àwọn ìtàn, ìgbọ́wọ́ ìsàlẹ̀-ilà, àti àwọn ìṣàfàlì ìsàlẹ̀-ilà. O lè mú ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ à

Alábòójútó::
Suno

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Slow

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn ìṣàfarawé àwọn ìṣàfarawé àwòrán Ìfẹ́/ìfẹ́ Ìṣàfilọ́lẹ̀ ìṣàmúlò-ètò Àwọn Àkọlé Àwọn Àgbègbè

Ó dara jù fún:: Àwọn àkọlé àwòrán, àwọn àkọlé àwòrán láti jẹ́ àwọn ìṣàfarawé àwọn ìṣàfarawé àwọn ìṣàfarawé àwọn ìṣàfarawé àwọn ìṣàfarawé àwọn ìṣàfarawé

Àwọn ààyè-iṣẹ́ Bark

Bark Small

Standard

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

Alábòójútó::
Suno

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn àwọn àwọn àwọn àwọn àwọn Tí o bá jú àwọn àgbègbè ìtàn lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́ Àwọn Àkọ́kọ́ Ìṣàmúlò-ètò Àwọn Àwọn Àwọn Àwọn

Ó dara jù fún:: Àwọn àwòrán ìṣàfarawé àìpẹ̀ nígbà tí àwọn àwọn àgbègbè tí a fi pamọ́ jẹ́ lẹ́wa jú

Àwọn ààyè-iṣẹ́ Bark Small

CosyVoice 2

Standard

CosyVoice 2 láti inú Lábò Tongyì Alibabà gbá ìṣàfarawé ìṣàlàyé ìṣàfihàn àwọn ìṣàmúlò-ètò tí a lò nígbà gidì. O ló ìṣàfihàn tí a tí kọ̀ọ̀kan fún ìṣàfihàn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣà

Alábòójútó::
Alibaba (Tongyi Lab)

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Ìjánu-ìṣàmúlò-ètò Àwọn àwọn ìṣàfarawé àwọn ààyè-iṣẹ́ Àwọn Àwọn Àwọn Àwọn Àwọn Ìṣakoso Ìfẹ́ Àwọn ìṣàfarawé àwọn ìṣàfarawé-àyè

Ó dara jù fún:: Àwọn ìṣàmúlò-ètò ìgbárawọ̀n, TTS ìṣàfihàn, àwọn awáròyìn àwòrán

Àwọn ààyè-iṣẹ́ CosyVoice 2

Dia TTS

Standard

Dia ti Nari Labs jẹ́ móòdù àkọlé-si-ìbàlẹ̀ àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Nari Labs

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
4GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn Àkọlé Àwọn Àkọlé Ìjánu-ìṣàmúlò-ètò ìṣàfarawé Àwọn àmì-ìwé àìròyìn Àwọn ààtòjọ-ẹ̀yàn

Ó dara jù fún:: Podíẹ̀tì, àwọn àgbékalẹ̀ àwọn àkọlé, àwọn àkọlé àkọlé

Àwọn ààyè-iṣẹ́ Dia TTS

Parler TTS

Standard

Parler TTS ní móòdù àkọlé-si-ìgbàkalẹ̀ tí n ló àwọn ìṣàfihàn àwọn ìròyìn ìranlọwọ̀ ìranlọwọ̀ tí a ṣẹ̀dà. Nígbà tí o bá yan láti inú àwọn ìrànwọ́, ò sọ̀kalẹ̀ ìranlọwọ̀ tí o fẹ́ (gẹ́gẹ́ bíi, "ìrọ̀ obinrin tí o ní ìṣàfihàn British kan, tí o bá sọ̀kalẹ̀ lẹ́wá nípa ìròyìn") àti Parler kọ̀ọ̀kan àwọn ìrànwọ́ tí o bá jẹ́. Ò jẹ́ ìṣàfihàn tí a lè lò fún àwọn ìṣàfihàn ìṣàfihàn.

Alábòójútó::
Hugging Face

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
4GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn ìṣàfihàn àwọn àmì-ìwé Ìwé ìṣàmúlò-ètò Àwọn àwọn àwòrán Kò ní àwọn ìrànwọ́ àwọn ìrànwọ́ àwọn ìrànwọ́

Ó dara jù fún:: Àwọn ìṣàmúlò-ètò ìṣàfarawélẹ̀ níbí tí o bá fẹ́ àwọn àbùdá àwọn ìrànwọ́ àwọn ìrànwọ́

Àwọn ààyè-iṣẹ́ Parler TTS

GLM-TTS

Standard

GLM-TTS láti inú Zhipu AI ní ìṣàmúlò-ètò àkọlé-si-ìbàlẹ̀ tí a kọ̀ ní pàtó àwọn àwọn ààyè-iṣẹ́ Llama pẹlú ìdákọ́ àwọn ìṣàmúlò-ètò. Ó gbá àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Zhipu AI

Àwọn Àmì-ìwé::
GLM-4 License

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn àwọn àṣìṣe Ìṣàfarawé àwọn àmì-ìwé Àwọn Ìṣàmúlò-ètò Àwọn ìṣàmúlò-ètò ìṣàfarawé

Ó dara jù fún:: Àwọn ìṣàmúlò-ètò tí a fẹ́ ìṣàfarawé ìtumọ̀ tójú

Àwọn ààyè-iṣẹ́ GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 ní ìṣàmúlò-ètò àkọlé-si-ìbàlẹ̀ tí o pọ̀ jú lọ nínú ìṣàfarawe-ìrọ̀ àti ìdárawọ́ àwọn ìrawọ́lẹ̀. O lè ṣẹ̀dá àwọn ìrawọ́lẹ̀ àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Index Team

Àwọn Àmì-ìwé::
Bilibili Model License

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Ìṣakoso Ìfẹ́ Àwọn ààyè-iṣẹ́ Àwọn bèkì ìrànwọ́ Àwọn Àmì-àṣírí Àwọn Ìṣàmúlò-ètò

Ó dara jù fún:: Àwọn àkọlé tí a sọ̀rọ̀, àwọn àkọlé àwòrán, àwọn awáròyìn ìṣàfarawé

Àwọn ààyè-iṣẹ́ IndexTTS-2

Spark TTS

Standard

Spark TTS láti inú SparkAudio ní móòdù àyọkà-si-ìgbàkalẹ̀ tí n pọ̀jú kọ̀ǹpútà ìṣàfarawe-ìrọ̀ láti inú ìṣàfarawe-ìrọ̀ tí a lè kọ̀ǹpútà àwọn ìrànwọ́ àti àwọn ìṣàfilọ́lẹ̀. Nínú ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀, o lè kọ̀ǹpútà àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀

Alábòójútó::
SparkAudio

Àwọn Àmì-ìwé::
CC BY-NC-SA 4.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Ìṣàfarawé àwọn àmì-ìwé Àwọn Ìṣàmúlò-ètò Ìṣakoso Ìṣàmúlò-ètò Àwọn àgbéwọlé Àwọn ìṣàfarawé àwọn ìṣàmúlò-ètò

Ó dara jù fún:: Ìṣàfilọ́lẹ̀ àwọn ìròyìn láti inú àwọn ìròyìn àti ìrànwọ́ àwọn ìrànwọ́

Àwọn ààyè-iṣẹ́ Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS tí n pọ̀pọ̀ ìṣàfihàn ìtàn GPT-ìdáràǹyàǹ láti inú SoVITS (Ìṣàfihàn Àwọn Àwòrán Nípa Àwọn Àkọsílẹ̀ àti Àwọn Àkọ́kọ́) fún ìṣàfihàn àwọn àwòrán tí a tí ìgbà kan. Nínú àwọn ìsẹ̀yìn àwọn àwòrán 5, o lè kọ́ọ̀kan àwòrán àti ìṣàfihàn àwọn àwòrán tuntun nígbà tí o ǹpa àwọn àbùdá tí a fi sọ̀rọ̀. Ò jẹ́ àwọn àwòrán tí a lò nínú ìṣàfihàn àwòrán tí a ǹgbà sọ̀rọ̀ atí tí a ǹgbà kọ́ọ̀kan.

Alábòójútó::
RVC-Boss

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Slow

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, ja, ko

VRAM:
6GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn ìṣàfarawé àwọn ìṣàmúlò-ètò Àwọn àwòrán Àwọn ìṣàfilọ́lẹ̀ àwọn àwọn ààyè-iṣẹ́ Ìdáràn Àwọn Àwọn Àwọn Àwọn Àwọn

Ó dara jù fún:: Ìṣàfarawé àwọn àwòrán, ìṣàfarawé àwọn àwòrán, ìṣàfarawé àwòrán

Àwọn ààyè-iṣẹ́ GPT-SoVITS

Orpheus

Standard

Orpheus ní móòdù àkọlé-si-ìbàlẹ̀ nlà tí n gba ìṣàfihàn ìrànwọ́ inú eniyan. Tí a kọ̀ nípa àwọn aago 100,000 tí a tí sọ̀rọ̀ kọ̀ọ̀kan, ò jẹ́ ìṣàfihàn àwọn ìbàlẹ̀ nípa àwọn ìrànwọ́ inú, àwọn ìṣàfihàn, àtí àwọn ìṣàfihàn. Orpheus lè kọ̀ọ̀kan àwọn ìbàlẹ̀ tí a kò lè yatọ̀ sí àwọn ìṣàfihàn inú eniyan.

Alábòójútó::
Canopy Labs

Àwọn Àmì-ìwé::
Llama 3.2 Community

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
4GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn ìrànwọ́ ìpele-àwọ̀n-óòdù Àwọn ààyè-iṣẹ́ Ìṣàfilọ́lẹ̀ ìṣàfilọ́lẹ̀ Àwọn Àkọ́kọ́

Ó dara jù fún:: Àwọn àkọlé àwòrán, àwọn àkọlé àwòrán, àwọn àwòrán-ìró

Àwọn ààyè-iṣẹ́ Orpheus

Chatterbox

Premium

Chatterbox láti inú Resemble AI ní módè́lì ìṣàfarawé àwọn ìròyìn àwọn ìròyìn àwọn ìròyìn. O lè ṣẹ̀dà àwọn ìròyìn láti inú àwọn ìṣàmúlò-ètò àwọn ìròyìn kan nípa ìṣàfihàn tí a lè fi pamọ́, kò ní tímórà̀ nikan, ṣugbọn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìròyìn àwọn ìròyìn. Chatterbox ní àwọn àwọn ààyè ìròyìn àwọn ìròyìn tí a lè fi pamọ́, tí o fi hàn ọ̀kan ìròyìn àwọn ìròyìn àwọn ìròyìn àwọn ìròyìn àwọn ìròyìn àwọn ìròyìn.

Alábòójútó::
Resemble AI

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
4x

Àwọn àwọn ìṣàfarawé àwọn ààyè-iṣẹ́ Ìṣakoso Ìfẹ́ Ìdáràn Ìjánu-ìsún Àwọn ààyè-iṣẹ́ ìṣàmúlò-ètò

Ó dara jù fún:: Ìṣàfarawé àwọn ìròyìn àwọn ìròyìn àwọn ìṣàfarawé àwọn ìròyìn

Àwọn ààyè-iṣẹ́ Chatterbox

Tortoise TTS

Premium

Tortoise TTS ní ìṣàmúlò-ètò àkọlé-si-ìbàlẹ̀-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-i

Alábòójútó::
James Betker

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Slow

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
8GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
4x

Àwọn ìkúndùǹ ìsàlẹ̀-ilà Àwọn àwòrán DALL-E architecture Ìṣàfarawé àwọn àmì-ìwé Àwọn Ìjánu-ìṣàmúlò-ètò

Ó dara jù fún:: Àwọn àkọlé àwòrán, àwọn ìṣàmúlò-ètò ìṣàfarawélẹ̀

Àwọn ààyè-iṣẹ́ Tortoise TTS

StyleTTS 2

Premium

Àwọn Ìṣàmúlò-ètò TTS 2 gba ìṣàmúlò-ètò TTS ìpele-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ

Alábòójútó::
Columbia University

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
4GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
4x

Àwọn Ìṣàmúlò-ètò Àwọn ìṣàfarawé àwọn ìṣàfarawé àwọn ìṣàfarawé Àwọn ìṣàmúlò-ètò ìṣàfarawé Àwọn ìfìmúlẹ̀ ìṣàfarawé Ìdáràn

Ó dara jù fún:: Ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀-ìgbà-ìgbà, ìṣàfilọ́lẹ̀ ìmọ̀

Àwọn ààyè-iṣẹ́ StyleTTS 2

OpenVoice

Premium

OpenVoice láti MyShell.ai gba ìṣàfarawe àwọn àwòrán láti inú àwọn àwọn àwọn àwọn àwòrán tí a tí kọ́ nípa àwọn àwọn àwọn àwòrán, àwọn àwọn àwọn àwòrán, àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn à

Alábòójútó::
MyShell.ai / MIT

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, ja, ko, fr, de, es, it

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
4x

Ìṣàmúlò-ètò Àwọn ìyipadà àwòrán Àwọn Ìṣàmúlò-ètò Ìṣakoso Àwọn Àmì-àṣírí Àwọn Àgbègbè

Ó dara jù fún:: Ìṣàfarawé àwọn àwòrán láti inú àwọn ìṣàmúlò-ètò ìṣàfarawé àwọn àwòrán

Àwọn ààyè-iṣẹ́ OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS ní móòdù àkọlé-si-ìbàlẹ̀ àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Alibaba (Qwen)

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Ìṣàfarawé àwọn àmì-ìwé Àwọn ìrànwọ́ àwọn ìrànwọ́ Àwọn àwọn àwòrán àwọn àmì-ìwé Ìṣakoso Ìfẹ́ Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn

Ó dara jù fún:: Àwọn ìṣàmúlò-ètò àwọn ìtàn-àwọn-àgbèrò nípa ìṣàfarawé àwọn ìṣàmúlò-ètò àwọn ìtàn-àgbèrò

Àwọn ààyè-iṣẹ́ Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) ní módè́lì àwọn párítì̀tì bilíọnu 1 tí a ṣé fún ìṣàfihàn àwọn àkọlé àkọlé. O tí ṣé àwọn módè́lì àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn à

Alábòójútó::
Sesame

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Slow

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
8GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
4x

Àwọn Àkọlé Àwọn ààyè-iṣẹ́ ìtàn Ìjánu-ìṣàmúlò-ètò Àwọn ìṣàmúlò-ètò Àwọn ààtòjọ-ẹ̀yàn

Ó dara jù fún:: Àwọn awáròyìn AI, àwọn àkọlé, àwọn ìṣàmúlò-ètò AI ìgbàkọ

Àwọn ààyè-iṣẹ́ Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo tí Resemble AI ṣe ní ìṣàfihàn àwọn ààtòjútó 350M sí Chatterbox, tí o fi ààtòjútó lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́. Ò ǹfá àwọn àmì-ìwé paralinguistic bí [laugh], [cough], àti [chuckle] nípa àkọ́lé. Ò ní àwọn àmì-ìwé Perth nípa àwọn àwòrán gbogbò tí a tí kọ̀ nípa ìṣàfihàn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Resemble AI

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
2GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Latency tí ò kù jú 200ms lọ Àwọn Àmì-ìwé Paralinguistic 6x akoko gidi Ìṣàfarawé àwọn àmì-ìwé Àwọn àmì-ìwé

Ó dara jù fún:: Àwọn awáròyìn àwòrán, àwọn àwòrán àwọn ìṣàfarawe-ìrọ̀ nípa àwọn ìwọ̀n àìdálẹ̀

Àwọn ààyè-iṣẹ́ Chatterbox Turbo

Zonos

Standard

Zonos v0.1 láti Zyphra ní móòdù àwọn ààtòjú 1.6B tí a fi àwọn àwọn ààtòjú àwọn ààyè-iṣẹ́ pamọ́ nípa ìṣàfilọ́lẹ̀ fún ìrànwọ́, ìrànwọ́, ìrànwọ́, ìgbọ́wọ́, àti ìṣàfarawé. Ò ǹfí 200K+ àwọn ààyè-iṣẹ́ pẹ̀lú ìṣàfilọ́lẹ̀ àwọn àwọn ìṣàfilọ́lẹ̀ pẹ̀lú ìmọ̀rọ̀ọ̀kan-ìrọ̀ nípa ìṣàfilọ́lẹ̀ àwọn àwòrán 10-30 sekúǹdù tí a fi pamọ́.

Alábòójútó::
Zyphra

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, ja, zh, fr, de

VRAM:
6GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Ìṣakoso Ìfẹ́ Ìṣàfarawé àwọn àmì-ìwé Àwọn ààyè-iṣẹ́ SSM Àwọn Àwọn Àwọn Àwọn Ìdáràn àwọn àwọn ìṣàmúlò-ètò

Ó dara jù fún:: Àwọn àkọlé àwòrán

Àwọn ààyè-iṣẹ́ Zonos

Dia 2

Standard

Dia2 láti Nari Labs ní ìṣàfihàn-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣà

Alábòójútó::
Nari Labs

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
4GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn ìṣàfihàn ìṣàfihàn Àwọn Àkọlé Àwọn ìṣàfarawégbè Àwọn àgbékalẹ̀ Paralinguistic Àwọn ààtòjọ-ẹ̀yàn

Ó dara jù fún:: Àwọn awáròyìn àwọn àwọn ìṣàmúlò-ètò ìṣàfihàn

Àwọn ààyè-iṣẹ́ Dia 2

VoxCPM

Standard

VoxCPM 1.5 tí OpenBMB jẹ́ móòdù TTS tí kò ní àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn à

Alábòójútó::
OpenBMB

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn àmì-ìwé Kò ní àwọn àwọn àyọkà ìṣàfarawé Ìṣàfarawé àwọn ìtàn Àwọn Àkọlé LoRA fine-tuning

Ó dara jù fún:: Àwọn àkọlé àwọn àkọlé, àwọn àkọlé-ìwé-ìwé, àwọn àkọlé àwọn àkọlé

Àwọn ààyè-iṣẹ́ VoxCPM

OuteTTS

Free

OuteTTS n ṣàfihàn àwọn módè́lì ìraǹrọ̀ nlà láti inú àwọn ìpéwọ̀n àkọ́lé-si-ìbálẹ̀ nígbà tí o ǹpárá àwọn ààyè orílẹ̀. O ǹfàyé àwọn ààyè ìsàlẹ̀ àwọn ìṣàfihàn lọ́wọ́lọ́wọ́ àti àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
OuteAI

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
2GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

Àwọn àwọn àgbéwọlé Àwọn ìṣàmúlò-ètò ìṣàfihàn Ìṣàfarawé àwọn àmì-ìwé Àwọn ààyè-iṣẹ́ ìsàlẹ̀-ilà mìíràn Àwọn Àwọn Àwọn Àwọn Àkọlé

Ó dara jù fún:: Ìṣàfilọ́lẹ̀ Ègè, TTS ìdájú ìṣàfilọ́lẹ̀, àwọn ìwọ̀n àwọn ààyè-iṣẹ́ ìsàlẹ̀-ilà kéré

Àwọn ààyè-iṣẹ́ OuteTTS

TADA

Standard

TADA (Text-Acoustic Dual Alignment) ti Hume AI ní módè́lì TTS tí ò fi hàn ìdájọ́lẹ̀̀̀lẹ̀̀̀lẹ̀̀̀lẹ̀̀̀lẹ̀̀̀lẹ̀̀lẹ̀̀lẹ̀̀lẹ̀̀lẹ̀̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ̀lẹ

Alábòójútó::
Hume AI

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
5GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn àìṣàfilọ́lẹ̀ àìdá 5x lẹ́wa jú LLM TTS lọ Àwọn àmì-ìwé àìròyìn Àwọn ààyè-iṣẹ́ ìsàlẹ̀-ilà Àwọn ìṣàfarawé àwọn ààyè-iṣẹ́

Ó dara jù fún:: Àwọn àwọn àkọlé àwọn àwọn àkọlé

Àwọn ààyè-iṣẹ́ TADA

VibeVoice

Standard

VibeVoice ti Microsoft ti wa ni àwọn ìṣàfarawé àwọn ìṣàmúlò-ètò meji: àwọn módè́lì 1.5B fún àwọn àkọlé àwọn ìṣàmúlò-ètò ìgbà (si 90 àwọn àkókò, 4 àwọn ìgbàgbọ́) àti àwọn módè́lì 0.5B Fún Ìgbá Ìṣàmúlò-ètò Ìṣàfilọ́lẹ̀ pẹlú àwọn àwọn àkọlé àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Microsoft

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh

VRAM:
4GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn Àkọlé Àwọn ààyè-iṣẹ́ Àwọn àkọlé Àwọn àwọn ìṣàfarawé àwọn ìṣàfarawé 200ms Ìjánu-ìró

Ó dara jù fún:: Podíẹ̀tì, àwọn àkọlé àwòrán, àwọn àwọn àkọlé àwọn ìgbàlẹ̀-ìgbà

Àwọn ààyè-iṣẹ́ VibeVoice

Pocket TTS

Free

Pocket TTS láti Kyutai (àwọn ìṣàfilọ́lẹ̀ Moshi) ní módè́lì àkọ́lé-si-ìbàlẹ̀ àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn à

Alábòójútó::
Kyutai

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, fr

VRAM:
1GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

Àwọn ààtòjọ-ẹ̀yàn Àwọn àwọn àgbéwọlé Ìṣàfarawé àwọn àmì-ìwé Àwọn ààyè-iṣẹ́ ìṣàmúlò-ètò Àwọn Ìgúnrégé

Ó dara jù fún:: Ìṣàfilọ́lẹ̀ àìpẹ̀, àwọn ìwọ̀n CPU-kéré, ìṣàfarawé àwòrán láàyè-iṣẹ́

Àwọn ààyè-iṣẹ́ Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Alábòójútó::
KittenML

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
0GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

Ó dara jù fún:: Fast lightweight TTS, edge deployment, low-latency applications

Àwọn ààyè-iṣẹ́ Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

Alábòójútó::
Alibaba (FunAudioLLM)

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

Ó dara jù fún:: Multilingual production TTS, real-time applications, voice cloning

Àwọn ààyè-iṣẹ́ CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

Alábòójútó::
OpenMOSS

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

VRAM:
16GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

Ó dara jù fún:: Audiobooks, long-form content, multilingual production

Àwọn ààyè-iṣẹ́ MOSS-TTS

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

Alábòójútó::
ByteDance

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Slow

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh

VRAM:
8GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
4x

Voice cloning Adjustable similarity Cross-lingual

Ó dara jù fún:: High-fidelity voice cloning

Àwọn ààyè-iṣẹ́ MegaTTS3

Kokoro

Àìfihàn

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Alábòójútó::
Hexgrad

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en, ja, zh, ko, fr, de, it, pt, es, hi, ru

Ó dara jù fún:: High-quality TTS with minimal latency, streaming applications

Wá

Piper

Àìfihàn

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Alábòójútó::
Rhasspy

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

Ó dara jù fún:: Quick previews, accessibility, and embedded applications

Wá

VITS

Àìfihàn

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Alábòójútó::
Jaehyeon Kim et al.

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en, zh, ja, ko

Ó dara jù fún:: General-purpose text-to-speech with natural prosody

Wá

MeloTTS

Àìfihàn

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Alábòójútó::
MyShell.ai

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en, es, fr, zh, ja, ko

Ó dara jù fún:: Production applications needing fast, multilingual TTS

Wá

OuteTTS

Àìfihàn

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Alábòójútó::
OuteAI

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en

Ó dara jù fún:: Edge deployment, browser-based TTS, low-resource environments

Wá

Pocket TTS

Àìfihàn

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

Alábòójútó::
Kyutai

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en, fr

Ó dara jù fún:: Lightweight deployment, CPU-only environments, quick voice cloning

Wá

Kitten TTS

Àìfihàn

Alábòójútó::
KittenML

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en

Ó dara jù fún:: Fast lightweight TTS, edge deployment, low-latency applications

Wá

Bark

Àwọn ìkúndùǹ

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

Alábòójútó::
Suno

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Slow

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual

Ó dara jù fún:: Creative audio content, audiobooks with emotion, sound effects

Àwọn ààyè-iṣẹ́ Bark

Bark Small

Àwọn ìkúndùǹ

Alábòójútó::
Suno

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

LightweightFaster than full BarkEmotional speechMultilingual

Ó dara jù fún:: Quick creative audio when full Bark is too slow

Àwọn ààyè-iṣẹ́ Bark Small

CosyVoice 2

Àwọn ìkúndùǹ

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

Alábòójútó::
Alibaba (Tongyi Lab)

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, ja, ko, fr, de, it, es

Àwọn Àmì-ìwé:
Yà

StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity

Ó dara jù fún:: Real-time applications, streaming TTS, voice assistants

Àwọn ààyè-iṣẹ́ CosyVoice 2

Àwọn ìṣàmúlò-ètò

Alábòójútó::
OpenMOSS

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Àwọn Àmì-ìwé:
Yà

VRAM:
16GB

Àwọn àwọn àmì-ìwé 1K:
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

Ó dara jù fún:: Audiobooks, long-form content, multilingual production

Àwọn ààyè-iṣẹ́ MOSS-TTS

MegaTTS3

Àwọn ìṣàmúlò-ètò

Alábòójútó::
ByteDance

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Slow

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh

Àwọn Àmì-ìwé:
Yà

VRAM:
8GB

Àwọn àwọn àmì-ìwé 1K:
4x

Voice cloningAdjustable similarityCross-lingual

Ó dara jù fún:: High-fidelity voice cloning

Àwọn ààyè-iṣẹ́ MegaTTS3

Àwọn ààtòjọ-ẹ̀yàn

Àwọn ìṣàmúlò-ètò	Alábòójútó:	Àwọn àwọn ààyè-iṣẹ́	Ìjánu-ìsún	Àwọn ìrísí-lẹ́tà	VRAM	Àwọn Àmì-ìwé:	Àwọn Irinṣẹ́
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	Àìfihàn	Lo
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	Àìfihàn	Lo
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	Àìfihàn	Lo
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Àìfihàn	Lo
Bark	Suno	Standard	Slow	13	5GB	MIT	2	Lo
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Lo
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Lo
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Lo
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Lo
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	Lo
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Lo
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Lo
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	Lo
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Lo
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Lo
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	Lo
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Lo
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	Lo
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Lo
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	Lo
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	Lo
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	Lo
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	Lo
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	Lo
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Àìfihàn	Lo
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	Lo
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	Lo
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Àìfihàn	Lo
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Àìfihàn	Lo
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	Lo
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	Lo
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	Lo

Àwọn Àkọlé Àwọn Àkọlé

Kini idi ti o fi yan TTS.ai fun ọrọ si ọrọ?

TTS.ai n ṣàpọ̀lú àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Every model is open source under MIT, Apache 2.0, or similar permissive licenses, ensuring you have full commercial rights to use the generated audio in your projects. Whether you need fast, lightweight synthesis for real-time applications or premium studio-quality output for audiobooks and podcasts, TTS.ai has the right model for every use case.

Free Models, No Account Required

Ṣẹ̀dà ní pàtó àwọn móòdù TTS mẹ́tà tí a fi pamọ́: Piper (ìjádé, àìdárá), VITS (ìjádárá tí a fi pamọ́), àti MeloTTS (ìdárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárá

Ìṣàmúlò-ètò GPU-Àkókó

Gbogbo àwọn móòdù TTS náà lo ní pàtó NVIDIA GPUs fún àwọn àkókó tí a fi hàn. Móòdù àìfẹ́ nígbà kan gbọ́ọ̀kan nínú àwọn ìsàlẹ̀-ilà 2. Móòdù àìṣe bí Kokoro, CosyVoice 2, àti Bark ní aago 3-5 àwọn ìsàlẹ̀-ilà. Móòdù àìpàlẹ̀ nínú àwọn ìsàlẹ̀-ilà tí a fi hàn, bí Tortoise àti Chatterbox, lò nínú àwọn ìsàlẹ̀-ilà 5-15 àwọn ìsàlẹ̀-ilà tí a dájú ìgbà ìròyìn àwọn àkọ́lé.

Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn

Ṣẹ̀dà àwọn àkọlé nínú àwọn ìtàn 30 tí a fi pamọ́, àti àwọn ìtàn Ingẹ̀lì, Àwọn ìtàn Espãnì, Àwọn ìtàn Fẹ́rẹ̀sì, Àwọn ìtàn Jẹ́mánì, Àwọn ìtàn Italiani, Àwọn ìtàn Pẹ́tìgì, Àwọn ìtàn Chinese, Àwọn ìtàn Japanese, Àwọn ìtàn Korean, Àwọn ìtàn Arabic, Àwọn ìtàn Hindi, Àwọn ìtàn Russian, àti àwọn ìtàn mìíràn. Àwọn módè́lì mìíràn gbọ́dọ̀ kọ̀ọ̀kan gbọ́dọ̀, móòdù tí o lè ṣẹ̀dà àwọn àkọlé nínú ìtàn tí àwòrán tí a kò kọ̀ọ̀kan kọ̀ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ

Àwọn Ìṣàmúlò-ètò

Ṣàfikún TTS.ai sínú àwọn ìṣàmúlò-ètò rẹ̀ láti inú API REST OpenAI-̀wà. Àwọn ààyè ipari kan fun gbogbo àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn à

Àwọn Àtòjọ-ẹ̀yàn

Àkọlé láti inú àkọlé (TTS) ní imọ-ẹrọ AI tí n yipada àwọn àkọlé tí a kọ̀ nínú àwòrán tí a sọ̀rọ̀. Àwọn ìṣàmúlò-ètò TTS neural tuntun bí Kokoro, Chatterbox, àti CosyVoice 2 ló kọ̀ọ̀kan láti mú àwọn àkọlé láti inú àwòrán tí a sọ̀rọ̀ nínú àwòrán tí a sọ̀rọ̀.

O dájú àwọn ìrànwọ́ rẹ̀. Fún àwọn ìṣàwòyé ìsàlẹ̀-ilà ìsàlẹ̀-ilà, lo Piper tàbí MeloTTS (ọ̀fẹ̀, rọ́ọ̀nù). Fún ìdárànwọ́ giga, lo Kokoro tàbí CosyVoice 2 (àwọn ìṣàlàyé). Fún ìṣàfarawé àwọn àmì-ìwé, lo Chatterbox tàbí GPT-SoVITS (àwọn ìṣàlàyé). Fún àwọn àkọlé àkọlé/podcast, lo Dia TTS. Módélù kọ̀ọ̀kan ní àwọn ìpéwọ̀n tí a yatọ̀ - wòyé láti wá àwọn ìṣàlàyé tí o dara jù lọ.

Ya! TTS.ai nfun àwọn àkọlé àìbálẹ̀ láti inú àwọn àwòrán Kokoro, Piper, VITS, atí MeloTTS. Kò ní kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan. Kò ní kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan.

Awọn awoṣe TTS wa ni ifowosowopo ṣe atilẹyin awọn ede 30+ pẹlu English, Spanish, French, German, Italian, Portuguese, Chinese, Japanese, Korean, Arabic, Russian, Hindi, ati diẹ sii. Aṣayan ede yatọ si da lori awoṣe.

Yes, audio generated through TTS.ai can be used commercially. All our models use open-source licenses (MIT, Apache 2.0). Check individual model licenses for specific terms. We recommend reviewing the license of the specific model you use for your project.

TTS.ai ǹfàyè gba àwọn ìrísí-lẹ́tà MP3, WAV, OGG, àti FLAC. MP3 ní ìpéwọ̀n fún ìṣàfihàn wẹ́ẹ̀bù. WAV ní àwọn ìṣàfihàn àwọn ìṣàmúlò-ètò ìranlọwọ. O lè yipada láti inú àwọn ìrísí-lẹ́tà láti ló àtòjọ àwọn ìrísí-lẹ́tà àwọn ìṣàfihàn wa.

Ìṣàfarawe-ìrọ̀ ló sọ́rọ̀lú AI láti ṣẹ́dá ìròyìn ìròyìn kan láti inú àwọn ààyè-iṣẹ́ ìṣàmúlò-ètò ìṣàmúlò-ètò àpẹẹrẹ àwọn àwòrán (bí a tí n ṣe ní 5-30 sekúǹdù). Fi àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn à

Free users can generate up to 500 characters per request. Registered users get up to 5,000 characters per request. For longer texts, the audio is generated in chunks and stitched together automatically. API users can process up to 10,000 characters per request.

Àwọn ìṣàfihàn SSML (Speech Synthesis Markup Language) tí a fi yatọ̀ sí àwọn móòdù. Piper àti àwọn móòdù mìíràn mìíràn mìíràn mìíràn mìíràn tun ń gbọ́ àwọn àmì-ìwé SSML ìṣàfihàn fún àwọn ìpàsẹ̀, ìṣàfihàn, àti ìṣàfihàn. Fún àwọn móòdù tí kò ní ìṣàfihàn SSML tí a fi yatọ̀, o lè lò àwọn àwọn ìṣàfihàn àwọn àwọn ìpàsẹ̀ àwọn ààyè-ìwé láti mú àwọn àwọn àwọn ààyè-ìwé pọ̀.

Òyà, àwọn móòdù àwọn púpọ̀ jú ń gba ìṣàmúlò-ètò ìráwọ̀n ìráwọ̀n láti 0.5x sí 2.0x. Móòdù àwọn púpọ̀ bíi Bákì àti Parler̀ ń gba ìṣàmúlò-ètò ìṣàfarawé àwọn ìṣàmúlò-ètò ìṣàfarawé àwọn ìṣàfihàn ìṣàfihàn àti ìṣàfihàn àwọn ìṣàfihàn API.

Yes, batch processing is available through our API. You can submit multiple text segments in a single API call or script, and each will be processed and returned as separate audio files. This is ideal for audiobook chapters, e-learning modules, or game dialogue scripts.

Ṣẹ̀dá bọ́tìnì API láti inú dáṣíbọ̀ kọ̀ǹpútà kọ̀ǹpútà rẹ̀, ki o si fi àwọn ibeere POST pamọ́ sí ààyè-iṣẹ́ API REST wà láti inú àyọkà rẹ̀, àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò, àti àwọn ìṣàmúlò-ètò àwòrán. A fi àwọn ìṣàmúlò-ètò kọ́dì pamọ́ láti inú Python, JavaScript, àti cURL. API náà jẹ́ OpenAI-ọ̀fẹ̀, láti jẹ́ pé àwọn ìṣàmúlò-ètò tí wa nínú lórí àwọn ìyipadà kékeré.

5.0/5 (3)

Ṣí Ìjánu-ìṣàmúlò-ètò

Join thousands of creators using TTS.ai. Get 15,000 free characters with a new account. Free models available without signup.

Ṣàfihàn Wó Àwọn Ìtàn

Àkọlé àtòjọ-ẹ̀yàn

O fẹ́ TTS.ai? Fì sọ̀kalẹ̀ fún àwọn ọrẹ̀ rẹ̀!

Àwọn Àtòjọ-ẹ̀yàn

Dia TTS

Àwọn Àlàyé fún Àwọn Àtòjọ-ẹ̀yàn

Ìlò Àwọn Àwòrán

Bií a ṣe lè ló àkọ́lé AI láti jẹ́ ìṣàfarawé

Fi àkọlé rẹ̀ sípò

Yan àwọn àwòrán

Ṣẹ̀dà & Àkọsílẹ̀

Àwọn Àwọn Ìṣàmúlò-ètò Àkọ́kọ́

Àwọn àkọlé

Àwọn Àmì-ìwé Àwòrán

Àwọn Pódíẹ̀tì

Àwọn Ìṣàmúlò-ètò

Àwọn Ìṣàmúlò-ètò

Àwọn ìṣàfihàn

Àwọn Ìṣàmúlò-ètò Fẹ́ẹ̀lì

Àwọn Àkọsílẹ̀ Àwọn Àkọsílẹ̀

Ìjánu-ìṣàmúlò-ètò

Ìjánu-ìfún

Àwọn àwọn ààyè-iṣẹ́

Ìṣàfilọ́lẹ̀ & & Ìṣàfilọ́lẹ̀

Àwọn àwọn àwòrán àwọn àwòrán

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

TADA

VibeVoice