Report Bug / Feature Request

Àkọlé àtòjọ-ẹ̀yàn

Convert text to natural-sounding speech with open-source AI models. Free to use, no account required.

Ṣàfihàn

A kò ní àwọn ìrànwọ́ TTS nínú ìtàn rẹ̀. Yọ̀ọ̀kan rán wà láti fàyè gba àwọn rẹ̀! Fi Ojú Rẹ̀ pamọ́

0/500 Àwọn àmì-àṣírí · Sign up for 5,000 per generation →

Ṣẹ̀dà fun àwọn àmì-àṣírí 5,000

Àwọn Ìṣàmúlò-ètò (Àwọn Àwọn Àkọ́kọ́ Àwọn Àkọ́kọ́ Àwọn Àkọ́kọ́)

Fi àkọlé rẹ pamọ́ sí àwọn àmì-ìwé SSML fún ìdáràn:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Àwọn Àmì-ìwé Ìjánu-ìró / Ìyárà

Ṣàfikún àwọn àmì-ìwé ìrànwọ́ fún ìgbàdá (ìdáràn àwọn ìṣàmúlò-ètò)

Àwọn Àwọn Àkọlé

Àwọn àwọn ìṣàfarawé àwọn àwọn ìṣàfarawé àwọn (ọrọ = ìṣàfàlì):

Ìjánu-ìsún 0

-12 +12

Àwọn ìṣàmúlò-ètò

Àwọn àmì-ìwé

Àwọn Àwọn Àwọn Àwọn Àwọn

Ìgúnrégé àwọn ààtòjọ-ẹ̀yàn

Ìjánu-ìṣàmúlò-ètò 1.0x

0.5x 2.0x

Free pẹlu Piper, VITS, MeloTTS

Àwọn àwòrán tí o ti ṣẹ̀dà tí o bá han níbẹ̀. Yan àwọn àwòrán, tẹ̀lẹ̀ àkọlé, ki o si tẹ̀ Ṣẹ̀dà.

Àwọn Àtòjọ-ẹ̀yàn

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Alábòójútó:	KittenML
Àwọn Àmì-ìwé:	Apache 2.0
Ìjánu-ìsún	Fast
Ìgúnrégé:
Àwọn ìrísí-lẹ́tà	1 Àwọn ìrísí-lẹ́tà
VRAM	0GB
Àwọn Àmì-ìwé	Kò gbàgbọ́

Àwọn Àbùdá:

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

Ó dara jù fún:: Fast lightweight TTS, edge deployment, low-latency applications

Àwọn Àlàyé fún Àwọn Àtòjọ-ẹ̀yàn

Lo àwọn ìṣàfarawé àwọn àmì-ìwé láti mú àwọn ìpàsẹ̀ àti àwọn ìṣàfarawé pamọ́
Spell out numbers and abbreviations for clearer pronunciation
Fi àwọn àyọkà ìṣàfarawé àwọn àwọn àyọkà ìsàlẹ̀-ilà hàn
Use ellipsis (...) for longer dramatic pauses
Wá Kokoro tàbí CosyVoice 2 fún àwọn àwọn ìrísí-lẹ́tà tí a fẹ́
Lo Dia fún àwọn àkọlé àwọn ìgbàkọ-àgbègbè àti àwọn ìrísí-lẹ́tà

Ìlò Àwọn Àwòrán

Àwọn àwọn ààyè-iṣẹ́	Àwọn àwọn àmì-ìwé 1K
Àìfihàn	0 àwọn ìṣàmúlò-ètò (kò ní ìdáràn)
Àwọn ìkúndùǹ	Àwọn àmì-ìwé
Àwọn ìṣàmúlò-ètò	Àwọn àmì-ìwé

Gba àwọn àmì-ìwé mìíràn

Bií a ṣe lè ló àkọ́lé AI láti jẹ́ ìṣàfarawé

Ṣẹ̀dà àwọn àwòrán ìṣàfarawe-ìdáràn-ìdáràn nínú àwọn ìṣàmúlò-ètò àìdáràn mẹ́tà. Kò ní ìmọ̀ tí a fẹ́.

Àwọn ìṣàmúlò-ètò

Fi àkọlé rẹ̀ sípò

Ṣàfihàn, pàtó tàbí fi àkọlé àwòrán tí o fẹ́ láti yipada sí ìtàn. Àwọn àwọn àmì-ìwé tí a tí fi pamọ́ láti inú àwọn òǹlò tí a tí fi wọlé. Lo àwọn àkọlé àwòrán láti mú ìdáràn àwọn ìṣàfihàn, àwọn ìpàsẹ̀, àti àwọn àwọn àmì-ìwé.

Àkóónú 2

Yan àwọn àwòrán

Yan láti inú àwọn àwọn ìṣàmúlò-ètò AI 20+ nínú àwọn ìpele mẹ́tà. Yan àwòrán tí o dápọ̀ sí àwọn ìrísí-lẹ́tà rẹ, yaǹọ́ ìtàn rẹ̀, ṣí ààtò ìṣàfihàn láti 0.5x sí 2.0x, àtì yaǹọ́ ìṣàfihàn àwọn ìṣàfihàn rẹ̀ tí o fẹ́ (MP3, WAV, OGG, tàbí FLAC).

Àkóónú ààyè-iṣẹ́

Ṣẹ̀dà & Àkọsílẹ̀

Click Generate and your audio is ready in seconds. Preview with the built-in player, download in your chosen format, or copy a shareable link. Use the API for batch processing and integration into your workflow.

Àwọn Àwọn Ìṣàmúlò-ètò Àkọ́kọ́

Awọn ọrọ-ọrọ ti a ṣe nipasẹ AI n ṣe atunṣe bi awọn eniyan ṣe ṣẹda, lo, ati ṣe ibaraẹnisọrọ pẹlu awọn ohun orin orin ni ọpọlọpọ awọn ile-iṣẹ.

Àwọn àkọlé

Ṣàfikún àwọn àkọlé nínú àwọn àkọlé àwòrán àwọn ìṣàfarawe-ìròyìn àti àwọn ìṣàfihàn ìṣàfihàn. Àwọn ìṣàfihàn àwọn ìgbàkọ̀ọ̀kan nínú àwọn àkọlé àwòrán.

Àwọn Àmì-ìwé Àwòrán

Ṣẹ̀dá àwọn àwòrán-ìrọ̀ ìmọ̀ fun YouTube, TikTok, Instagram Reels, àti Shorts. 100+ àwòrán tàbí kọ̀ǹpútà rẹ̀.

Àwọn Pódíẹ̀tì

Ṣẹ̀dà àwọn ààyè-iṣẹ́ podcast láti inú àwọn ìsàlẹ̀-ilà láti inú àwọn ìrànwọ́ AI. Lo Dia fún àwọn ìṣàfihàn àwọn ìgbàkọ́ àwọn ìgbàkọ́ meji.

Àwọn Ìṣàmúlò-ètò

Àwọn àwòrán AI fún àwọn ere indie, àwọn àkọlé àwòrán, àti àwọn àkọlé àwòrán. Àwọn àgbèkalẹ̀ NPC, àwọn àwòrán àwọn àwọn ìtàn, àwọn ìtàn 30+

Àwọn Ìṣàmúlò-ètò

Ṣàfikún àwọn ààyè-iṣẹ́ ìṣàmúlò-ètò, àwọn ìṣàmúlò-ètò, àti àwọn ààyè-iṣẹ́ ìṣàfihàn sí àwòrán. Àwọn ìṣàfihàn ìtàn-àwọn fún àwọn pánẹ́ẹ̀lì ìwọ̀n-àwọ̀n.

Àwọn ìṣàfihàn

Fi àwọn ojú-ìwé, àwọn àkọsílẹ̀, àti àwọn ìṣàmúlò-ètò pamọ́. Ìdákọ́ àwọn àkọsílẹ̀ àti ìṣàfilọ́lẹ̀ àwọn àkọsílẹ̀-si-àkọsílẹ̀.

Àwọn Ìṣàmúlò-ètò Fẹ́ẹ̀lì

Power IVR systems, phone menus, and customer service with natural AI voices. Low-latency streaming for call centers.

Àwọn Àkọsílẹ̀ Àwọn Àkọsílẹ̀

Awọn itan TikTok, Instagram Reels, Awọn asọye Twitter / X, Awọn fọto YouTube. Iṣẹ-ṣiṣe iyara pẹlu awọn awoṣe ọfẹ.

Ìjánu-ìṣàmúlò-ètò

Àwọn ìṣàfilọ́lẹ̀ Twitch TTS, àgbékalẹ̀-si-ìrọ́, àwọn àgbèkalẹ̀ AI, àti àwọn bótì Discord. Ìgbà ìdá, àwọn ìròyìn 100+

Ìjánu-ìfún

Ad voiceovers, explainer video, product demos, ati awọn ifihan tita. Sọ́kalẹ̀ ìyárá orin ni gbogbo awọn igbega.

Àwọn àwọn ààyè-iṣẹ́

Ṣàfihàn àti dùbú àwọn àwòrán sí àwọn ìtàn 30+ láti inú AI tí a bá sọ̀rọ̀-dá. Àwọn ìṣàfihàn-àtòjútó àti àwọn ìṣàfihàn-àgbègbè.

Ìṣàfilọ́lẹ̀ & & Ìṣàfilọ́lẹ̀

Ìṣàfilọ́lẹ̀ tí a gbọ́, àwọn àkọlé tí a tí ǹlọ́, àwọn ìṣàfilọ́lẹ̀ tí a ǹgbọ́, àwọn àwòrán AI tí a ǹgbọ́.

Àwọn Àtòjọ-ẹ̀yàn

Àwọn àwọn àwòrán àwọn àwòrán

Àwọn ìṣàfihàn àwọn ìṣàfihàn fún àwọn móòdù AI fún gbogbo àwọn tí a wa ni TTS.ai. Ṣàfikún ìwọ̀n, ìrárá, ìrànwọ́ àwọn ìṣàfihàn, àti àwọn àbùdá láti wa móòdù tí o yẹ fún ìṣẹ́ rẹ̀.

Kokoro

Free

Kokoro ní móòdù àkọlé-si-ìbàlẹ̀ àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Hexgrad

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, ja, zh, fr, it, pt, es, hi

VRAM:
1.5GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

Àwọn ààtòjọ-ẹ̀yàn Ìjánu-ìsún Àwọn àwòrán ìṣàfihàn Àwọn Àgbègbè Àwọn Ìṣàmúlò-ètò

Ó dara jù fún:: TTS ìṣàmúlò-ètò ìṣàfilọ́lẹ̀ tí a bá fi àwọn ìṣàmúlò-ètò ìṣàfilọ́lẹ̀ pamọ́

Àwọn ààyè-iṣẹ́ Kokoro

Piper

Free

Piper ní inú iṣẹ́ àkọlé-si-ìbàlẹ̀ tí Rhasspy tí lo VITS atí larynx architectures. Ò rọ́ọ̀nù ní pàtó nípa CPU, tí o fi jẹ́ ìṣàfarawésókè fún àwọn àpá-ìṣàmúlò-ètò, ìṣàfihàn ilé, àtí àwọn ìṣàmúlò-ètò tí fẹ́ TTS tí kò bá jẹ́ nípa intanẹ́ẹ̀tì. Nínú àwọn ìraǹrọ̀ 100 lọ́wọ́lọ́wọ́ nínú àwọn ìtàn 30+ ni Piper ǹfi àwọn àkọlé tí a tí ìgbá tí a tí ǹṣè gbọ̀ nínú àwọn ìṣàfihàn tí a tí ǹṣè nínú Raspberry Pi 4.

Alábòójútó::
Rhasspy

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

CPU-friendly Àwọn Ìṣàmúlò-ètò Àwọn Àmì-ìwé Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn ìṣàfilọ́lẹ̀ SSML

Ó dara jù fún:: Àwọn ìṣàfihàn ìtàn, ìrànwọ́, àti àwọn ìṣàmúlò-ètò àìdálẹ̀

Àwọn ààyè-iṣẹ́ Piper

VITS

Free

VITS (Ìṣàfilọ́lẹ̀ Ìyatọ̀ láti inú ìmọ̀ ìṣàfilọ́lẹ̀ ìṣàfilọ́lẹ̀ fún àkọlé-si-ìbàlẹ̀-si-ìbàlẹ̀) ní àwọn ìṣàfilọ́lẹ̀ TTS ìsàlẹ̀ fún ìsàlẹ̀ tí wọ́n mú àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Jaehyeon Kim et al.

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

VRAM:
1GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

Àwọn àwọn àgbékalẹ̀ Àwọn ìṣàmúlò-ètò ìṣàfarawé Àwọn àwọn àgbékalẹ̀ Àwọn ìgbàkọ̀ọ̀kan

Ó dara jù fún:: Àkọlé-si-ìgbàyélú-ìgbàyélú-ìgbàyélú-ìgbàyélú-ìgbàyélú-ìgbàyélú-ìgbàyélú

Àwọn ààyè-iṣẹ́ VITS

MeloTTS

Free

MeloTTS láti MyShell.ai ní àwọn láìbòójútó TTS tí wọ́n gbọ́dọ̀ sílẹ̀ nínú àwọn ìtàn mìíràn tí wọ́n gbọ́dọ̀ sílẹ̀ nínú Àwọn Àkọsílẹ̀ (Ameríka, British, Indian, Australia), Sẹ́fànì, Fẹ́rẹ̀sì, Chinese, Japanese, àti Korean. O jẹ́ ìráwọ́lẹ̀, ìṣàfarawé àwọn àkọsílẹ̀ nínú ìráwọ́lẹ̀ àwọn àkókò nínú CPU. MeloTTS tí a ṣè fún ìlòòròrò àti ìṣàfarawé CPU àti GPU.

Alábòójútó::
MyShell.ai

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

CPU-Óòdúró Àwọn Àwọn Àwọn Àwọn Àwọn àwọn ìṣàfarawégbè Àwọn àwọn ààyè-iṣẹ́ Latency kéré

Ó dara jù fún:: Àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò tí fẹ́ ìṣàmúlò-ètò TTS àìpẹ̀, àwọn ìṣàmúlò-ètò mìíràn

Àwọn ààyè-iṣẹ́ MeloTTS

Bark

Standard

Bark tí Suno jẹ́ móòdù àkọlé-si-àwòrán tí a dá lorí ìṣàfarawe-ìdálẹ̀ tí lè mú ìgbàgbọ́ tí o jẹ́ ìṣàfarawe-ìṣàfilọ́lẹ̀, àwọn ìtàn-ìdálẹ̀ gẹgẹbi àwọn ìtàn, ìgbọ́wọ́ ìsàlẹ̀-ilà, àti àwọn ìṣàfàlì ìsàlẹ̀-ilà. O lè mú ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ à

Alábòójútó::
Suno

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Slow

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn ìṣàfarawé àwọn ìṣàfarawé àwòrán Ìfẹ́/ìfẹ́ Ìṣàfilọ́lẹ̀ ìṣàmúlò-ètò Àwọn Àkọlé Àwọn Àgbègbè

Ó dara jù fún:: Àwọn àkọlé àwòrán, àwọn àkọlé àwòrán láti jẹ́ àwọn ìṣàfarawé àwọn ìṣàfarawé àwọn ìṣàfarawé àwọn ìṣàfarawé àwọn ìṣàfarawé àwọn ìṣàfarawé

Àwọn ààyè-iṣẹ́ Bark

Bark Small

Standard

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

Alábòójútó::
Suno

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn àwọn àwọn àwọn àwọn àwọn Tí o bá jú àwọn àgbègbè ìtàn lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́ Àwọn Àkọ́kọ́ Ìṣàmúlò-ètò Àwọn Àwọn Àwọn Àwọn

Ó dara jù fún:: Àwọn àwòrán ìṣàfarawé àìpẹ̀ nígbà tí àwọn àwọn àgbègbè tí a fi pamọ́ jẹ́ lẹ́wa jú

Àwọn ààyè-iṣẹ́ Bark Small

CosyVoice 2

Standard

CosyVoice 2 láti inú Lábò Tongyì Alibabà gbá ìṣàfarawé ìṣàlàyé ìṣàfihàn àwọn ìṣàmúlò-ètò tí a lò nígbà gidì. O ló ìṣàfihàn tí a tí kọ̀ọ̀kan fún ìṣàfihàn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣà

Alábòójútó::
Alibaba (Tongyi Lab)

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Ìjánu-ìṣàmúlò-ètò Àwọn àwọn ìṣàfarawé àwọn ààyè-iṣẹ́ Àwọn Àwọn Àwọn Àwọn Àwọn Ìṣakoso Ìfẹ́ Àwọn ìṣàfarawé àwọn ìṣàfarawé-àyè

Ó dara jù fún:: Àwọn ìṣàmúlò-ètò ìgbárawọ̀n, TTS ìṣàfihàn, àwọn awáròyìn àwòrán

Àwọn ààyè-iṣẹ́ CosyVoice 2

Dia TTS

Standard

Dia ti Nari Labs jẹ́ móòdù àkọlé-si-ìbàlẹ̀ àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Nari Labs

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
4GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn Àkọlé Àwọn Àkọlé Ìjánu-ìṣàmúlò-ètò ìṣàfarawé Àwọn àmì-ìwé àìròyìn Àwọn ààtòjọ-ẹ̀yàn

Ó dara jù fún:: Podíẹ̀tì, àwọn àgbékalẹ̀ àwọn àkọlé, àwọn àkọlé àkọlé

Àwọn ààyè-iṣẹ́ Dia TTS

Parler TTS

Standard

Parler TTS ní móòdù àkọlé-si-ìgbàkalẹ̀ tí n ló àwọn ìṣàfihàn àwọn ìròyìn ìranlọwọ̀ ìranlọwọ̀ tí a ṣẹ̀dà. Nígbà tí o bá yan láti inú àwọn ìrànwọ́, ò sọ̀kalẹ̀ ìranlọwọ̀ tí o fẹ́ (gẹ́gẹ́ bíi, "ìrọ̀ obinrin tí o ní ìṣàfihàn British kan, tí o bá sọ̀kalẹ̀ lẹ́wá nípa ìròyìn") àti Parler kọ̀ọ̀kan àwọn ìrànwọ́ tí o bá jẹ́. Ò jẹ́ ìṣàfihàn tí a lè lò fún àwọn ìṣàfihàn ìṣàfihàn.

Alábòójútó::
Hugging Face

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
4GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn ìṣàfihàn àwọn àmì-ìwé Ìwé ìṣàmúlò-ètò Àwọn àwọn àwòrán Kò ní àwọn ìrànwọ́ àwọn ìrànwọ́ àwọn ìrànwọ́

Ó dara jù fún:: Àwọn ìṣàmúlò-ètò ìṣàfarawélẹ̀ níbí tí o bá fẹ́ àwọn àbùdá àwọn ìrànwọ́ àwọn ìrànwọ́

Àwọn ààyè-iṣẹ́ Parler TTS

GLM-TTS

Standard

GLM-TTS láti inú Zhipu AI ní ìṣàmúlò-ètò àkọlé-si-ìbàlẹ̀ tí a kọ̀ ní pàtó àwọn àwọn ààyè-iṣẹ́ Llama pẹlú ìdákọ́ àwọn ìṣàmúlò-ètò. Ó gbá àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Zhipu AI

Àwọn Àmì-ìwé::
GLM-4 License

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn àwọn àṣìṣe Ìṣàfarawé àwọn àmì-ìwé Àwọn Ìṣàmúlò-ètò Àwọn ìṣàmúlò-ètò ìṣàfarawé

Ó dara jù fún:: Àwọn ìṣàmúlò-ètò tí a fẹ́ ìṣàfarawé ìtumọ̀ tójú

Àwọn ààyè-iṣẹ́ GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 ní ìṣàmúlò-ètò àkọlé-si-ìbàlẹ̀ tí o pọ̀ jú lọ nínú ìṣàfarawe-ìrọ̀ àti ìdárawọ́ àwọn ìrawọ́lẹ̀. O lè ṣẹ̀dá àwọn ìrawọ́lẹ̀ àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Index Team

Àwọn Àmì-ìwé::
Bilibili Model License

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Ìṣakoso Ìfẹ́ Àwọn ààyè-iṣẹ́ Àwọn bèkì ìrànwọ́ Àwọn Àmì-àṣírí Àwọn Ìṣàmúlò-ètò

Ó dara jù fún:: Àwọn àkọlé tí a sọ̀rọ̀, àwọn àkọlé àwòrán, àwọn awáròyìn ìṣàfarawé

Àwọn ààyè-iṣẹ́ IndexTTS-2

Spark TTS

Standard

Spark TTS láti inú SparkAudio ní móòdù àyọkà-si-ìgbàkalẹ̀ tí n pọ̀jú kọ̀ǹpútà ìṣàfarawe-ìrọ̀ láti inú ìṣàfarawe-ìrọ̀ tí a lè kọ̀ǹpútà àwọn ìrànwọ́ àti àwọn ìṣàfilọ́lẹ̀. Nínú ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀, o lè kọ̀ǹpútà àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀

Alábòójútó::
SparkAudio

Àwọn Àmì-ìwé::
CC BY-NC-SA 4.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Ìṣàfarawé àwọn àmì-ìwé Àwọn Ìṣàmúlò-ètò Ìṣakoso Ìṣàmúlò-ètò Àwọn àgbéwọlé Àwọn ìṣàfarawé àwọn ìṣàmúlò-ètò

Ó dara jù fún:: Ìṣàfilọ́lẹ̀ àwọn ìròyìn láti inú àwọn ìròyìn àti ìrànwọ́ àwọn ìrànwọ́

Àwọn ààyè-iṣẹ́ Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS tí n pọ̀pọ̀ ìṣàfihàn ìtàn GPT-ìdáràǹyàǹ láti inú SoVITS (Ìṣàfihàn Àwọn Àwòrán Nípa Àwọn Àkọsílẹ̀ àti Àwọn Àkọ́kọ́) fún ìṣàfihàn àwọn àwòrán tí a tí ìgbà kan. Nínú àwọn ìsẹ̀yìn àwọn àwòrán 5, o lè kọ́ọ̀kan àwòrán àti ìṣàfihàn àwọn àwòrán tuntun nígbà tí o ǹpa àwọn àbùdá tí a fi sọ̀rọ̀. Ò jẹ́ àwọn àwòrán tí a lò nínú ìṣàfihàn àwòrán tí a ǹgbà sọ̀rọ̀ atí tí a ǹgbà kọ́ọ̀kan.

Alábòójútó::
RVC-Boss

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Slow

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, ja, ko

VRAM:
6GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn ìṣàfarawé àwọn ìṣàmúlò-ètò Àwọn àwòrán Àwọn ìṣàfilọ́lẹ̀ àwọn àwọn ààyè-iṣẹ́ Ìdáràn Àwọn Àwọn Àwọn Àwọn Àwọn

Ó dara jù fún:: Ìṣàfarawé àwọn àwòrán, ìṣàfarawé àwọn àwòrán, ìṣàfarawé àwòrán

Àwọn ààyè-iṣẹ́ GPT-SoVITS

Orpheus

Standard

Orpheus ní móòdù àkọlé-si-ìbàlẹ̀ nlà tí n gba ìṣàfihàn ìrànwọ́ inú eniyan. Tí a kọ̀ nípa àwọn aago 100,000 tí a tí sọ̀rọ̀ kọ̀ọ̀kan, ò jẹ́ ìṣàfihàn àwọn ìbàlẹ̀ nípa àwọn ìrànwọ́ inú, àwọn ìṣàfihàn, àtí àwọn ìṣàfihàn. Orpheus lè kọ̀ọ̀kan àwọn ìbàlẹ̀ tí a kò lè yatọ̀ sí àwọn ìṣàfihàn inú eniyan.

Alábòójútó::
Canopy Labs

Àwọn Àmì-ìwé::
Llama 3.2 Community

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
4GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn ìrànwọ́ ìpele-àwọ̀n-óòdù Àwọn ààyè-iṣẹ́ Ìṣàfilọ́lẹ̀ ìṣàfilọ́lẹ̀ Àwọn Àkọ́kọ́

Ó dara jù fún:: Àwọn àkọlé àwòrán, àwọn àkọlé àwòrán, àwọn àwòrán-ìró

Àwọn ààyè-iṣẹ́ Orpheus

Chatterbox

Premium

Chatterbox láti inú Resemble AI ní módè́lì ìṣàfarawé àwọn ìròyìn àwọn ìròyìn àwọn ìròyìn. O lè ṣẹ̀dà àwọn ìròyìn láti inú àwọn ìṣàmúlò-ètò àwọn ìròyìn kan nípa ìṣàfihàn tí a lè fi pamọ́, kò ní tímórà̀ nikan, ṣugbọn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìròyìn àwọn ìròyìn. Chatterbox ní àwọn àwọn ààyè ìròyìn àwọn ìròyìn tí a lè fi pamọ́, tí o fi hàn ọ̀kan ìròyìn àwọn ìròyìn àwọn ìròyìn àwọn ìròyìn àwọn ìròyìn àwọn ìròyìn.

Alábòójútó::
Resemble AI

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
4x

Àwọn àwọn ìṣàfarawé àwọn ààyè-iṣẹ́ Ìṣakoso Ìfẹ́ Ìdáràn Ìjánu-ìsún Àwọn ààyè-iṣẹ́ ìṣàmúlò-ètò

Ó dara jù fún:: Ìṣàfarawé àwọn ìròyìn àwọn ìròyìn àwọn ìṣàfarawé àwọn ìròyìn

Àwọn ààyè-iṣẹ́ Chatterbox

Tortoise TTS

Premium

Tortoise TTS ní ìṣàmúlò-ètò àkọlé-si-ìbàlẹ̀-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-i

Alábòójútó::
James Betker

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Slow

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
8GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
4x

Àwọn ìkúndùǹ ìsàlẹ̀-ilà Àwọn àwòrán DALL-E architecture Ìṣàfarawé àwọn àmì-ìwé Àwọn Ìjánu-ìṣàmúlò-ètò

Ó dara jù fún:: Àwọn àkọlé àwòrán, àwọn ìṣàmúlò-ètò ìṣàfarawélẹ̀

Àwọn ààyè-iṣẹ́ Tortoise TTS

StyleTTS 2

Premium

Àwọn Ìṣàmúlò-ètò TTS 2 gba ìṣàmúlò-ètò TTS ìpele-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ̀n-àwọ

Alábòójútó::
Columbia University

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
4GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
4x

Àwọn Ìṣàmúlò-ètò Àwọn ìṣàfarawé àwọn ìṣàfarawé àwọn ìṣàfarawé Àwọn ìṣàmúlò-ètò ìṣàfarawé Àwọn ìfìmúlẹ̀ ìṣàfarawé Ìdáràn

Ó dara jù fún:: Ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀-ìgbà-ìgbà, ìṣàfilọ́lẹ̀ ìmọ̀

Àwọn ààyè-iṣẹ́ StyleTTS 2

OpenVoice

Premium

OpenVoice láti MyShell.ai gba ìṣàfarawe àwọn àwòrán láti inú àwọn àwọn àwọn àwọn àwòrán tí a tí kọ́ nípa àwọn àwọn àwọn àwòrán, àwọn àwọn àwọn àwòrán, àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn à

Alábòójútó::
MyShell.ai / MIT

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, ja, ko, fr, es

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
4x

Ìṣàmúlò-ètò Àwọn ìyipadà àwòrán Àwọn Ìṣàmúlò-ètò Ìṣakoso Àwọn Àmì-àṣírí Àwọn Àgbègbè

Ó dara jù fún:: Ìṣàfarawé àwọn àwòrán láti inú àwọn ìṣàmúlò-ètò ìṣàfarawé àwọn àwòrán

Àwọn ààyè-iṣẹ́ OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS ní móòdù àkọlé-si-ìbàlẹ̀ àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Alibaba (Qwen)

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Ìṣàfarawé àwọn àmì-ìwé Àwọn ìrànwọ́ àwọn ìrànwọ́ Àwọn àwọn àwòrán àwọn àmì-ìwé Ìṣakoso Ìfẹ́ Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn

Ó dara jù fún:: Àwọn ìṣàmúlò-ètò àwọn ìtàn-àwọn-àgbèrò nípa ìṣàfarawé àwọn ìṣàmúlò-ètò àwọn ìtàn-àgbèrò

Àwọn ààyè-iṣẹ́ Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) ní módè́lì àwọn párítì̀tì bilíọnu 1 tí a ṣé fún ìṣàfihàn àwọn àkọlé àkọlé. O tí ṣé àwọn módè́lì àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn à

Alábòójútó::
Sesame

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Slow

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
8GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
4x

Àwọn Àkọlé Àwọn ààyè-iṣẹ́ ìtàn Ìjánu-ìṣàmúlò-ètò Àwọn ìṣàmúlò-ètò Àwọn ààtòjọ-ẹ̀yàn

Ó dara jù fún:: Àwọn awáròyìn AI, àwọn àkọlé, àwọn ìṣàmúlò-ètò AI ìgbàkọ

Àwọn ààyè-iṣẹ́ Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo tí Resemble AI ṣe ní ìṣàfihàn àwọn ààtòjútó 350M sí Chatterbox, tí o fi ààtòjútó lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́. Ò ǹfá àwọn àmì-ìwé paralinguistic bí [laugh], [cough], àti [chuckle] nípa àkọ́lé. Ò ní àwọn àmì-ìwé Perth nípa àwọn àwòrán gbogbò tí a tí kọ̀ nípa ìṣàfihàn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Resemble AI

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
2GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Latency tí ò kù jú 200ms lọ Àwọn Àmì-ìwé Paralinguistic 6x akoko gidi Ìṣàfarawé àwọn àmì-ìwé Àwọn àmì-ìwé

Ó dara jù fún:: Àwọn awáròyìn àwòrán, àwọn àwòrán àwọn ìṣàfarawe-ìrọ̀ nípa àwọn ìwọ̀n àìdálẹ̀

Àwọn ààyè-iṣẹ́ Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1.5 tí OpenBMB jẹ́ móòdù TTS tí kò ní àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn à

Alábòójútó::
OpenBMB

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn àmì-ìwé Kò ní àwọn àwọn àyọkà ìṣàfarawé Ìṣàfarawé àwọn ìtàn Àwọn Àkọlé LoRA fine-tuning

Ó dara jù fún:: Àwọn àkọlé àwọn àkọlé, àwọn àkọlé-ìwé-ìwé, àwọn àkọlé àwọn àkọlé

Àwọn ààyè-iṣẹ́ VoxCPM

Kani TTS 2

Free

Kani-TTS-2 nipasẹ NineNineSix jẹ awoṣe parameter 400M ti o ni iwuwo ina ti a ṣe lori backbone AI LFM2 ti o ni omi pẹlu NVIDIA NanoCodec. O n ṣiṣẹ ni 3GB VRAM nikan ati pe o ṣe ~10 sekondi ti ọrọ ni ~2 sekondi lori A100 (RTF 0.2). Iṣẹṣẹ ti o wa ni gbangba ti gbe ni English-kan `kani-tts-2-en` checkpoint ati pe ko fi ifihan han si isẹpo-iṣatunkọ-iṣatunkọ ti o nilo fun iṣilọ-isẹpo - lo Chatterbox / IndexTTS2 / F5-TTS fun iṣilọ, tabi Kokoro / MeloTTS fun ti kii ṣe English.

Alábòójútó::
NineNineSix

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
3GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

3GB VRAM Ójútó Àwọn àwọn àwọn àwọn àwọn àwọn NanoCodec Àìfẹ́

Ó dara jù fún:: Àwọn ìṣàfilọ́lẹ̀ ìtàn Ingẹ̀lì láti inú àwọn ìṣàfilọ́lẹ̀ VRAM tí o gàjú, àwọn ìṣàfilọ́lẹ̀ ìtàn

Àwọn ààyè-iṣẹ́ Kani TTS 2

OuteTTS

Free

OuteTTS n ṣàfihàn àwọn módè́lì ìraǹrọ̀ nlà láti inú àwọn ìpéwọ̀n àkọ́lé-si-ìbálẹ̀ nígbà tí o ǹpárá àwọn ààyè orílẹ̀. O ǹfàyé àwọn ààyè ìsàlẹ̀ àwọn ìṣàfihàn lọ́wọ́lọ́wọ́ àti àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
OuteAI

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
2GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

Àwọn àwọn àgbéwọlé Àwọn ìṣàmúlò-ètò ìṣàfihàn Ìṣàfarawé àwọn àmì-ìwé Àwọn ààyè-iṣẹ́ ìsàlẹ̀-ilà mìíràn Àwọn Àwọn Àwọn Àwọn Àkọlé

Ó dara jù fún:: Ìṣàfilọ́lẹ̀ Ègè, TTS ìdájú ìṣàfilọ́lẹ̀, àwọn ìwọ̀n àwọn ààyè-iṣẹ́ ìsàlẹ̀-ilà kéré

Àwọn ààyè-iṣẹ́ OuteTTS

VibeVoice

Standard

VibeVoice ti Microsoft ti wa ni àwọn ìṣàfarawé àwọn ìṣàmúlò-ètò meji: àwọn módè́lì 1.5B fún àwọn àkọlé àwọn ìṣàmúlò-ètò ìgbà (si 90 àwọn àkókò, 4 àwọn ìgbàgbọ́) àti àwọn módè́lì 0.5B Fún Ìgbá Ìṣàmúlò-ètò Ìṣàfilọ́lẹ̀ pẹlú àwọn àwọn àkọlé àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Alábòójútó::
Microsoft

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh

VRAM:
4GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn Àkọlé Àwọn ààyè-iṣẹ́ Àwọn àkọlé Àwọn àwọn ìṣàfarawé àwọn ìṣàfarawé 200ms Ìjánu-ìró

Ó dara jù fún:: Podíẹ̀tì, àwọn àkọlé àwòrán, àwọn àwọn àkọlé àwọn ìgbàlẹ̀-ìgbà

Àwọn ààyè-iṣẹ́ VibeVoice

Pocket TTS

Free

Pocket TTS láti Kyutai (àwọn ìṣàfilọ́lẹ̀ Moshi) ní módè́lì àkọ́lé-si-ìbàlẹ̀ àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn à

Alábòójútó::
Kyutai

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, fr

VRAM:
1GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

Àwọn ààtòjọ-ẹ̀yàn Àwọn àwọn àgbéwọlé Ìṣàfarawé àwọn àmì-ìwé Àwọn ààyè-iṣẹ́ ìṣàmúlò-ètò Àwọn Ìgúnrégé

Ó dara jù fún:: Ìṣàfilọ́lẹ̀ àìpẹ̀, àwọn ìwọ̀n CPU-kéré, ìṣàfarawé àwòrán láàyè-iṣẹ́

Àwọn ààyè-iṣẹ́ Pocket TTS

Kitten TTS

Free

Alábòójútó::
KittenML

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en

VRAM:
0GB

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

Ó dara jù fún:: Fast lightweight TTS, edge deployment, low-latency applications

Àwọn ààyè-iṣẹ́ Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

Alábòójútó::
Alibaba (FunAudioLLM)

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

Ó dara jù fún:: Multilingual production TTS, real-time applications, voice cloning

Àwọn ààyè-iṣẹ́ CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

Alábòójútó::
NAMAA Space

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
ar

VRAM:
6GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Arabic Arabic Ìṣàfarawé àwòrán-ìdáràn Ìṣakoso Ìfẹ́ Àwọn ìṣàfarawégbè

Ó dara jù fún:: Àwọn ohun ti a fi hàn ni Arabic fun àwọn onkọwe Saudi, ìwé-ìkọ́kọ́ MSA, àwọn agbẹjọro ọrọ̀ ti a sọ ni Khaleeji, awọn iwe orin Arabic

Àwọn ààyè-iṣẹ́ NAMAA Saudi TTS

Darwin TTS

Standard

Darwin-TTS-1.7B-Cross tí FINAL-Bench ṣe ní ìṣàfilọ́lẹ̀ ìwadiì tí Qwen3-TTS-1.7B níbí tí 84 talker-FFN tensors (8.6%) tí a tí pọ̀ ní a=3% láti inú àwọn tensors tí a tí pọ̀ nínú Qwen3-1.7B-Base. A tí kọ́ àwọn tí a tí kọ́ nípa ìṣàfilọ́lẹ̀ lẹ́tà nípa tí a kò bá jẹ́ pé a tí kọ́ nípa tí a bá fi pọ̀ nípa tí a bá fi pọ̀ nípa tí a bá fi pọ̀ nípa tí a bá fi pọ̀ nípa tí a bá fi pọ̀ nípa tí a bá fi pọ̀ nípa tí a bá fi pọ̀ nípa.

Alábòójútó::
FINAL-Bench

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, ko, ja, zh

VRAM:
7GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Ìṣàfarawé àwọn àmì-ìwé Àwọn Àwọn Àwọn Àwọn Àwọn FFN-Blended Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Qwen3 backbone

Ó dara jù fún:: Ìṣàfarawé àwọn ìtàn-àgbègbè laarin Àwọn Àkọsílẹ̀ Àwọn Àkọsílẹ̀ / Korean / Japanese / Chinese pẹlú àwọn ìtàn ìṣàfihàn kan

Àwọn ààyè-iṣẹ́ Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 lati OpenMOSS ní módè́lì àkọ́lé-si-ìbàlẹ̀ 7B tí ǹlọ́wọ́lẹ̀ àwọn àkọ́kọ́ láti inú àwọn àkọ́kọ́ àwọn àkọ́kọ́. Ò fọwọ́sì fún àwọn àkọ́kọ́ 5 tí wọ́n tí n gbọ́ nípa àwọn àmì-ìwé [S1]/[S2], ìṣàfarawé àwọn àwòrán tí a tí fi pamọ́ láti inú àwòrán ìṣàfihàn 3-10s, àti fún àwọn àwòrán tí a ti gbọ́ nípa àwọn ìtàn 20. Ò ní ìfaramọ́ láti inú MOSS-TTS — TTSD ní a tí ṣe àwọn iṣẹ́ ìṣàfilọ́lẹ̀/àkọ́kọ́/àkọ́kọ́.

Alábòójútó::
OpenMOSS

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh

VRAM:
12GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
2x

Àwọn àgbèkalẹ̀ àwọn ìgbàkọ́ Àwọn ìgbàkọ̀ójútó 60min coherent audio Ìṣàfarawé àwọn àmì-ìwé Àwọn ìṣàfilọ́lẹ̀ Podíẹ̀tì

Ó dara jù fún:: Podíẹ̀tì, àwọn àkọlé, àwọn àkọlé àwọn àkọlé, àwọn àkọlé àwọn àwòrán

Àwọn ààyè-iṣẹ́ MOSS-TTSD

Ming-Omni TTS

Free

Ming-omni-tts-0.5B nipasẹ inclusionAI jẹ awoṣe ọrọ omni-modali ti a ṣe ni BailingMM ti o ni irọra pẹlu dekoder orin ti o ni irọra ti o ni irọra. O pese iwọle 44.1kHz (ni ibiti o ti CD didara), ṣe atilẹyin ikojọpọ ọrọ-isẹ-ọkan lati itọkasi 3+ keji, ati pe o ni igbẹkẹle ninu ifẹ / ede / iṣakoso BGM nipasẹ awọn itọnisọna JSON. Iduroṣinṣin to dara - 0.83% WER lori awọn itọkasi Chinese.

Alábòójútó::
inclusionAI

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh

VRAM:
3GB

Àwọn Àmì-ìwé:
Yà

Àwọn àwọn àmì-ìwé 1K:
Àìfihàn

Àwọn Àtòjọ-ẹ̀yàn Ìṣàfarawé àwọn àmì-ìwé Ìṣakoso Ìfẹ́ Ìṣakoso Àwọn Àkọ́kọ́ Àwọn ìṣàfarawégbèsì BGM Ìgúnrégé 0.5B

Ó dara jù fún:: Ìṣàfihàn àwọn ìtàn mejì tí a fi hàn, àwọn àwòrán àwọn àwòrán, àwọn àkọlé àwọn àkọlé Chinese

Àwọn ààyè-iṣẹ́ Ming-Omni TTS

Kokoro

Àìfihàn

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Alábòójútó::
Hexgrad

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en, ja, zh, fr, it, pt, es, hi

Ó dara jù fún:: High-quality TTS with minimal latency, streaming applications

Wá

Piper

Àìfihàn

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Alábòójútó::
Rhasspy

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

Ó dara jù fún:: Quick previews, accessibility, and embedded applications

Wá

VITS

Àìfihàn

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Alábòójútó::
Jaehyeon Kim et al.

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

Ó dara jù fún:: General-purpose text-to-speech with natural prosody

Wá

MeloTTS

Àìfihàn

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Alábòójútó::
MyShell.ai

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en, es, fr, zh, ja, ko

Ó dara jù fún:: Production applications needing fast, multilingual TTS

Wá

Kani TTS 2

Àìfihàn

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

Alábòójútó::
NineNineSix

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en

Ó dara jù fún:: Fast English generation on low-VRAM hardware, quick previews

Wá

OuteTTS

Àìfihàn

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Alábòójútó::
OuteAI

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en

Ó dara jù fún:: Edge deployment, browser-based TTS, low-resource environments

Wá

Pocket TTS

Àìfihàn

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

Alábòójútó::
Kyutai

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en, fr

Ó dara jù fún:: Lightweight deployment, CPU-only environments, quick voice cloning

Wá

Kitten TTS

Àìfihàn

Alábòójútó::
KittenML

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en

Ó dara jù fún:: Fast lightweight TTS, edge deployment, low-latency applications

Wá

Ming-Omni TTS

Àìfihàn

Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.

Alábòójútó::
inclusionAI

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà: en, zh

Ó dara jù fún:: High-fidelity bilingual narration, emotion-controlled voice acting, Chinese audiobook content

Wá

Bark

Àwọn ìkúndùǹ

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

Alábòójútó::
Suno

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Slow

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

Àwọn Àmì-ìwé:
Àwọn ààyè-iṣẹ́

Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual

Ó dara jù fún:: Creative audio content, audiobooks with emotion, sound effects

Àwọn ààyè-iṣẹ́ Bark

Àwọn ìkúndùǹ

Alábòójútó::
Alibaba (FunAudioLLM)

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Fast

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, zh, ja, ko, de, es, fr, it, ru

Àwọn Àmì-ìwé:
Yà

Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following

Ó dara jù fún:: Multilingual production TTS, real-time applications, voice cloning

Àwọn ààyè-iṣẹ́ CosyVoice3

NAMAA Saudi TTS

Àwọn ìkúndùǹ

Alábòójútó::
NAMAA Space

Àwọn Àmì-ìwé::
MIT

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
ar

Àwọn Àmì-ìwé:
Yà

Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation

Ó dara jù fún:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

Àwọn ààyè-iṣẹ́ NAMAA Saudi TTS

Darwin TTS

Àwọn ìkúndùǹ

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

Alábòójútó::
FINAL-Bench

Àwọn Àmì-ìwé::
Apache 2.0

Ìjánu-ìsún:
Medium

Ìgúnrégé::

Àwọn ìrísí-lẹ́tà:
en, ko, ja, zh

Àwọn Àmì-ìwé:
Yà

Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone

Ó dara jù fún:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice

Àwọn ìṣàmúlò-ètò	Alábòójútó:	Àwọn àwọn ààyè-iṣẹ́	Ìjánu-ìsún	Àwọn ìrísí-lẹ́tà	VRAM	Àwọn Àmì-ìwé:	Àwọn Irinṣẹ́
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	Àìfihàn	Lo
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	Àìfihàn	Lo
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	Àìfihàn	Lo
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Àìfihàn	Lo
Bark	Suno	Standard	Slow	13	5GB	MIT	2	Lo
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Lo
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Lo
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Lo
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Lo
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	Lo
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Lo
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Lo
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	Lo
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Lo
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Lo
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	Lo
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Lo
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	Lo
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Lo
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	Lo
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	Lo
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	Lo
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	Àìfihàn	Lo
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Àìfihàn	Lo
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	Lo
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Àìfihàn	Lo
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Àìfihàn	Lo
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	Lo
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	Lo
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	Lo
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	Lo
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	Àìfihàn	Lo

Àwọn Àkọlé Àwọn Àkọlé

Kini idi ti o fi yan TTS.ai fun ọrọ si ọrọ?

TTS.ai n ṣàpọ̀lú àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Every model is open source under MIT, Apache 2.0, or similar permissive licenses, ensuring you have full commercial rights to use the generated audio in your projects. Whether you need fast, lightweight synthesis for real-time applications or premium studio-quality output for audiobooks and podcasts, TTS.ai has the right model for every use case.

Free Models, No Account Required

Ṣẹ̀dà ní pàtó àwọn móòdù TTS mẹ́tà tí a fi pamọ́: Piper (ìjádé, àìdárá), VITS (ìjádárá tí a fi pamọ́), àti MeloTTS (ìdárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárárá

Ìṣàmúlò-ètò GPU-Àkókó

Gbogbo àwọn móòdù TTS náà lo ní pàtó NVIDIA GPUs fún àwọn àkókó tí a fi hàn. Móòdù àìfẹ́ nígbà kan gbọ́ọ̀kan nínú àwọn ìsàlẹ̀-ilà 2. Móòdù àìṣe bí Kokoro, CosyVoice 2, àti Bark ní aago 3-5 àwọn ìsàlẹ̀-ilà. Móòdù àìpàlẹ̀ nínú àwọn ìsàlẹ̀-ilà tí a fi hàn, bí Tortoise àti Chatterbox, lò nínú àwọn ìsàlẹ̀-ilà 5-15 àwọn ìsàlẹ̀-ilà tí a dájú ìgbà ìròyìn àwọn àkọ́lé.

Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn

Ṣẹ̀dà àwọn àkọlé nínú àwọn ìtàn 30 tí a fi pamọ́, àti àwọn ìtàn Ingẹ̀lì, Àwọn ìtàn Espãnì, Àwọn ìtàn Fẹ́rẹ̀sì, Àwọn ìtàn Jẹ́mánì, Àwọn ìtàn Italiani, Àwọn ìtàn Pẹ́tìgì, Àwọn ìtàn Chinese, Àwọn ìtàn Japanese, Àwọn ìtàn Korean, Àwọn ìtàn Arabic, Àwọn ìtàn Hindi, Àwọn ìtàn Russian, àti àwọn ìtàn mìíràn. Àwọn módè́lì mìíràn gbọ́dọ̀ kọ̀ọ̀kan gbọ́dọ̀, móòdù tí o lè ṣẹ̀dà àwọn àkọlé nínú ìtàn tí àwòrán tí a kò kọ̀ọ̀kan kọ̀ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan kọ

Àwọn Ìṣàmúlò-ètò

Integrate TTS.ai into your applications with our OpenAI-compatible REST API. One endpoint for all 20+ models. Python, JavaScript, cURL, and Go SDKs. Streaming support for real-time applications. Batch processing for large-scale content generation. Webhooks for async notifications. API access included on every plan including free.

Àwọn Àtòjọ-ẹ̀yàn

Àkọlé láti inú àkọlé (TTS) ní imọ-ẹrọ AI tí n yipada àwọn àkọlé tí a kọ̀ nínú àwòrán tí a sọ̀rọ̀. Àwọn ìṣàmúlò-ètò TTS neural tuntun bí Kokoro, Chatterbox, àti CosyVoice 2 ló kọ̀ọ̀kan láti mú àwọn àkọlé láti inú àwòrán tí a sọ̀rọ̀ nínú àwòrán tí a sọ̀rọ̀.

O dájú àwọn ìrànwọ́ rẹ̀. Fún àwọn ìṣàwòyé ìsàlẹ̀-ilà ìsàlẹ̀-ilà, lo Piper tàbí MeloTTS (ọ̀fẹ̀, rọ́ọ̀nù). Fún ìdárànwọ́ giga, lo Kokoro tàbí CosyVoice 2 (àwọn ìṣàlàyé). Fún ìṣàfarawé àwọn àmì-ìwé, lo Chatterbox tàbí GPT-SoVITS (àwọn ìṣàlàyé). Fún àwọn àkọlé àkọlé/podcast, lo Dia TTS. Módélù kọ̀ọ̀kan ní àwọn ìpéwọ̀n tí a yatọ̀ - wòyé láti wá àwọn ìṣàlàyé tí o dara jù lọ.

Ya! TTS.ai nfun àwọn àkọlé àìbálẹ̀ láti inú àwọn àwòrán Kokoro, Piper, VITS, atí MeloTTS. Kò ní kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan. Kò ní kọ́ọ̀kan kọ́ọ̀kan kọ́ọ̀kan.

Awọn awoṣe TTS wa ni ifowosowopo ṣe atilẹyin awọn ede 30+ pẹlu English, Spanish, French, German, Italian, Portuguese, Chinese, Japanese, Korean, Arabic, Russian, Hindi, ati diẹ sii. Aṣayan ede yatọ si da lori awoṣe.

Yes, audio generated through TTS.ai can be used commercially. All our models use open-source licenses (MIT, Apache 2.0). Check individual model licenses for specific terms. We recommend reviewing the license of the specific model you use for your project.

TTS.ai ǹfàyè gba àwọn ìrísí-lẹ́tà MP3, WAV, OGG, àti FLAC. MP3 ní ìpéwọ̀n fún ìṣàfihàn wẹ́ẹ̀bù. WAV ní àwọn ìṣàfihàn àwọn ìṣàmúlò-ètò ìranlọwọ. O lè yipada láti inú àwọn ìrísí-lẹ́tà láti ló àtòjọ àwọn ìrísí-lẹ́tà àwọn ìṣàfihàn wa.

Ìṣàfarawe-ìrọ̀ ló sọ́rọ̀lú AI láti ṣẹ́dá ìròyìn ìròyìn kan láti inú àwọn ààyè-iṣẹ́ ìṣàmúlò-ètò ìṣàmúlò-ètò àpẹẹrẹ àwọn àwòrán (bí a tí n ṣe ní 5-30 sekúǹdù). Fi àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn à

Free users can generate up to 500 characters per request. Registered users get up to 5,000 characters per request. For longer texts, the audio is generated in chunks and stitched together automatically. API users can process up to 10,000 characters per request.

Àwọn ìṣàfihàn SSML (Speech Synthesis Markup Language) tí a fi yatọ̀ sí àwọn móòdù. Piper àti àwọn móòdù mìíràn mìíràn mìíràn mìíràn mìíràn tun ń gbọ́ àwọn àmì-ìwé SSML ìṣàfihàn fún àwọn ìpàsẹ̀, ìṣàfihàn, àti ìṣàfihàn. Fún àwọn móòdù tí kò ní ìṣàfihàn SSML tí a fi yatọ̀, o lè lò àwọn àwọn ìṣàfihàn àwọn àwọn ìpàsẹ̀ àwọn ààyè-ìwé láti mú àwọn àwọn àwọn ààyè-ìwé pọ̀.

Òyà, àwọn móòdù àwọn púpọ̀ jú ń gba ìṣàmúlò-ètò ìráwọ̀n ìráwọ̀n láti 0.5x sí 2.0x. Móòdù àwọn púpọ̀ bíi Bákì àti Parler̀ ń gba ìṣàmúlò-ètò ìṣàfarawé àwọn ìṣàmúlò-ètò ìṣàfarawé àwọn ìṣàfihàn ìṣàfihàn àti ìṣàfihàn àwọn ìṣàfihàn API.

Yes, batch processing is available through our API. You can submit multiple text segments in a single API call or script, and each will be processed and returned as separate audio files. This is ideal for audiobook chapters, e-learning modules, or game dialogue scripts.

Ṣẹ̀dá bọ́tìnì API láti inú dáṣíbọ̀ kọ̀ǹpútà kọ̀ǹpútà rẹ̀, ki o si fi àwọn ibeere POST pamọ́ sí ààyè-iṣẹ́ API REST wà láti inú àyọkà rẹ̀, àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò, àti àwọn ìṣàmúlò-ètò àwòrán. A fi àwọn ìṣàmúlò-ètò kọ́dì pamọ́ láti inú Python, JavaScript, àti cURL. API náà jẹ́ OpenAI-ọ̀fẹ̀, láti jẹ́ pé àwọn ìṣàmúlò-ètò tí wa nínú lórí àwọn ìyipadà kékeré.

5.0/5 (4)

Ṣí Ìjánu-ìṣàmúlò-ètò

Join thousands of creators using TTS.ai. Get 15,000 free characters with a new account. Free models available without signup.

Ṣàfihàn Wó Àwọn Ìtàn

Àkọlé àtòjọ-ẹ̀yàn

O fẹ́ TTS.ai? Fì sọ̀kalẹ̀ fún àwọn ọrẹ̀ rẹ̀!

Àwọn Àtòjọ-ẹ̀yàn

Kitten TTS

Àwọn Àlàyé fún Àwọn Àtòjọ-ẹ̀yàn

Ìlò Àwọn Àwòrán

Bií a ṣe lè ló àkọ́lé AI láti jẹ́ ìṣàfarawé

Fi àkọlé rẹ̀ sípò

Yan àwọn àwòrán

Ṣẹ̀dà & Àkọsílẹ̀

Àwọn Àwọn Ìṣàmúlò-ètò Àkọ́kọ́

Àwọn àkọlé

Àwọn Àmì-ìwé Àwòrán

Àwọn Pódíẹ̀tì

Àwọn Ìṣàmúlò-ètò

Àwọn Ìṣàmúlò-ètò

Àwọn ìṣàfihàn

Àwọn Ìṣàmúlò-ètò Fẹ́ẹ̀lì

Àwọn Àkọsílẹ̀ Àwọn Àkọsílẹ̀

Ìjánu-ìṣàmúlò-ètò

Ìjánu-ìfún

Àwọn àwọn ààyè-iṣẹ́

Ìṣàfilọ́lẹ̀ & & Ìṣàfilọ́lẹ̀

Àwọn àwọn àwòrán àwọn àwòrán

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3