Report Bug / Feature Request

AI පෙළ සිට කථාවName

විවෘත මූලාශ්රය AI ආකෘති සමඟ ස්වභාවික ශබ්ද කථනය පෙළ පරිවර්තනය. භාවිතා කිරීමට නිදහස්, ගිණුමක් අවශ්ය නැත.

නොමිලේ ලියාපදිංචි

අපි තවම ඔබේ භාෂාවෙන් TTS හඬක් නැහැ. අපිට උදව් කරන්න ඔබගේ එක එකතු කරන්න! ඔබේ හඬ විකුණන්න

0/500 අකුරු · Sign up for 5,000 per generation →

ලියාපදිංචි වන්න 5,000 අක්ෂර සීමා

SSML ක්‍රමය (හොඳින් පාලනය සඳහා කථා සංස්ලේෂණය මාකප් භාෂාව)

නිවැරදි පාලනය සඳහා SSML ටැග් ඔබේ පෙළ ආවරණය:

<speak><prosody rate="slow">Slow speech</prosody></speak>

හැඟීම් / ශෛලිය

බෙදා හැරීම බලපෑම් කිරීමට හැඟීම් සලකුණු එකතු (ආකෘතිය සහාය වෙනස්):

උච්චාරණ ශබ්දකෝෂය

අභිරුචි උච්චාරණය අර්ථ දක්වන්න (වචනය = උච්චාරණය):

පීච් 0

-12 +12

AI ආකෘතිය

හඬ

භාෂාව

ප්‍රථිධාන සංයුතිය

වේගය 1.0x

0.5x 2.0x

Piper, VITS, MeloTTS සමඟ නිදහස්

ඔබේ ජනනය ශ්රව්ය මෙහි පෙනෙනු ඇත. ආකෘතිය තෝරන්න, පෙළ ඇතුලත්, හා ජනනය ක්ලික් කරන්න.

ආකෘති විස්තර

Bark Small

Standard

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

සංවර්‍ධක:	Suno
බලපත්‍රය:	MIT
වේගය	Medium
තත්ත්ව:
භාෂා	13 භාෂා
VRAM	2GB
හඬ ක්ලෝන කිරීම	සහාය නොදක්වයි

විශේෂාංග:

Lightweight Faster than full Bark Emotional speech Multilingual

සඳහා හොඳම:: Quick creative audio when full Bark is too slow

වඩා හොඳ ප්රතිඵල සඳහා ඉඟි

ස්වභාවික විරාම හා කටහඬ සඳහා සුදුසු විරාම ලකුණු භාවිතා කරන්න
පැහැදිලි උච්චාරණය සඳහා අංක සහ කෙටි නාම අකුරු කරන්න
වාක්‍ය ඛණ්ඩ අතර කෙටි විරාම සෑදීමට කොමාව එක් කරන්න
දිගු නාට්‍යමය විරාම සඳහා එලිප්සි භාවිතා කරන්න (...)
බොහෝ ස්වාභාවික ප්රතිඵල සඳහා Kokoro හෝ CosyVoice උත්සාහ කරන්න2
බහු- කථික සංවාදය සහ පොඩ්කාස්ට් අන්තර්ගතය සඳහා Dia භාවිතා කරන්න

ණය පිරිවැය

සත්ත්වයා	1K අකුරු සඳහා පිරිවැය
නිදහස්	0 ණය (සීමා රහිත)
සම්මත	2 ණය / 1K අක්ෂර
ප්‍රමිතිය	4 ණය / 1K අක්ෂර

තවත් අකුරු ලබාගන්න

AI පෙළ කථාව වැඩ කරන්නේ කෙසේද

සරල පියවර තුනක් වෘත්තීය-ගුණාත්මක voiceovers ජනනය. තාක්ෂණික දැනුම අවශ්ය නැත.

පියවර 1

ඔබේ පෙළ ඇතුළත් කරන්න

වර්ගය, ඇලවීම, හෝ ඔබ කතා කිරීමට පරිවර්තනය කිරීමට අවශ්ය පෙළ උඩුගත. දක්වා සහාය 5,000 පිවිසුණු පරිශීලකයන් සඳහා පරම්පරාවකට අක්ෂර. සරල පෙළ භාවිතා හෝ උච්චාරණය උසස් පාලනය සඳහා SSML ටැග් එකතු, විරාම, සහ අවධාරණය.

පියවර 2

ආකෘතිය සහ හඬ තෝරන්න

20+ AI ආකෘති ස්ථර තුනක් හරහා තෝරන්න. ඔබේ අන්තර්ගතය ගැලපෙන හඬක් තෝරන්න, ඔබේ ඉලක්ක භාෂාව තෝරන්න, 0.5x සිට 2.0x දක්වා ප් රචාරක වේගය සකසන්න, සහ ඔබේ ප් රියතම ප්රතිදානය ආකෘතිය තෝරන්න (MP3, WAV, OGG, හෝ FLAC).

පියවර 3

ජනනය කරන්න (B)

ක්ලික් කරන්න ජනනය සහ ඔබේ ශ්රව්ය තත්පර තුළ සූදානම්. තනන ලද ක්රීඩකයා සමග පූර්ව දර්ශනය, ඔබේ තෝරාගත් ආකෘතිය බාගත, හෝ shareable සබැඳියක් පිටපත්. ඔබේ වැඩ ප්රවාහයට කණ්ඩායම් සැකසීම සහ ඒකාබද්ධ කිරීම සඳහා API භාවිතා කරන්න.

කටහඬ පෙළ භාවිතය නඩු

AI-powered text-to-speech කර්මාන්ත දස දහස් ගණනක් හරහා මිනිසුන් නිර්මාණය, පරිභෝජනය, සහ ශ්‍රව්‍ය අන්තර්ගතය සමඟ අන්තර් ක්රියා කරන ආකාරය පරිවර්තනය කරයි.

ශ්‍රව්‍ය පොත්

සම්පූර්ණ පොත් ස්වභාවික-ශබ්ද ශ්රව්ය පොත් ස්ටූඩියෝ-ගුණාත්මක කථා සමග පරිවර්තනය. චරිත සංවාදය සඳහා Dia සමග බහු-කථික සහාය.

වීඩියෝ කටහඬ

YouTube, TikTok, Instagram Reels සහ Shorts සඳහා වෘත්තීය හඬකැවීම් නිර්මාණය කරන්න. 100+ හඬ හෝ ඔබේම ක්ලෝන් කරන්න.

පොඩ්කාස්ට්

බහු AI හඬවල් සමග ස්ක්රිප්ට් සිට පොඩ්කාස්ට් වැඩසටහන් ජනනය කරන්න. ස්වභාවික දෙකක් කථානායක සංවාද සඳහා Dia භාවිතා කරන්න.

ක්‍රීඩාName

ඉන්දීය ක්රීඩා සඳහා AI හඬ ක්රියා, දෘශ්ය නවකතා, සහ අන්තර්ක්රියාකාරී චිත්රපට. NPC සංවාදය, cutscene හඬ, 30 + භාෂා.

ඉලෙක්ට්‍රොනික ඉගෙනුම්

පාඨමාලා ද්රව්ය පරිවර්තනය, දේශන, සහ ශ්රව්ය පුහුණු අන්තර්ගතය. ගෝලීය වේදිකා සඳහා බහු-භාෂා සහාය.

පිවිසීම

වෙබ් අඩවි කරන්න, ලේඛන, සහ යෙදුම් ප්රවේශ විය හැක. තිරය කියවන්නා API ඒකාබද්ධ හා ලිපිය ශ්රව්ය පරිවර්තනය.

IVR සහ දුරකථන පද්ධති

ස්වාභාවික AI හඬ සමඟ බලය IVR පද්ධති, දුරකථන මෙනු සහ පාරිභෝගික සේවා. ඇමතුම් මධ්යස්ථාන සඳහා අඩු ප්රමාද ශ්රව්ය.

සමාජ මාධ්ය

ටික් ටොක් කථා, ඉන්ස්ටග්රෑම් රීල්ස්, ට්විටර් / X විචාර, යූ ටියුබ් කෙටි. නිදහස් ආකෘති සමඟ ඉක්මන් ජනනය.

ප්‍රවාහය

ට්විච් TTS අනතුරු ඇඟවීම්, හඬ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-

අලෙවිකරණ

දැන්වීම් voiceovers, විස්තර වීඩියෝ, නිෂ්පාදන දර්ශන, සහ අලෙවි ඉදිරිපත් කිරීම්. ව්යාපාර හරහා ශ්රව්ය අන්තර්ගතය නිෂ්පාදනය පරිමාණය.

පිටපත් කිරීම සහ ප්‍රාදේශීයකරණයName

හඬ-ගැලපෙන AI සමඟ 30+ භාෂා වලට වීඩියෝ පරිවර්තනය සහ ඩබ්. ස්වයං-පරිවර්තනය සහ කථානායක හඳුනා ගැනීම.

භාවනා & යහපැවැත්ම

භාවනා, නින්ද කතා, හුස්ම අභ්‍යාස, සහ සන්සුන් සමග ස්ථිර කිරීම්, සන්සුන් AI හඬවල්.

සියළුම නඩු සහ මෙවලම් භාවිතා කරන්න

සියලු පෙළ සිට කථාව ආකෘති

TTS.ai මත ලබා ගත හැකි සෑම AI ආකෘතිය සඳහා සවිස්තරාත්මක පිරිවිතර. ඔබේ ව්යාපෘතිය සඳහා පරිපූර්ණ ආකෘතිය සොයා ගුණාත්මක, වේගය, භාෂා සහාය, සහ ලක්ෂණ සංසන්දනය.

Kokoro

Free

Kokoro යනු එහි බර පන්තියට වඩා හොඳින් පීඩනය කරන 82 මිලියන පරාමිතික පෙළ-කථා ආකෘතියකි. එහි කුඩා ප් රමාණයට පටහැනිව, එය විශිෂ්ට ස්වාභාවික හා ප් රකාශාත්මක කථාව නිපදවයි. Kokoro ඉංග් රීසි, ජපන්, චීන, සහ කොරියානු ඇතුළු විවිධ භාෂා සඳහා සහාය දක්වයි. එය අතිශයින් වේගවත්ව ක් රියාත්මක වේ - GPU මත සැබෑ කාලයට වඩා 100x වේගයෙන් ශ් රව් ය ජනනය කරයි.

සංවර්‍ධක::
Hexgrad

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, ja, zh, fr, it, pt, es

VRAM:
1.5GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

82M පරාමිතීන් අති- වේගවත් ප්‍රකාශිත හඬ බහුභාෂා විකාශන සහාය

සඳහා හොඳම:: අවම ප්රමාදයක් සහිත උසස් තත්ත්වයේ TTS, ප්රවාහ යෙදුම්

උත්සහ කරන්න Kokoro

Piper

Free

Piper යනු VITS සහ larynx ගෘහ නිර්මාණ ශිල්ප භාවිතා කරන Rhasspy විසින් සංවර්ධනය කරන ලද සැහැල්ලු පෙළ-කථා එන්ජිමකි. එය සම්පූර්ණයෙන්ම CPU මත ධාවනය වන අතර, එය අගල් උපාංග, ගෘහ ස්වයංක් රීයකරණ සහ ඔෆ්ලයින් TTS අවශ් ය වන යෙදුම් සඳහා පරිපූර්ණ කරයි. 30+ භාෂා හරහා 100 හඬවල් කට වඩා වැඩි, Piper රාස්ප්බෙරි පයි මත පවා තත්පරයට ස්වභාවික හඬක් ඇති කථාව ලබා දෙයි4.

සංවර්‍ධක::
Rhasspy

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

CPU- හිතකාමී නොබැඳි හැකියාව 100+ හඬ 30+ භාෂා SSML සහාය

සඳහා හොඳම:: ඉක්මන් පූර්‍වදසුන, පිවිසුම් හැකියාව, සහ තිළැලි යෙදුම්Name

උත්සහ කරන්න Piper

VITS

Free

VITS (අවසන්-අවසන් පෙළ-කථාව සඳහා විරුද්ධාභාස ඉගෙනීම සමග විචලනය උපකල්පනය) වත්මන් අදියර දෙකක් ආකෘති වඩා ස්වභාවික ශබ්ද ශ්රව්ය ජනනය කරන සමාන්තර අවසන්-අවසන් TTS ක්රමයකි. එය ස්වභාවිකත්වය සැලකිය යුතු දියුණුවක් ලබා ගැනීම සඳහා, සාමාන්යකරණය ප්රවාහයන් හා විරුද්ධාභාස පුහුණු ක්රියාවලිය සමග වැඩි දියුණු කරන ලද විචලනය උපකල්පනය අනුගමනය කරයි.

සංවර්‍ධක::
Jaehyeon Kim et al.

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

VRAM:
1GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

අවසානයේ සිට අවසානය දක්වා සංස්ලේෂණය ස්වභාවික ව්‍යංජනාක්ෂර වේගවත් නිගමනය බහු කථාකරන්නන්

සඳහා හොඳම:: ස්වභාවික කටහඬ සහිත පොදු අරමුණු පෙළ- සිට- කථාවName

උත්සහ කරන්න VITS

MeloTTS

Free

MyShell.ai විසින් MeloTTS ඉංග්රීසි සහාය බහුභාෂා TTS පුස්තකාලයක් (ඇමරිකානු, බ්‍රිතාන්‍ය, ඉන්දියානු, ඕස්ට් රේලියානු), ස්පාඤ්ඤ, ප්රංශ, චීන, ජපන්, සහ කොරියානු. එය ඉතා වේගවත්, CPU පමණක් මත සමීප තත්කාලීන වේගයෙන් පෙළ සැකසීම. MeloTTS නිෂ්පාදනය භාවිතා කිරීම සඳහා නිර්මාණය කර ඇති අතර CPU සහ GPU නිගමනය දෙකම සහාය.

සංවර්‍ධක::
MyShell.ai

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

CPU- උපරිමකරණය බහුභාෂා බහු වචන නිෂ්පාදනය-සූදානම් අඩු ප්‍රමාදයක්

සඳහා හොඳම:: වේගවත්, බහුභාෂා TTS අවශ්ය නිෂ්පාදන යෙදුම්

උත්සහ කරන්න MeloTTS

Bark

Standard

සුනෝ විසින් බර්ක් ඉතා යථාර්ථවාදී, බහුභාෂා කථාව මෙන්ම සංගීතය වැනි වෙනත් ශ්රව්ය උත්පාදනය කළ හැකි පරිවර්තක-පාදක පෙළ-සංගීතය ආකෘතිය, පසුබිම් ශබ්දය, හා ශබ්ද බලපෑම්. එය සිනහව, සිනා, හා හඬමින් වැනි වචන නොවන සන්නිවේදන නිෂ්පාදනය කළ හැකිය. බර්ක් 100 කථානායක පෙර සැකසුම් සහ 13+ භාෂා කට වඩා සහාය.

සංවර්‍ධක::
Suno

බලපත්‍රය::
MIT

වේගය:
Slow

තත්ත්ව::

භාෂා:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

ශබ්ද සැරසිලි හිනාවෙනවා/සුසුම් හෙලනවා සංගීතය ජනනය කථානායකයන් 100+ බහුභාෂා

සඳහා හොඳම:: නිර්මාණාත්මක ශ්රව්ය අන්තර්ගතය, හැඟීම් සමග ශ්රව්ය පොත්, ශබ්ද බලපෑම්

උත්සහ කරන්න Bark

Bark Small

Standard

බර්ක් කුඩා සැලකිය යුතු ලෙස වේගවත් නිගමනය වේග හා අඩු මතක අවශ්යතා සඳහා සමහර ශ්රව්ය ගුණාත්මක වෙළඳාම් කරන බර්ක් ආකෘතිය ඩිස්ටිල්ඩ් අනුවාදය වේ. එය හැඟීම් සමග කථාව ජනනය කිරීමට බර්ක්ගේ හැකියාව පවත්වා, හිනාව, සහ බහු භාෂා.

සංවර්‍ධක::
Suno

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

සැහැල්ලු සම්පූර්ණ බර්ක් වඩා වේගවත් චිත්තවේගීය කථාව බහුභාෂා

සඳහා හොඳම:: සම්පූර්ණ බර්ක් ඉතා මන්දගාමී විට ඉක්මන් නිර්මාණශීලී ශ්රව්ය

උත්සහ කරන්න Bark Small

CosyVoice 2

Standard

ඇලිබාබාගේ ටොන්ජි රසායනාගාරය විසින් CosyVoice2අතිශයින්ම අඩු ප්රමාදයක් සහිත මිනිස්-සමාන කථා ගුණාත්මකභාවය ලබා ගනී, එය තත්කාලීන යෙදුම් සඳහා කදිම කරයි. එය ප්රවාහ සංස්ලේෂණය සඳහා සීමිත ස්කෑලර් ක්වොන්ටම් ප්රවේශයක් භාවිතා කරන අතර ශූරතාවයේ හඬ ක්ලෝන කිරීම, හුවමාරු භාෂා සංස්ලේෂණය සහ සිහින් හැඟීම් පාලනයට සහාය දක්වයි. එය මනෝවිද් යාත්මක ඇගයීම්වල බොහෝ වාණිජ TTS පද්ධතිවලට වඩා හොඳින් ඉටු කරයි.

සංවර්‍ධක::
Alibaba (Tongyi Lab)

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

ශ්‍රිතය ශුන්‍ය-ෂොට් ක්ලෝන කිරීම අන්තර් භාෂාName හැඟීම් පාලනය මිනිස්-සමානතාව

සඳහා හොඳම:: තත්කාලීන යෙදුම්, ට් ටී ටී එස්, හඬ සහායකයින්

උත්සහ කරන්න CosyVoice 2

Dia TTS

Standard

Nari Labs විසින් ඩය 1.6B පරාමිතීන් පෙළ-කථාව ආකෘතිය විශේෂයෙන් බහු කථික සංවාදයක් ජනනය කිරීම සඳහා නිර්මාණය කර ඇත. එය සුදුසු ආපසු ගැනීම, prosody, හා හැඟීම් ප්රකාශ සමග කථිකයන් දෙදෙනෙකු අතර ස්වභාවික-ශබ්ද සංවාද නිෂ්පාදනය කළ හැකිය. ඩය පොඩ්කාස්ට්-ශෛලිය අන්තර්ගතය නිර්මාණය කිරීම සඳහා පරිපූර්ණ වේ, ශ්රව්ය පොත් සංවාද, සහ අන්තර්ක්රියාකාරී සංවාදාත්මක AI.

සංවර්‍ධක::
Nari Labs

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

බහු- කථානායක සංවාද ජනනය ස්වභාවිකව හැරෙමින් හැඟීම් ප්‍රකාශනය 1.6B පරාමිතීන්

සඳහා හොඳම:: පොඩ්කාස්ට්, ශ්රව්ය පොත් සංවාද, සංවාදාත්මක අන්තර්ගතය

උත්සහ කරන්න Dia TTS

Parler TTS

Standard

Parler TTS ජනනය කරන ලද කථාව පාලනය කිරීමට ස්වභාවික භාෂාව හඬ විස්තරය භාවිතා කරන පෙළ-කථාව ආකෘතිය වේ. පෙර සකස් හඬ තෝරා වෙනුවට, ඔබ අවශ්ය හඬ විස්තර (උදා, "සුළු බ්‍රිතාන්‍ය උච්චාරණය සමග උණුසුම් කාන්තා හඬ, හෙමින් හා පැහැදිලිව කතා") හා Parler එම විස්තරය ගැලපෙන කථාව ජනනය. මෙම නිර්මාණාත්මක යෙදුම් සඳහා එය සුවිශේෂී නම්යශීලී කරයි.

සංවර්‍ධක::
Hugging Face

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

හඬ විස්තරය ස්වභාවික භාෂා පාලනය නම්යශීලී හඬ නිර්මාණය පෙර සැකසූ හඬක් අවශ්‍ය නොවේ

සඳහා හොඳම:: ඔබට අභිරුචි හඬ ලක්ෂණ අවශ්ය වන නිර්මාණශීලී යෙදුම්

උත්සහ කරන්න Parler TTS

GLM-TTS

Standard

Zhipu AI විසින් GLM-TTS යනු ප් රවාහය ගැලපීම සමඟ ලාමා ගෘහ නිර්මාණ ශිල්පය මත ඉදි කරන ලද පෙළ-කථා පද්ධතියකි. එය විවෘත මූලාශ් රය TTS ආකෘති අතර අඩුම අක්ෂර දෝෂ අනුපාතය ලබා ගනී, එය වඩාත් නිවැරදි උච්චාරණය නිපදවයි යන්නයි. GLM-TTS 3-10 තත්පර ශ් රව් ය සාම්පල වලින් හඬ ක්ලෝන කිරීම සමඟ ඉංග් රීසි සහ චීන සහාය දක්වයි.

සංවර්‍ධක::
Zhipu AI

බලපත්‍රය::
GLM-4 License

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

අඩුම දෝෂ අනුපාතය හඬ ක්ලෝන කිරීම ගලා යාම ගැලපීම ස්වභාවික ව්‍යංජනාක්ෂර

සඳහා හොඳම:: උපරිම උච්චාරණ නිරවද්‍යතාව අවශ්‍ය යෙදුම්Name

උත්සහ කරන්න GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 යනු රසවත් හැඟීම් පාලනයක් සහිත ශුන්‍ය-ෂොට් හඬ සංස්ලේෂණයේ විශිෂ්ටත්වයක් ඇති උසස් පෙළ-කථා පද්ධතියකි. එය හැඟීම්-විශේෂී පුහුණු දත්ත අවශ් ය නොවන අතර සතුට, දුක, තරහ, හෝ බිය වැනි විශේෂිත හැඟීම් ස්වරූපයෙන් කතා කළ හැකිය. ආකෘතිය නිශ්චිතව ජනනය කරන ලද කථාවේ හැඟීම් ප්රකාශනය පාලනය කිරීම සඳහා හැඟීම් දෛශික භාවිතා කරයි.

සංවර්‍ධක::
Index Team

බලපත්‍රය::
Bilibili Model License

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

හැඟීම් පාලනය ශූන්‍ය-ෂොට් හැඟීම් දෛශික නිරූපණාත්මක කථාව කුඩා ධාන්ය පාලන

සඳහා හොඳම:: මානසිකව ප්රකාශාත්මක අන්තර්ගතය, ශ්රව්ය පොත්, අතථ්ය සහායකයින්

උත්සහ කරන්න IndexTTS-2

Spark TTS

Standard

SparkAudio විසින් Spark TTS පාලනය කළ හැකි හැඟීම් සහ කතා කිරීමේ ශෛලිය සමඟ හඬ ක්ලෝන කිරීම ඒකාබද්ධ කරන පෙළ-කථා ආකෘතියකි. හුදෙක් භාවිතා කරමින්5සඳහන ශ්රව්ය තත්පර, එය හඬ ක්ලෝන කළ හැකි අතර පසුව විවිධ හැඟීම්, වේගයන් සහ ශෛලීන් සමඟ කථාව ජනනය කළ හැකිය. ක්ලෝන හඬ අනන්යතාව පවත්වා ගනිමින්. Spark TTS ඉක්මන් පදනම් පාලන පද්ධතියක් භාවිතා කරයි.

සංවර්‍ධක::
SparkAudio

බලපත්‍රය::
CC BY-NC-SA 4.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

හඬ ක්ලෝන කිරීම හැඟීම් පාලනය රටා පාලකය ප්‍රශ්ණ- පාදක තත්පර 5ක ක්ලෝන කිරීම

සඳහා හොඳම:: ක්ලෝන හඬ සහ හැඟීම් පාලනය සමග අන්තර්ගතය නිර්මාණය

උත්සහ කරන්න Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS බලවත් කිහිපයක්-ෂොට් හඬ ක්ලෝන සඳහා SoVITS (පරිවර්තනය සහ සංස්ලේෂණය හරහා ගායනා හඬ නිගමනය) සමග GPT-ශෛලිය භාෂා ආකෘති නිර්මාණය ඒකාබද්ධ කරයි.5සඳහා සුළු ලෙස5සඳහා සබැඳි ශ්රව්ය තත්පර, එය කථානායකගේ සුවිශේෂී ලක්ෂණ පවත්වා ගනිමින් නිවැරදිව හඬ ක්ලෝන හා නව කථාව ජනනය කළ හැකිය. එය කතා කිරීම සහ ගායනා හඬ සංස්ලේෂණය දෙකම විශිෂ්ට වේ.

සංවර්‍ධක::
RVC-Boss

බලපත්‍රය::
MIT

වේගය:
Slow

තත්ත්ව::

භාෂා:
en, zh, ja, ko

VRAM:
6GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

තත්පර 5ක ක්ලෝන කිරීම සින්දු කියන හඬ ටිකක්-ෂොට් ඉගෙනීම ඉහළ විශ්වාසනීයත්වය භාෂා

සඳහා හොඳම:: හඬ ක්ලෝන, ගායනා සංස්ලේෂණය, අන්තර්ගත නිර්මාණකරු හඬ අනුපිටපත්

උත්සහ කරන්න GPT-SoVITS

Orpheus

Standard

Orpheus මිනිස් මට්ටමේ මානසික ප්රකාශනය සාක්ෂාත් කරන විශාල පරිමාණ පෙළ-කථාව ආකෘතිය වේ. විවිධාකාර කථන දත්ත පැය 100,000 කට වඩා පුහුණු, එය ස්වභාවික හැඟීම්, අවධාරණය, හා කථා ශෛලීන් සමග කථාව ජනනය විශිෂ්ට. Orpheus මානව පටිගත කිරීම් සිට බොහෝ දුරට වෙන් කළ නොහැකි බව කථාව නිෂ්පාදනය කළ හැකිය.

සංවර්‍ධක::
Canopy Labs

බලපත්‍රය::
Llama 3.2 Community

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

මිනිස් මට්ටමේ හැඟීම් 100K පැය පුහුණු ස්වභාවික අවධාරණය නිරූපණාත්මක කථාව

සඳහා හොඳම:: උසස් තත්ත්වයේ මානසික කතා, ශ්රව්ය පොත්, හඬ ක්රියා

උත්සහ කරන්න Orpheus

Chatterbox

Premium

Resemble AI විසින් Chatterbox අති නවීන ශුන්‍ය-ෂොට් හඬ ක්ලෝන ආකෘතිය වේ. එය කැපී පෙනෙන නිරවද් යතාවය සමග තනි ශ්රව්ය සාම්පලයක් සිට ඕනෑම හඬක් අනුපිටපත් කළ හැකි, හුදෙක් timbre පමණක් නොව කතා ශෛලිය හා හැඟීම් තීව්රතාවය අල්ලා ගැනීම. Chatterbox ද සිහින්-ගුණාත්මක හැඟීම් පාලනය ලක්ෂණ, ඔබ හඬ අනන්යතාවයෙන් ස්වාධීනව ජනනය කරන ලද කථාව හැඟීම් තීව්රතාවය සකස් කිරීමට ඉඩ.

සංවර්‍ධක::
Resemble AI

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
4x

ශුන්‍ය-ෂොට් ක්ලෝන කිරීම හැඟීම් පාලනය ඉහළ විශ්වාසනීයත්වය රටා හුවමාරුව තනි සාම්පල ක්ලෝන කිරීම

සඳහා හොඳම:: හැඟීම් පාලනය, අන්තර්ගතය නිර්මාණය සමග වෘත්තීය හඬ ක්ලෝන

උත්සහ කරන්න Chatterbox

Tortoise TTS

Premium

කටුස්සා TTS වේගය වඩා ශ්රව්ය ගුණාත්මක ප් රමුඛතාවය දෙන බව autoregressive බහු-හඬ පෙළ-කථා පද්ධතියකි. එය විශිෂ්ට prosody හා කථානායක සමානත්වය සමග ඉතා ස්වභාවික කථාව ජනනය කිරීමට DALL-E-ආශ්වාදයක් ගෘහ නිර්මාණ ශිල්පය භාවිතා කරයි. බොහෝ විකල්ප වඩා මන්දගාමී වන අතර, කටුස්සා විවෘත මූලාශ්රය පරිසර පද්ධතිය තුළ ලබා ගත හැකි වඩාත් යථාර්ථවාදී සංස්ලේෂණය කථාව සමහරක් නිෂ්පාදනය කරයි.

සංවර්‍ධක::
James Betker

බලපත්‍රය::
Apache 2.0

වේගය:
Slow

තත්ත්ව::

භාෂා:
en

VRAM:
8GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
4x

උසස්ම තත්ත්වයේ බහු හඬ DALL-E ගෘහ නිර්මාණ ශිල්පය හඬ ක්ලෝන කිරීම ස්වයංක්‍රීය ප්‍රතික්‍රියාකාරක

සඳහා හොඳම:: ශ්රව්ය පොත්, වාරික අන්තර්ගතය, ගුණාත්මක පළමු අයදුම්පත්

උත්සහ කරන්න Tortoise TTS

StyleTTS 2

Premium

StyleTTS2මනුෂ්ය මට්ටමේ TTS සංස්ලේෂණය විශාල කථා භාෂා ආකෘති භාවිතා කරමින් විරුද්ධාභාසීය පුහුණුව සමග ශෛලිය ව්‍යාප්තිය ඒකාබද්ධ කිරීමෙන් සාක්ෂාත් කර ගනී. එය තනි කථානායක ආකෘති අතර වඩාත් ස්වභාවික ශබ්ද කථනය ජනනය, මානව පටිගත තරග. StyleTTS2මනුෂ්ය කථාව වෙනස්කම් පූර්ණ පරාසය අල්ලා ගැනීමට ව්‍යාප්තිය මත පදනම් වූ ශෛලිය ආකෘති නිර්මාණය භාවිතා කරයි.

සංවර්‍ධක::
Columbia University

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
4x

මිනිස් මට්ටම රටාව විහිදීම තරගකාරී පුහුණුව ස්වභාවික වෙනස්වීම ඉහළ විශ්වාසනීයත්වය

සඳහා හොඳම:: ස්ටූඩියෝ-ගුණාත්මක තනි කථානායක සංස්ලේෂණය, වෘත්තීය කථා

උත්සහ කරන්න StyleTTS 2

OpenVoice

Premium

MyShell.ai විසින් OpenVoice හඬ ශෛලිය, හැඟීම්, උච්චාරණය, රිද්මය, විරාම, සහ intonation මත කැටිති පාලනය සමග ක්ෂණික හඬ ක්ලෝන කිරීම හැකියාව. එය කෙටි ශ්රව්ය ක්ලිප් සිට හඬ ක්ලෝන හා කථානායක අනන්යතාව පවත්වා ගනිමින් බහු භාෂා කතා බහ ජනනය කළ හැකිය. OpenVoice ද හඬ පරිවර්තකයක් ලෙස ක්රියා, තත්කාලීන හඬ පරිවර්තනය ඉඩ.

සංවර්‍ධක::
MyShell.ai / MIT

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, ja, ko, fr, de, es, it

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
4x

ක්ෂණික ක්ලෝනකරණය හඬ පරිවර්තනය හැඟීම් පාලනය උපසර්ග පාලකය බහුභාෂා

සඳහා හොඳම:: ඝන-අස්වැන්න රටාව පාලනය, හඬ පරිවර්තනය සමග හඬ ක්ලෝන

උත්සහ කරන්න OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS යනු අලිබාබා Qwen කණ්ඩායමේ 1.7 බිලියන පරාමිතික පෙළ-කථන ආකෘතියකි. එය මාදිලි තුනක් සහාය දක්වයි: හැඟීම් පාලනය සහිත හඬ (කථිකයින්9දෙනෙකු), ශ් රව්ය තත්පර3කින් හඬ ක්ලෝන කිරීම සහ ස්වාභාවික භාෂාවෙන් ඔබට අවශ් ය හඬ විස්තර කරන සුවිශේෂී හඬ සැලසුම් මාදිලිය. එය ඉහළ ප් රකාශාත්මකභාවයක් සහ ස්වාභාවික ප් රසාදය සහිත භාෂා 10 ක් ආවරණය කරයි.

සංවර්‍ධක::
Alibaba (Qwen)

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

හඬ ක්ලෝන කිරීම 9 පෙරනිමි හඬ පෙළ සිට හඬ සැලසුම් හැඟීම් පාලනය භාෂා 10

සඳහා හොඳම:: හඬ ක්ලෝන හෝ අභිරුචි හඬ නිර්මාණය සමඟ බහුභාෂා අන්තර්ගතය

උත්සහ කරන්න Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) යනු සංවාදාත්මක කථාව ජනනය කිරීම සඳහා විශේෂයෙන් නිර්මාණය කරන ලද 1 බිලියන පරාමිති ආකෘතියකි. එය ආපසු හැරවීමේ වේලාව, backchannel ප්රතිචාර, හැඟීම් ප්රතිචාර සහ සංවාදාත්මක ප්රවාහය ඇතුළු මානව සංවාදයේ ස්වභාවික රටා ආකෘතිමත් කරයි. CSM කෘතිම කථාව වෙනුවට ස්වභාවික මානව සංවාදයක් මෙන් ශබ්ද වන ශ්රව්ය ජනනය කරයි.

සංවර්‍ධක::
Sesame

බලපත්‍රය::
Apache 2.0

වේගය:
Slow

තත්ත්ව::

භාෂා:
en

VRAM:
8GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
4x

සංවාදාත්මක ස්වභාවික වේලාව ආපසු හැරවීම පසු නාලිකාව 1B පරාමිතීන්

සඳහා හොඳම:: AI සහායකයින්, චැට්බෝට්, සංවාදාත්මක AI යෙදුම්

උත්සහ කරන්න Sesame CSM

Chatterbox Turbo

Standard

Resemble AI විසින් Chatterbox Turbo යනු Chatterbox වෙත 350M පරාමිතියක් උසස් කිරීමකි, එය 6x තත්ත්ව වේගයට 200ms ක්රියාකාරීත්වයක් සහිතව ලබා දෙයි. එය [සිනහව], [කැස්ස], සහ [කෑගැසීම] වැනි paralinguistic ටැග් පෙළ තුළ සෘජුවම සහාය දක්වයි. ප්රභවය හඳුනා ගැනීම සඳහා සියලුම ජනනය කරන ලද ශ්රව්ය මත පර්ත් ජල ලකුණු ඇතුළත් වේ.

සංවර්‍ධක::
Resemble AI

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en

VRAM:
2GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

යටතේ-200ms ප්‍රමාද Paralinguistic ටැග 6x සැබෑ කාලය හඬ ක්ලෝන කිරීම ජල ලකුණු

සඳහා හොඳම:: තත්කාලීන හඬ නියෝජිතයන්, ස්වභාවික ශබ්ද සමග ප්රකාශාත්මක කථා

උත්සහ කරන්න Chatterbox Turbo

VoxCPM

Standard

OpenBMB විසින් VoxCPM 1.5 අඛණ්ඩ අවකාශය වෙනුවට විශිෂ්ට ටොකන් ක්රියාත්මක නවක tokenizer-නිදහස් TTS ආකෘතිය වේ. එය ඉහළ විශ්වාසය 44.1kHz ශ්රව්ය නිෂ්පාදනය, 3-10 තත්පර ශුන්‍ය-ෂොට් හඬ ක්ලෝන සහාය, හා පරිච්ඡේද හරහා අනුකූලතාව පවත්වා ගනී.

සංවර්‍ධක::
OpenBMB

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, zh

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

44.1kHz ශ්‍රව්‍ය ටොකනයිසර්- නිදහස් අන්තර්- භාෂා ක්ලෝන කිරීම සන්දර්භය- දැනෙන LoRA නිවැරදි කිරීම

සඳහා හොඳම:: අධි-විශ්වාසවන්ත ශ්රව්ය, ශ්රව්ය පොත්, හඬ අනුකූලතාව සමග දිගු-ආකෘතිය අන්තර්ගතය

උත්සහ කරන්න VoxCPM

Kani TTS 2

Free

NineNineSix විසින් Kani-TTS-2 යනු Nvidia NanoCodec සමඟ LiquidAI LFM2 පිටුපස ඉදිකරන ලද අතිශය සැහැල්ලු 400M පරාමිතික ආකෘතියකි. එය 3GB VRAM හි පමණක් ධාවනය වන අතර ~2 තත්පර (RTF 0.2) තුළ 10 තත්පර කතාබහක් සාක්ෂාත් කර ගනී. කථිකයින් embeddings හරහා ශූරතාව-ෂොට් හඬ ක්ලෝන කිරීම සහාය දක්වයි.

සංවර්‍ධක::
NineNineSix

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, pt, es

VRAM:
3GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
නිදහස්

3GB VRAM අති- වේගවත් කටහඬ ක්ලෝන කිරීම සැහැල්ලු නැනෝකොඩෙක්

සඳහා හොඳම:: වේගවත් ජනනය, අඩු සම්පත් පරිසර, ඉක්මන් පූර්ව දර්ශන

උත්සහ කරන්න Kani TTS 2

OuteTTS

Free

OuteTTS මූලික ගෘහ නිර්මාණ ශිල්පය ආරක්ෂා කරමින් පෙළ-කථාව හැකියාවන් සමග විශාල භාෂා ආකෘති දීර්ඝ කරයි. එය llama.cpp (CPU / GPU) ඇතුළු බහු backends සහාය, හග් ෆේස් ට් රාන්ස්ෆෝමර්ස්, ExLlamaV2, VLLM, සහ Transformers.js හරහා බ්රවුසරයේ නිගමනය පවා.

සංවර්‍ධක::
OuteAI

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en

VRAM:
2GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
නිදහස්

CPU නිගමනය ගවේශක අනුමාන කිරීම හඬ ක්ලෝන කිරීම බහු පසුඉම කථානායක පැතිකඩ

සඳහා හොඳම:: Edge යෙදවීම, බ්රවුසර-පාදක TTS, අඩු සම්පත් පරිසර

උත්සහ කරන්න OuteTTS

VibeVoice

Standard

මයික්රොසොෆ්ට් විසින් VibeVoice වෙනස්කම් දෙකක් පැමිණේ: දිගු-ආකෘතිය අන්තර්ගතය සඳහා 1.5B ආකෘතිය (විනාඩි දක්වා 90,4කථිකයන්) සහ ~ 200ms පළමු ශ්රව්ය ප්රමාද සමග ශ්රව්ය විකාශනය සඳහා Realtime 0.5B ආකෘතිය. 1.5B විකල්පය දිගු ගමන් මගකට කථිකයා සමග පොඩ්කාස්ට් සහ ශ්රව්ය පොත්වල විශිෂ්ටත්වය. සටහන: මයික්රොසොෆ්ට් ටීටීඑස් කේතය ගබඩාවෙන් ඉවත් කර ඇති අතර ජනනය කරන ලද ශ්රව්ය ශ්රව්ය AI වගකීම් විරහිත වේ.

සංවර්‍ධක::
Microsoft

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, zh

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

බහු- කථානායක මිනිත්තු 90 ක් දක්වා පොඩ්කාස්ට් ජනනය කථානායක අනුකූලතාව 200ms විකාශනය

සඳහා හොඳම:: පොඩ්කාස්ට්, ශ්රව්ය පොත්, දිගු-ආකෘතිය බහු-කථික අන්තර්ගතය

උත්සහ කරන්න VibeVoice

Pocket TTS

Free

Kyutai විසින් පොකට් TTS (Moshi නිර්මාණකරුවන්) එහි බර ඉක්මවා යන සංයුක්ත 100M පරාමිතික පෙළ-කථා ආකෘතියකි. එය CPU මත කාර්යක්ෂමව ක් රියාත්මක වන අතර, තනි ශ්රව්ය සාම්පලයකින් ශුන්‍ය-ෂොට් හඬ ක්ලෝන කිරීම සහ ස්වාභාවික හඬක් ඇති කථාව නිපදවයි. කුඩා ආකෘති ප් රමාණයෙන් එය අගුළු දැමීම සහ අඩු සම්පත් පරිසර සඳහා පරිපූර්ණ වේ.

සංවර්‍ධක::
Kyutai

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, fr

VRAM:
1GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
නිදහස්

100M පරාමිතීන් CPU නිගමනය හඬ ක්ලෝන කිරීම තනි-සාම්පල ක්ලෝන කිරීම අගල්- සූදානම්

සඳහා හොඳම:: සැහැල්ලු යෙදවීම, CPU-එකම පරිසර, ඉක්මන් හඬ ක්ලෝන

උත්සහ කරන්න Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

සංවර්‍ධක::
KittenML

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en

VRAM:
0GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

සඳහා හොඳම:: Fast lightweight TTS, edge deployment, low-latency applications

උත්සහ කරන්න Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

සංවර්‍ධක::
Alibaba (FunAudioLLM)

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

සඳහා හොඳම:: Multilingual production TTS, real-time applications, voice cloning

උත්සහ කරන්න CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

සංවර්‍ධක::
NAMAA Space

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
ar

VRAM:
6GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

Saudi Arabic dialect Modern Standard Arabic Zero-shot voice cloning Emotion control Native pronunciation

සඳහා හොඳම:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

උත්සහ කරන්න NAMAA Saudi TTS

Darwin TTS

Standard

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

සංවර්‍ධක::
FINAL-Bench

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, ko, ja, zh, de, fr, ru, pt, es, it

VRAM:
7GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

Voice cloning Cross-lingual FFN-blended 10 languages Qwen3 backbone

සඳහා හොඳම:: Cross-lingual voice cloning, multilingual narration with a single reference voice

උත්සහ කරන්න Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 from OpenMOSS is a 7B dialogue text-to-speech model that continues conversations from a short audio prompt. Supports up to 5 simultaneous speakers via [S1]/[S2] tags, zero-shot voice cloning from 3-10s reference audio, and up to 60 minutes of coherent multi-turn dialogue across 20 languages. Distinct from MOSS-TTS — TTSD is specialized for podcast/audiobook/dubbing workflows.

සංවර්‍ධක::
OpenMOSS

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, de, es, fr, ja, it, ko, ru, ar, pl, pt, cs, da, sv, el, tr, hu, fa, he

VRAM:
12GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

Multi-speaker dialogue Up to 5 speakers 60min coherent audio Voice cloning 20 languages Podcast-optimised

සඳහා හොඳම:: Podcasts, audiobooks, dubbed dialogue, conversational content with multiple voices

උත්සහ කරන්න MOSS-TTSD

Ming-Omni TTS

Free

Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.

සංවර්‍ධක::
inclusionAI

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh

VRAM:
3GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
නිදහස්

44.1kHz output Voice cloning Emotion control Dialect control BGM generation Compact 0.5B

සඳහා හොඳම:: High-fidelity bilingual narration, emotion-controlled voice acting, Chinese audiobook content

උත්සහ කරන්න Ming-Omni TTS

Kokoro

නිදහස්

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

සංවර්‍ධක::
Hexgrad

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා: en, ja, zh, fr, it, pt, es

සඳහා හොඳම:: High-quality TTS with minimal latency, streaming applications

නොමිලේ උත්සාහ කරන්න

Piper

නිදහස්

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

සංවර්‍ධක::
Rhasspy

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

සඳහා හොඳම:: Quick previews, accessibility, and embedded applications

නොමිලේ උත්සාහ කරන්න

VITS

නිදහස්

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

සංවර්‍ධක::
Jaehyeon Kim et al.

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

සඳහා හොඳම:: General-purpose text-to-speech with natural prosody

නොමිලේ උත්සාහ කරන්න

MeloTTS

නිදහස්

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

සංවර්‍ධක::
MyShell.ai

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා: en, es, fr, zh, ja, ko

සඳහා හොඳම:: Production applications needing fast, multilingual TTS

නොමිලේ උත්සාහ කරන්න

Kani TTS 2

නිදහස්

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on LiquidAI LFM2 backbone with Nvidia NanoCodec. It runs in just 3GB VRAM and achieves 10 seconds of speech in ~2 seconds (RTF 0.2). Supports zero-shot voice cloning via speaker embeddings.

සංවර්‍ධක::
NineNineSix

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා: en, pt, es

සඳහා හොඳම:: Fast generation, low-resource environments, quick previews

නොමිලේ උත්සාහ කරන්න

OuteTTS

නිදහස්

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

සංවර්‍ධක::
OuteAI

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා: en

සඳහා හොඳම:: Edge deployment, browser-based TTS, low-resource environments

නොමිලේ උත්සාහ කරන්න

Pocket TTS

නිදහස්

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

සංවර්‍ධක::
Kyutai

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා: en, fr

සඳහා හොඳම:: Lightweight deployment, CPU-only environments, quick voice cloning

නොමිලේ උත්සාහ කරන්න

Kitten TTS

නිදහස්

සංවර්‍ධක::
KittenML

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා: en

සඳහා හොඳම:: Fast lightweight TTS, edge deployment, low-latency applications

නොමිලේ උත්සාහ කරන්න

Ming-Omni TTS

නිදහස්

සංවර්‍ධක::
inclusionAI

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා: en, zh

සඳහා හොඳම:: High-fidelity bilingual narration, emotion-controlled voice acting, Chinese audiobook content

නොමිලේ උත්සාහ කරන්න

Bark

සම්මත

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

සංවර්‍ධක::
Suno

බලපත්‍රය::
MIT

වේගය:
Slow

තත්ත්ව::

භාෂා:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

හඬ ක්ලෝන කිරීම:
නෑ.

Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual

සඳහා හොඳම:: Creative audio content, audiobooks with emotion, sound effects

උත්සහ කරන්න Bark

සම්මත

සංවර්‍ධක::
Alibaba (FunAudioLLM)

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, zh, ja, ko, de, es, fr, it, ru

හඬ ක්ලෝන කිරීම:
ඔව්

Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following

සඳහා හොඳම:: Multilingual production TTS, real-time applications, voice cloning

උත්සහ කරන්න CosyVoice3

NAMAA Saudi TTS

සම්මත

සංවර්‍ධක::
NAMAA Space

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
ar

හඬ ක්ලෝන කිරීම:
ඔව්

Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation

සඳහා හොඳම:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

උත්සහ කරන්න NAMAA Saudi TTS

Darwin TTS

සම්මත

සංවර්‍ධක::
FINAL-Bench

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, ko, ja, zh, de, fr, ru, pt, es, it

හඬ ක්ලෝන කිරීම:
ඔව්

Voice cloningCross-lingualFFN-blended10 languagesQwen3 backbone

ආකෘතිය	සංවර්‍ධක:	සත්ත්වයා	වේගය	භාෂා	VRAM	බලපත්‍රය:	ණය
Kokoro	Hexgrad	Free	Fast	7	1.5GB	Apache 2.0	නිදහස්	භාවිතය
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	නිදහස්	භාවිතය
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	නිදහස්	භාවිතය
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	නිදහස්	භාවිතය
Bark	Suno	Standard	Slow	13	5GB	MIT	2	භාවිතය
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	භාවිතය
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	භාවිතය
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	භාවිතය
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	භාවිතය
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	භාවිතය
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	භාවිතය
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	භාවිතය
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	භාවිතය
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	භාවිතය
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	භාවිතය
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	භාවිතය
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	භාවිතය
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	භාවිතය
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	භාවිතය
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	භාවිතය
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	භාවිතය
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	භාවිතය
Kani TTS 2	NineNineSix	Free	Fast	3	3GB	Apache 2.0	නිදහස්	භාවිතය
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	නිදහස්	භාවිතය
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	භාවිතය
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	නිදහස්	භාවිතය
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	නිදහස්	භාවිතය
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	භාවිතය
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	භාවිතය
Darwin TTS	FINAL-Bench	Standard	Medium	10	7GB	Apache 2.0	2	භාවිතය
MOSS-TTSD	OpenMOSS	Standard	Medium	20	12GB	Apache 2.0	2	භාවිතය
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	නිදහස්	භාවිතය

කථා වේදිකාවට වඩාත්ම පුළුල් AI පෙළ

TTS.ai ක් තේරෙන්නේ ඇයි?

TTS.ai තනි, භාවිතා කිරීමට පහසු වේදිකාවක් ලෝකයේ හොඳම විවෘත මූලාශ්රය පෙළ-කථාව ආකෘති එකට ගෙන එයි. තනි හඬ එන්ජිමකට ඔබ අගුළු ලා ඇති වත්කම් සේවා මෙන් නොව, TTS.ai Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua විශ්ව විද්යාලයේ, සහ තවත් ප්රමුඛ පර්යේෂණ විද්යාගාර වලින් 20+ ආකෘති වෙත ඔබට ප්රවේශය ලබා දෙයි.

සෑම ආකෘතියක්ම MIT, Apache 2.0, හෝ සමාන ඉඩ දෙන බලපත්ර යටතේ විවෘත මූලාශ් රය වන අතර, ඔබගේ ව් යාපෘතිවල ජනනය කරන ලද ශබ්දය භාවිතා කිරීමට ඔබට පූර්ණ වාණිජ අයිතිවාසිකම් ඇති බව සහතික කරයි. ඔබට ශ් රව් ය පොත් සහ පොඩ්කාස්ට් සඳහා වේගවත්, සැහැල්ලු සංස්ලේෂණයක් අවශ් යද, TTS.ai සෑම භාවිතයක් සඳහාම සුදුසු ආකෘතිය ඇත.

නිදහස් ආකෘති, කිසිදු ගිණුමක් අවශ්ය

Piper (අතිශයින් වේගවත්, සැහැල්ලු), VITS (උසස් තත්ත්වයේ ස්නායු සංස්ලේෂණය), සහ MeloTTS (බහු-භාෂා සහාය) නොමිලේ TTS ආකෘති තුනක් සමඟ වහාම ආරම්භ කරන්න. කිසිදු ලියාපදිංචි, කිසිදු ක්රෙඩිට් කාඩ්, පරම්පරාව මත සීමා. නිදහස් ආකෘති බොහෝ යෙදුම් සඳහා සුදුසු ස්වභාවික ශබ්ද ප්රතිදානය සමඟ ඉංග්රීසි සහ වෙනත් භාෂා බහු සහාය.

GPU- ත්වරණ සැකසීම

සියලුම TTS ආකෘති වේගවත්, අනුකූල පරම්පරා කාලය සඳහා කැප NVIDIA GPUs මත ධාවනය. නිදහස් ආකෘති සාමාන්යයෙන් යටතේ ශ්රව්ය ජනනය2තත්පර. Kokoro වැනි සම්මත ආකෘති, CosyVoice2සහ Bark සාමාන්ය 3-5 තත්පර. ඉහළම ගුණාත්මකභාවය සහිත ප් රමිතිමත් ආකෘති, Tortoise සහ Chatterbox වැනි, පෙළ දිග අනුව තත්පර 5-15 ක් තුළ ක් රියා කරයි.

30+ භාෂා සහාය

ඉංග්රීසි, ස්පාඤ්ඤ, ප්රංශ, ජර්මානු, ඉතාලි, පෘතුගීසි, චීන, ජපන්, කොරියානු, අරාබි, හින්දි, රුසියානු, සහ තවත් බොහෝ භාෂා ඇතුළුව 30 කට වඩා වැඩි ගණනකදී කථාව ජනනය කරන්න. ආකෘති කිහිපයක් හරස්-භාෂා සංස්ලේෂණයට සහාය දක්වයි, එනම් ඔබ මුල් හඬ පුහුණු කර නොමැති භාෂාවකින් කථාව ජනනය කළ හැකිය. CosyVoice2සහ GPT-SoVITS හරස්-භාෂා හඬ ක්ලෝන කිරීමේදී විශිෂ්ට වේ.

සංවර්ධක- සූදානම් API

අපගේ OpenAI අනුකූල REST API සමඟ ඔබේ යෙදුම් වලට TTS.ai ඒකාබද්ධ කරන්න. සියලුම 20+ ආකෘති සඳහා එක් අවසන් ස්ථානයක්. Python, JavaScript, cURL සහ Go SDKs. තත්කාලීන යෙදුම් සඳහා ප් රවාහනය සහාය. විශාල ප් රමාණයේ අන්තර්ගත ජනනය සඳහා බැච් සැකසීම. අසමකාලීන දැනුම්දීම් සඳහා වෙබ්හූක්ස්. ප් රො සහ එන්ටර්ප්රයිස් සැලසුම් මත ලබා ගත හැකිය.

නිතර අසන ප්රශ්න

කතා කිරීමට පෙළ (TTS) ස්වාභාවික ශබ්ද කතා ශ්රව්ය බවට ලිඛිත පෙළ පරිවර්තනය කරන AI තාක්ෂණය. Kokoro වැනි නූතන ස්නායු TTS ආකෘති, Chatterbox, හා CosyVoice2විශේෂයෙන් මනුෂ්ය ශබ්ද වන කතා නිෂ්පාදනය කිරීමට ගැඹුරු ඉගෙනුම් භාවිතා, ස්වභාවික prosody සමග, හැඟීම්, හා රිද්මය.

එය ඔබේ අවශ්යතා මත රඳා පවතී. ඉක්මන් ප්රතිපූර්ව දර්ශන සඳහා, Piper හෝ MeloTTS භාවිතා කරන්න (නිදහස්, වේගවත්). ඉහළ ගුණාත්මක සඳහා, Kokoro හෝ CosyVoice2සහය ගන්න (ප්රමාණවත් තලය). හඬ ක්ලෝන කිරීම සඳහා, Chatterbox හෝ GPT-SoVITS භාවිතා කරන්න (වැට්). සංවාද / පොඩ්කාස්ට් අන්තර්ගතය සඳහා, Dia TTS උත්සාහ කරන්න. එක් එක් ආකෘතිය වෙනස් ශක්තිමත් — හොඳම ගැලපීම සොයා ගැනීමට පරීක්ෂණ.

ඔව්! TTS.ai Kokoro සමග නොමිලේ පෙළ-කතා ඉදිරිපත් කරයි, Piper, VITS, සහ MeloTTS ආකෘති. දක්වා කිසිදු ගිණුමක් අවශ්ය 500 අක්ෂර හා3පැයකට පරම්පරා. ලබා ගැනීමට නොමිලේ ගිණුමක් සඳහා ලියාපදිංචි 15 ණය හා සියලු ආකෘති ප්රවේශ.

අපගේ TTS ආකෘති සමස්තයක් ලෙස ඉංග්රීසි ඇතුළු 30+ භාෂා සහාය, ස්පාඤ්ඤ, ප්රංශ, ජර්මානු, ඉතාලි, පෘතුගීසි, චීන, ජපන්, කොරියානු, අරාබි, රුසියානු, හින්දි, සහ තවත් බොහෝ. භාෂා ලබා ගත හැකි ආකෘතිය අනුව වෙනස් වේ.

ඔව්, TTS.ai හරහා ජනනය කරන ලද ශ්රව්ය වාණිජමය ලෙස භාවිතා කළ හැකිය. අපගේ සියලු ආකෘති විවෘත මූලාශ්රය බලපත්ර භාවිතා (MIT, Apache 2.0). නිශ්චිත කොන්දේසි සඳහා තනි ආකෘතිය බලපත්ර පරීක්ෂා කරන්න. අපි ඔබ ඔබේ ව්යාපෘතිය සඳහා භාවිතා කරන නිශ්චිත ආකෘතිය බලපත්රය සමාලෝචනය කිරීම නිර්දේශ කරමු.

TTS.ai MP3, WAV, OGG, සහ FLAC ප්රතිදානය ආකෘති සහාය. MP3 වෙබ් වාදනය සඳහා පෙරනිමි වේ. WAV තවදුරටත් ශ්රව්ය සැකසුම් සඳහා නිර්දේශ කරනු ලැබේ. ඔබ අපගේ ශ්රව්ය පරිවර්තකය මෙවලම භාවිතා ආකෘති අතර පරිවර්තනය කළ හැකිය.

හඬ ක්ලෝන කිරීම කෙටි ශ්රව්ය සාම්පලයක් (සාමාන්යයෙන් තත්පර 5-30) සිට නිශ්චිත හඬක් පිටපත් කිරීමට AI භාවිතා කරයි. ඉලක්ක හඬ පැහැදිලි පටිගත කිරීමක් උඩුගත කරන්න, සහ චැටර්බොක්ස්, GPT-SoVITS, හෝ OpenVoice වැනි ආකෘති එම හඬ තුළ නව කථාව ජනනය කරනු ඇත. ගුණාත්මකභාවය පිරිසිදු, දිගු සබැඳි ශ්රව්ය සමඟ වැඩි දියුණු වේ.

නිදහස් පරිශීලකයන් දක්වා ජනනය කළ හැකිය 500 ඉල්ලීමකට අක්ෂර. ලියාපදිංචි පරිශීලකයන් දක්වා ඉල්ලීමකට අක්ෂර 5,000 ලබා. දිගු පෙළ සඳහා, ශ්රව්ය චුන්ක්ස් ජනනය සහ ස්වයංක්රීයව එකට stitch. API පරිශීලකයන් දක්වා සකස් කළ හැකිය 10,000 ඉල්ලීමකට අක්ෂර.

SSML (කථා සංස්ලේෂණය මාකප් භාෂාව) ආකෘතිය අනුව වෙනස් සහාය. Piper හා සමහර අනෙකුත් ආකෘති විරාම සඳහා මූලික SSML ටැග් සහාය, අවධාරණය, හා උච්චාරණය පාලනය. ස්වදේශීය SSML සහාය නොමැති ආකෘති සඳහා, ඔබ prosody බලපෑම් කිරීමට ස්වභාවික විරාම ලකුණු හා රේඛා බිඳීම් භාවිතා කළ හැකිය.

ඔව්, බොහෝ ආකෘති 0.5x සිට 2.0x දක්වා වේග ගැලපුම් සහාය. බර්ක් සහ පාර්ලර් වැනි සමහර ආකෘති ද පන්දු සහ ශෛලිය පාලනය කිරීමට ඉඩ සලසයි. ඔබට උසස් සැකසුම් පුවරුව හෝ API වේග පරාමිතීන් හරහා වේග පරාමිතීන් සකස් කළ හැකිය.

ඔව්, කණ්ඩායම සැකසීම අපගේ API හරහා ලබා ගත හැක. ඔබ තනි API ඇමතුමක් හෝ ස්ක්රිප්ට් බහු පෙළ කොටස් ඉදිරිපත් කළ හැකි අතර, එක් එක් සැකසීමට හා වෙනම ශ්රව්ය ගොනු ලෙස ආපසු ලැබෙනු ඇත. මෙය ශ්රව්ය පොත් පරිච්ඡේද, ඊ-ඉගෙනුම් මොඩියුල, හෝ ක්රීඩා සංවාදය ස්ක්රිප්ට් සඳහා කදිම වේ.

ඔබේ ගිණුම දර්ශක පුවරුව සිට API යතුරක් ජනනය කරන්න, ඉන්පසු ඔබේ පෙළ, ආකෘතිය සහ හඬ පරාමිතීන් සමඟ අපගේ REST API අවසන් ස්ථානයට POST ඉල්ලීම් යවන්න. අපි Python, JavaScript සහ cURL හි කේත උදාහරණ සපයන්නෙමු. API OpenAI අනුකූල වන අතර, පවතින ඒකාබද්ධතා අවම වෙනස්කම් සමඟ වැඩ කරයි.

5.0/5 (3)

දැන් පෙළ සිට කථාව බවට පරිවර්තනය ආරම්භ කරන්න

TTS.ai භාවිතා නිර්මාණකරුවන් දහස් ගණනක් එක්වන්න. නව ගිණුමක් සමඟ 15,000 නොමිලේ අක්ෂර ලබා ගන්න. ලියාපදිංචි තොරව නොමිලේ ආකෘති ලබා ගත හැකිය.

නොමිලේ ලියාපදිංචි මිල දර්ශනය

AI පෙළ සිට කථාවName

TTS.ai ආදරය? ඔබේ මිතුරන්ට කියන්න!

ආකෘති විස්තර

Bark Small

වඩා හොඳ ප්රතිඵල සඳහා ඉඟි

ණය පිරිවැය

AI පෙළ කථාව වැඩ කරන්නේ කෙසේද

ඔබේ පෙළ ඇතුළත් කරන්න

ආකෘතිය සහ හඬ තෝරන්න

ජනනය කරන්න (B)

කටහඬ පෙළ භාවිතය නඩු

ශ්‍රව්‍ය පොත්

වීඩියෝ කටහඬ

පොඩ්කාස්ට්

ක්‍රීඩාName

ඉලෙක්ට්‍රොනික ඉගෙනුම්

පිවිසීම

IVR සහ දුරකථන පද්ධති

සමාජ මාධ්ය

ප්‍රවාහය

අලෙවිකරණ

පිටපත් කිරීම සහ ප්‍රාදේශීයකරණයName

භාවනා & යහපැවැත්ම

සියලු පෙළ සිට කථාව ආකෘති

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3