Report Bug / Feature Request

AI පෙළ සිට කථාවName

විවෘත මූලාශ්රය AI ආකෘති සමඟ ස්වභාවික ශබ්ද කථනය පෙළ පරිවර්තනය. භාවිතා කිරීමට නිදහස්, ගිණුමක් අවශ්ය නැත.

නොමිලේ ලියාපදිංචි

අපි තවම ඔබේ භාෂාවෙන් TTS හඬක් නැහැ. අපිට උදව් කරන්න ඔබගේ එක එකතු කරන්න! ඔබේ හඬ විකුණන්න

0/500 අකුරු · Sign up for 5,000 per generation →

ලියාපදිංචි වන්න 5,000 අක්ෂර සීමා

SSML ක්‍රමය (හොඳින් පාලනය සඳහා කථා සංස්ලේෂණය මාකප් භාෂාව)

නිවැරදි පාලනය සඳහා SSML ටැග් ඔබේ පෙළ ආවරණය:

<speak><prosody rate="slow">Slow speech</prosody></speak>

හැඟීම් / ශෛලිය

බෙදා හැරීම බලපෑම් කිරීමට හැඟීම් සලකුණු එකතු (ආකෘතිය සහාය වෙනස්):

උච්චාරණ ශබ්දකෝෂය

අභිරුචි උච්චාරණය අර්ථ දක්වන්න (වචනය = උච්චාරණය):

පීච් 0

-12 +12

AI ආකෘතිය

හඬ

භාෂාව

ප්‍රථිධාන සංයුතිය

වේගය 1.0x

0.5x 2.0x

Piper, VITS, MeloTTS සමඟ නිදහස්

ඔබේ ජනනය ශ්රව්ය මෙහි පෙනෙනු ඇත. ආකෘතිය තෝරන්න, පෙළ ඇතුලත්, හා ජනනය ක්ලික් කරන්න.

ආකෘති විස්තර

OpenVoice

Premium

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

සංවර්‍ධක:	MyShell.ai / MIT
බලපත්‍රය:	MIT
වේගය	Medium
තත්ත්ව:
භාෂා	8 භාෂා
VRAM	4GB
හඬ ක්ලෝන කිරීම	සහාය දක්වයි

විශේෂාංග:

Instant cloning Voice conversion Emotion control Accent control Multilingual

සඳහා හොඳම:: Voice cloning with fine-grained style control, voice conversion

වඩා හොඳ ප්රතිඵල සඳහා ඉඟි

ස්වභාවික විරාම හා කටහඬ සඳහා සුදුසු විරාම ලකුණු භාවිතා කරන්න
පැහැදිලි උච්චාරණය සඳහා අංක සහ කෙටි නාම අකුරු කරන්න
වාක්‍ය ඛණ්ඩ අතර කෙටි විරාම සෑදීමට කොමාව එක් කරන්න
දිගු නාට්‍යමය විරාම සඳහා එලිප්සි භාවිතා කරන්න (...)
බොහෝ ස්වාභාවික ප්රතිඵල සඳහා Kokoro හෝ CosyVoice උත්සාහ කරන්න2
බහු- කථික සංවාදය සහ පොඩ්කාස්ට් අන්තර්ගතය සඳහා Dia භාවිතා කරන්න

ණය පිරිවැය

සත්ත්වයා	1K අකුරු සඳහා පිරිවැය
නිදහස්	0 ණය (සීමා රහිත)
සම්මත	2 ණය / 1K අක්ෂර
ප්‍රමිතිය	4 ණය / 1K අක්ෂර

තවත් අකුරු ලබාගන්න

AI පෙළ කථාව වැඩ කරන්නේ කෙසේද

සරල පියවර තුනක් වෘත්තීය-ගුණාත්මක voiceovers ජනනය. තාක්ෂණික දැනුම අවශ්ය නැත.

පියවර 1

ඔබේ පෙළ ඇතුළත් කරන්න

වර්ගය, ඇලවීම, හෝ ඔබ කතා කිරීමට පරිවර්තනය කිරීමට අවශ්ය පෙළ උඩුගත. දක්වා සහාය 5,000 පිවිසුණු පරිශීලකයන් සඳහා පරම්පරාවකට අක්ෂර. සරල පෙළ භාවිතා හෝ උච්චාරණය උසස් පාලනය සඳහා SSML ටැග් එකතු, විරාම, සහ අවධාරණය.

පියවර 2

ආකෘතිය සහ හඬ තෝරන්න

20+ AI ආකෘති ස්ථර තුනක් හරහා තෝරන්න. ඔබේ අන්තර්ගතය ගැලපෙන හඬක් තෝරන්න, ඔබේ ඉලක්ක භාෂාව තෝරන්න, 0.5x සිට 2.0x දක්වා ප් රචාරක වේගය සකසන්න, සහ ඔබේ ප් රියතම ප්රතිදානය ආකෘතිය තෝරන්න (MP3, WAV, OGG, හෝ FLAC).

පියවර 3

ජනනය කරන්න (B)

ක්ලික් කරන්න ජනනය සහ ඔබේ ශ්රව්ය තත්පර තුළ සූදානම්. තනන ලද ක්රීඩකයා සමග පූර්ව දර්ශනය, ඔබේ තෝරාගත් ආකෘතිය බාගත, හෝ shareable සබැඳියක් පිටපත්. ඔබේ වැඩ ප්රවාහයට කණ්ඩායම් සැකසීම සහ ඒකාබද්ධ කිරීම සඳහා API භාවිතා කරන්න.

කටහඬ පෙළ භාවිතය නඩු

AI-powered text-to-speech කර්මාන්ත දස දහස් ගණනක් හරහා මිනිසුන් නිර්මාණය, පරිභෝජනය, සහ ශ්‍රව්‍ය අන්තර්ගතය සමඟ අන්තර් ක්රියා කරන ආකාරය පරිවර්තනය කරයි.

ශ්‍රව්‍ය පොත්

සම්පූර්ණ පොත් ස්වභාවික-ශබ්ද ශ්රව්ය පොත් ස්ටූඩියෝ-ගුණාත්මක කථා සමග පරිවර්තනය. චරිත සංවාදය සඳහා Dia සමග බහු-කථික සහාය.

වීඩියෝ කටහඬ

YouTube, TikTok, Instagram Reels සහ Shorts සඳහා වෘත්තීය හඬකැවීම් නිර්මාණය කරන්න. 100+ හඬ හෝ ඔබේම ක්ලෝන් කරන්න.

පොඩ්කාස්ට්

බහු AI හඬවල් සමග ස්ක්රිප්ට් සිට පොඩ්කාස්ට් වැඩසටහන් ජනනය කරන්න. ස්වභාවික දෙකක් කථානායක සංවාද සඳහා Dia භාවිතා කරන්න.

ක්‍රීඩාName

ඉන්දීය ක්රීඩා සඳහා AI හඬ ක්රියා, දෘශ්ය නවකතා, සහ අන්තර්ක්රියාකාරී චිත්රපට. NPC සංවාදය, cutscene හඬ, 30 + භාෂා.

ඉලෙක්ට්‍රොනික ඉගෙනුම්

පාඨමාලා ද්රව්ය පරිවර්තනය, දේශන, සහ ශ්රව්ය පුහුණු අන්තර්ගතය. ගෝලීය වේදිකා සඳහා බහු-භාෂා සහාය.

පිවිසීම

වෙබ් අඩවි කරන්න, ලේඛන, සහ යෙදුම් ප්රවේශ විය හැක. තිරය කියවන්නා API ඒකාබද්ධ හා ලිපිය ශ්රව්ය පරිවර්තනය.

IVR සහ දුරකථන පද්ධති

ස්වාභාවික AI හඬ සමඟ බලය IVR පද්ධති, දුරකථන මෙනු සහ පාරිභෝගික සේවා. ඇමතුම් මධ්යස්ථාන සඳහා අඩු ප්රමාද ශ්රව්ය.

සමාජ මාධ්ය

ටික් ටොක් කථා, ඉන්ස්ටග්රෑම් රීල්ස්, ට්විටර් / X විචාර, යූ ටියුබ් කෙටි. නිදහස් ආකෘති සමඟ ඉක්මන් ජනනය.

ප්‍රවාහය

ට්විච් TTS අනතුරු ඇඟවීම්, හඬ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-

අලෙවිකරණ

දැන්වීම් voiceovers, විස්තර වීඩියෝ, නිෂ්පාදන දර්ශන, සහ අලෙවි ඉදිරිපත් කිරීම්. ව්යාපාර හරහා ශ්රව්ය අන්තර්ගතය නිෂ්පාදනය පරිමාණය.

පිටපත් කිරීම සහ ප්‍රාදේශීයකරණයName

හඬ-ගැලපෙන AI සමඟ 30+ භාෂා වලට වීඩියෝ පරිවර්තනය සහ ඩබ්. ස්වයං-පරිවර්තනය සහ කථානායක හඳුනා ගැනීම.

භාවනා & යහපැවැත්ම

භාවනා, නින්ද කතා, හුස්ම අභ්‍යාස, සහ සන්සුන් සමග ස්ථිර කිරීම්, සන්සුන් AI හඬවල්.

සියළුම නඩු සහ මෙවලම් භාවිතා කරන්න

සියලු පෙළ සිට කථාව ආකෘති

TTS.ai මත ලබා ගත හැකි සෑම AI ආකෘතිය සඳහා සවිස්තරාත්මක පිරිවිතර. ඔබේ ව්යාපෘතිය සඳහා පරිපූර්ණ ආකෘතිය සොයා ගුණාත්මක, වේගය, භාෂා සහාය, සහ ලක්ෂණ සංසන්දනය.

Kokoro

Free

Kokoro යනු එහි බර පන්තියට වඩා හොඳින් පීඩනය කරන 82 මිලියන පරාමිතික පෙළ-කථා ආකෘතියකි. එහි කුඩා ප් රමාණයට පටහැනිව, එය විශිෂ්ට ස්වාභාවික හා ප් රකාශාත්මක කථාව නිපදවයි. Kokoro ඉංග් රීසි, ජපන්, චීන, සහ කොරියානු ඇතුළු විවිධ භාෂා සඳහා සහාය දක්වයි. එය අතිශයින් වේගවත්ව ක් රියාත්මක වේ - GPU මත සැබෑ කාලයට වඩා 100x වේගයෙන් ශ් රව් ය ජනනය කරයි.

සංවර්‍ධක::
Hexgrad

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

VRAM:
1.5GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

82M පරාමිතීන් අති- වේගවත් ප්‍රකාශිත හඬ බහුභාෂා විකාශන සහාය

සඳහා හොඳම:: අවම ප්රමාදයක් සහිත උසස් තත්ත්වයේ TTS, ප්රවාහ යෙදුම්

උත්සහ කරන්න Kokoro

Piper

Free

Piper යනු VITS සහ larynx ගෘහ නිර්මාණ ශිල්ප භාවිතා කරන Rhasspy විසින් සංවර්ධනය කරන ලද සැහැල්ලු පෙළ-කථා එන්ජිමකි. එය සම්පූර්ණයෙන්ම CPU මත ධාවනය වන අතර, එය අගල් උපාංග, ගෘහ ස්වයංක් රීයකරණ සහ ඔෆ්ලයින් TTS අවශ් ය වන යෙදුම් සඳහා පරිපූර්ණ කරයි. 30+ භාෂා හරහා 100 හඬවල් කට වඩා වැඩි, Piper රාස්ප්බෙරි පයි මත පවා තත්පරයට ස්වභාවික හඬක් ඇති කථාව ලබා දෙයි4.

සංවර්‍ධක::
Rhasspy

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

CPU- හිතකාමී නොබැඳි හැකියාව 100+ හඬ 30+ භාෂා SSML සහාය

සඳහා හොඳම:: ඉක්මන් පූර්‍වදසුන, පිවිසුම් හැකියාව, සහ තිළැලි යෙදුම්Name

උත්සහ කරන්න Piper

VITS

Free

VITS (අවසන්-අවසන් පෙළ-කථාව සඳහා විරුද්ධාභාස ඉගෙනීම සමග විචලනය උපකල්පනය) වත්මන් අදියර දෙකක් ආකෘති වඩා ස්වභාවික ශබ්ද ශ්රව්ය ජනනය කරන සමාන්තර අවසන්-අවසන් TTS ක්රමයකි. එය ස්වභාවිකත්වය සැලකිය යුතු දියුණුවක් ලබා ගැනීම සඳහා, සාමාන්යකරණය ප්රවාහයන් හා විරුද්ධාභාස පුහුණු ක්රියාවලිය සමග වැඩි දියුණු කරන ලද විචලනය උපකල්පනය අනුගමනය කරයි.

සංවර්‍ධක::
Jaehyeon Kim et al.

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

VRAM:
1GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

අවසානයේ සිට අවසානය දක්වා සංස්ලේෂණය ස්වභාවික ව්‍යංජනාක්ෂර වේගවත් නිගමනය බහු කථාකරන්නන්

සඳහා හොඳම:: ස්වභාවික කටහඬ සහිත පොදු අරමුණු පෙළ- සිට- කථාවName

උත්සහ කරන්න VITS

MeloTTS

Free

MyShell.ai විසින් MeloTTS ඉංග්රීසි සහාය බහුභාෂා TTS පුස්තකාලයක් (ඇමරිකානු, බ්‍රිතාන්‍ය, ඉන්දියානු, ඕස්ට් රේලියානු), ස්පාඤ්ඤ, ප්රංශ, චීන, ජපන්, සහ කොරියානු. එය ඉතා වේගවත්, CPU පමණක් මත සමීප තත්කාලීන වේගයෙන් පෙළ සැකසීම. MeloTTS නිෂ්පාදනය භාවිතා කිරීම සඳහා නිර්මාණය කර ඇති අතර CPU සහ GPU නිගමනය දෙකම සහාය.

සංවර්‍ධක::
MyShell.ai

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

CPU- උපරිමකරණය බහුභාෂා බහු වචන නිෂ්පාදනය-සූදානම් අඩු ප්‍රමාදයක්

සඳහා හොඳම:: වේගවත්, බහුභාෂා TTS අවශ්ය නිෂ්පාදන යෙදුම්

උත්සහ කරන්න MeloTTS

Bark

Standard

සුනෝ විසින් බර්ක් ඉතා යථාර්ථවාදී, බහුභාෂා කථාව මෙන්ම සංගීතය වැනි වෙනත් ශ්රව්ය උත්පාදනය කළ හැකි පරිවර්තක-පාදක පෙළ-සංගීතය ආකෘතිය, පසුබිම් ශබ්දය, හා ශබ්ද බලපෑම්. එය සිනහව, සිනා, හා හඬමින් වැනි වචන නොවන සන්නිවේදන නිෂ්පාදනය කළ හැකිය. බර්ක් 100 කථානායක පෙර සැකසුම් සහ 13+ භාෂා කට වඩා සහාය.

සංවර්‍ධක::
Suno

බලපත්‍රය::
MIT

වේගය:
Slow

තත්ත්ව::

භාෂා:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

ශබ්ද සැරසිලි හිනාවෙනවා/සුසුම් හෙලනවා සංගීතය ජනනය කථානායකයන් 100+ බහුභාෂා

සඳහා හොඳම:: නිර්මාණාත්මක ශ්රව්ය අන්තර්ගතය, හැඟීම් සමග ශ්රව්ය පොත්, ශබ්ද බලපෑම්

උත්සහ කරන්න Bark

Bark Small

Standard

බර්ක් කුඩා සැලකිය යුතු ලෙස වේගවත් නිගමනය වේග හා අඩු මතක අවශ්යතා සඳහා සමහර ශ්රව්ය ගුණාත්මක වෙළඳාම් කරන බර්ක් ආකෘතිය ඩිස්ටිල්ඩ් අනුවාදය වේ. එය හැඟීම් සමග කථාව ජනනය කිරීමට බර්ක්ගේ හැකියාව පවත්වා, හිනාව, සහ බහු භාෂා.

සංවර්‍ධක::
Suno

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

සැහැල්ලු සම්පූර්ණ බර්ක් වඩා වේගවත් චිත්තවේගීය කථාව බහුභාෂා

සඳහා හොඳම:: සම්පූර්ණ බර්ක් ඉතා මන්දගාමී විට ඉක්මන් නිර්මාණශීලී ශ්රව්ය

උත්සහ කරන්න Bark Small

CosyVoice 2

Standard

ඇලිබාබාගේ ටොන්ජි රසායනාගාරය විසින් CosyVoice2අතිශයින්ම අඩු ප්රමාදයක් සහිත මිනිස්-සමාන කථා ගුණාත්මකභාවය ලබා ගනී, එය තත්කාලීන යෙදුම් සඳහා කදිම කරයි. එය ප්රවාහ සංස්ලේෂණය සඳහා සීමිත ස්කෑලර් ක්වොන්ටම් ප්රවේශයක් භාවිතා කරන අතර ශූරතාවයේ හඬ ක්ලෝන කිරීම, හුවමාරු භාෂා සංස්ලේෂණය සහ සිහින් හැඟීම් පාලනයට සහාය දක්වයි. එය මනෝවිද් යාත්මක ඇගයීම්වල බොහෝ වාණිජ TTS පද්ධතිවලට වඩා හොඳින් ඉටු කරයි.

සංවර්‍ධක::
Alibaba (Tongyi Lab)

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

ශ්‍රිතය ශුන්‍ය-ෂොට් ක්ලෝන කිරීම අන්තර් භාෂාName හැඟීම් පාලනය මිනිස්-සමානතාව

සඳහා හොඳම:: තත්කාලීන යෙදුම්, ට් ටී ටී එස්, හඬ සහායකයින්

උත්සහ කරන්න CosyVoice 2

Dia TTS

Standard

Nari Labs විසින් ඩය 1.6B පරාමිතීන් පෙළ-කථාව ආකෘතිය විශේෂයෙන් බහු කථික සංවාදයක් ජනනය කිරීම සඳහා නිර්මාණය කර ඇත. එය සුදුසු ආපසු ගැනීම, prosody, හා හැඟීම් ප්රකාශ සමග කථිකයන් දෙදෙනෙකු අතර ස්වභාවික-ශබ්ද සංවාද නිෂ්පාදනය කළ හැකිය. ඩය පොඩ්කාස්ට්-ශෛලිය අන්තර්ගතය නිර්මාණය කිරීම සඳහා පරිපූර්ණ වේ, ශ්රව්ය පොත් සංවාද, සහ අන්තර්ක්රියාකාරී සංවාදාත්මක AI.

සංවර්‍ධක::
Nari Labs

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

බහු- කථානායක සංවාද ජනනය ස්වභාවිකව හැරෙමින් හැඟීම් ප්‍රකාශනය 1.6B පරාමිතීන්

සඳහා හොඳම:: පොඩ්කාස්ට්, ශ්රව්ය පොත් සංවාද, සංවාදාත්මක අන්තර්ගතය

උත්සහ කරන්න Dia TTS

Parler TTS

Standard

Parler TTS ජනනය කරන ලද කථාව පාලනය කිරීමට ස්වභාවික භාෂාව හඬ විස්තරය භාවිතා කරන පෙළ-කථාව ආකෘතිය වේ. පෙර සකස් හඬ තෝරා වෙනුවට, ඔබ අවශ්ය හඬ විස්තර (උදා, "සුළු බ්‍රිතාන්‍ය උච්චාරණය සමග උණුසුම් කාන්තා හඬ, හෙමින් හා පැහැදිලිව කතා") හා Parler එම විස්තරය ගැලපෙන කථාව ජනනය. මෙම නිර්මාණාත්මක යෙදුම් සඳහා එය සුවිශේෂී නම්යශීලී කරයි.

සංවර්‍ධක::
Hugging Face

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

හඬ විස්තරය ස්වභාවික භාෂා පාලනය නම්යශීලී හඬ නිර්මාණය පෙර සැකසූ හඬක් අවශ්‍ය නොවේ

සඳහා හොඳම:: ඔබට අභිරුචි හඬ ලක්ෂණ අවශ්ය වන නිර්මාණශීලී යෙදුම්

උත්සහ කරන්න Parler TTS

GLM-TTS

Standard

Zhipu AI විසින් GLM-TTS යනු ප් රවාහය ගැලපීම සමඟ ලාමා ගෘහ නිර්මාණ ශිල්පය මත ඉදි කරන ලද පෙළ-කථා පද්ධතියකි. එය විවෘත මූලාශ් රය TTS ආකෘති අතර අඩුම අක්ෂර දෝෂ අනුපාතය ලබා ගනී, එය වඩාත් නිවැරදි උච්චාරණය නිපදවයි යන්නයි. GLM-TTS 3-10 තත්පර ශ් රව් ය සාම්පල වලින් හඬ ක්ලෝන කිරීම සමඟ ඉංග් රීසි සහ චීන සහාය දක්වයි.

සංවර්‍ධක::
Zhipu AI

බලපත්‍රය::
GLM-4 License

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

අඩුම දෝෂ අනුපාතය හඬ ක්ලෝන කිරීම ගලා යාම ගැලපීම ස්වභාවික ව්‍යංජනාක්ෂර

සඳහා හොඳම:: උපරිම උච්චාරණ නිරවද්‍යතාව අවශ්‍ය යෙදුම්Name

උත්සහ කරන්න GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 යනු රසවත් හැඟීම් පාලනයක් සහිත ශුන්‍ය-ෂොට් හඬ සංස්ලේෂණයේ විශිෂ්ටත්වයක් ඇති උසස් පෙළ-කථා පද්ධතියකි. එය හැඟීම්-විශේෂී පුහුණු දත්ත අවශ් ය නොවන අතර සතුට, දුක, තරහ, හෝ බිය වැනි විශේෂිත හැඟීම් ස්වරූපයෙන් කතා කළ හැකිය. ආකෘතිය නිශ්චිතව ජනනය කරන ලද කථාවේ හැඟීම් ප්රකාශනය පාලනය කිරීම සඳහා හැඟීම් දෛශික භාවිතා කරයි.

සංවර්‍ධක::
Index Team

බලපත්‍රය::
Bilibili Model License

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

හැඟීම් පාලනය ශූන්‍ය-ෂොට් හැඟීම් දෛශික නිරූපණාත්මක කථාව කුඩා ධාන්ය පාලන

සඳහා හොඳම:: මානසිකව ප්රකාශාත්මක අන්තර්ගතය, ශ්රව්ය පොත්, අතථ්ය සහායකයින්

උත්සහ කරන්න IndexTTS-2

Spark TTS

Standard

SparkAudio විසින් Spark TTS පාලනය කළ හැකි හැඟීම් සහ කතා කිරීමේ ශෛලිය සමඟ හඬ ක්ලෝන කිරීම ඒකාබද්ධ කරන පෙළ-කථා ආකෘතියකි. හුදෙක් භාවිතා කරමින්5සඳහන ශ්රව්ය තත්පර, එය හඬ ක්ලෝන කළ හැකි අතර පසුව විවිධ හැඟීම්, වේගයන් සහ ශෛලීන් සමඟ කථාව ජනනය කළ හැකිය. ක්ලෝන හඬ අනන්යතාව පවත්වා ගනිමින්. Spark TTS ඉක්මන් පදනම් පාලන පද්ධතියක් භාවිතා කරයි.

සංවර්‍ධක::
SparkAudio

බලපත්‍රය::
CC BY-NC-SA 4.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

හඬ ක්ලෝන කිරීම හැඟීම් පාලනය රටා පාලකය ප්‍රශ්ණ- පාදක තත්පර 5ක ක්ලෝන කිරීම

සඳහා හොඳම:: ක්ලෝන හඬ සහ හැඟීම් පාලනය සමග අන්තර්ගතය නිර්මාණය

උත්සහ කරන්න Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS බලවත් කිහිපයක්-ෂොට් හඬ ක්ලෝන සඳහා SoVITS (පරිවර්තනය සහ සංස්ලේෂණය හරහා ගායනා හඬ නිගමනය) සමග GPT-ශෛලිය භාෂා ආකෘති නිර්මාණය ඒකාබද්ධ කරයි.5සඳහා සුළු ලෙස5සඳහා සබැඳි ශ්රව්ය තත්පර, එය කථානායකගේ සුවිශේෂී ලක්ෂණ පවත්වා ගනිමින් නිවැරදිව හඬ ක්ලෝන හා නව කථාව ජනනය කළ හැකිය. එය කතා කිරීම සහ ගායනා හඬ සංස්ලේෂණය දෙකම විශිෂ්ට වේ.

සංවර්‍ධක::
RVC-Boss

බලපත්‍රය::
MIT

වේගය:
Slow

තත්ත්ව::

භාෂා:
en, zh, ja, ko

VRAM:
6GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

තත්පර 5ක ක්ලෝන කිරීම සින්දු කියන හඬ ටිකක්-ෂොට් ඉගෙනීම ඉහළ විශ්වාසනීයත්වය භාෂා

සඳහා හොඳම:: හඬ ක්ලෝන, ගායනා සංස්ලේෂණය, අන්තර්ගත නිර්මාණකරු හඬ අනුපිටපත්

උත්සහ කරන්න GPT-SoVITS

Orpheus

Standard

Orpheus මිනිස් මට්ටමේ මානසික ප්රකාශනය සාක්ෂාත් කරන විශාල පරිමාණ පෙළ-කථාව ආකෘතිය වේ. විවිධාකාර කථන දත්ත පැය 100,000 කට වඩා පුහුණු, එය ස්වභාවික හැඟීම්, අවධාරණය, හා කථා ශෛලීන් සමග කථාව ජනනය විශිෂ්ට. Orpheus මානව පටිගත කිරීම් සිට බොහෝ දුරට වෙන් කළ නොහැකි බව කථාව නිෂ්පාදනය කළ හැකිය.

සංවර්‍ධක::
Canopy Labs

බලපත්‍රය::
Llama 3.2 Community

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

මිනිස් මට්ටමේ හැඟීම් 100K පැය පුහුණු ස්වභාවික අවධාරණය නිරූපණාත්මක කථාව

සඳහා හොඳම:: උසස් තත්ත්වයේ මානසික කතා, ශ්රව්ය පොත්, හඬ ක්රියා

උත්සහ කරන්න Orpheus

Chatterbox

Premium

Resemble AI විසින් Chatterbox අති නවීන ශුන්‍ය-ෂොට් හඬ ක්ලෝන ආකෘතිය වේ. එය කැපී පෙනෙන නිරවද් යතාවය සමග තනි ශ්රව්ය සාම්පලයක් සිට ඕනෑම හඬක් අනුපිටපත් කළ හැකි, හුදෙක් timbre පමණක් නොව කතා ශෛලිය හා හැඟීම් තීව්රතාවය අල්ලා ගැනීම. Chatterbox ද සිහින්-ගුණාත්මක හැඟීම් පාලනය ලක්ෂණ, ඔබ හඬ අනන්යතාවයෙන් ස්වාධීනව ජනනය කරන ලද කථාව හැඟීම් තීව්රතාවය සකස් කිරීමට ඉඩ.

සංවර්‍ධක::
Resemble AI

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
4x

ශුන්‍ය-ෂොට් ක්ලෝන කිරීම හැඟීම් පාලනය ඉහළ විශ්වාසනීයත්වය රටා හුවමාරුව තනි සාම්පල ක්ලෝන කිරීම

සඳහා හොඳම:: හැඟීම් පාලනය, අන්තර්ගතය නිර්මාණය සමග වෘත්තීය හඬ ක්ලෝන

උත්සහ කරන්න Chatterbox

Tortoise TTS

Premium

කටුස්සා TTS වේගය වඩා ශ්රව්ය ගුණාත්මක ප් රමුඛතාවය දෙන බව autoregressive බහු-හඬ පෙළ-කථා පද්ධතියකි. එය විශිෂ්ට prosody හා කථානායක සමානත්වය සමග ඉතා ස්වභාවික කථාව ජනනය කිරීමට DALL-E-ආශ්වාදයක් ගෘහ නිර්මාණ ශිල්පය භාවිතා කරයි. බොහෝ විකල්ප වඩා මන්දගාමී වන අතර, කටුස්සා විවෘත මූලාශ්රය පරිසර පද්ධතිය තුළ ලබා ගත හැකි වඩාත් යථාර්ථවාදී සංස්ලේෂණය කථාව සමහරක් නිෂ්පාදනය කරයි.

සංවර්‍ධක::
James Betker

බලපත්‍රය::
Apache 2.0

වේගය:
Slow

තත්ත්ව::

භාෂා:
en

VRAM:
8GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
4x

උසස්ම තත්ත්වයේ බහු හඬ DALL-E ගෘහ නිර්මාණ ශිල්පය හඬ ක්ලෝන කිරීම ස්වයංක්‍රීය ප්‍රතික්‍රියාකාරක

සඳහා හොඳම:: ශ්රව්ය පොත්, වාරික අන්තර්ගතය, ගුණාත්මක පළමු අයදුම්පත්

උත්සහ කරන්න Tortoise TTS

StyleTTS 2

Premium

StyleTTS2මනුෂ්ය මට්ටමේ TTS සංස්ලේෂණය විශාල කථා භාෂා ආකෘති භාවිතා කරමින් විරුද්ධාභාසීය පුහුණුව සමග ශෛලිය ව්‍යාප්තිය ඒකාබද්ධ කිරීමෙන් සාක්ෂාත් කර ගනී. එය තනි කථානායක ආකෘති අතර වඩාත් ස්වභාවික ශබ්ද කථනය ජනනය, මානව පටිගත තරග. StyleTTS2මනුෂ්ය කථාව වෙනස්කම් පූර්ණ පරාසය අල්ලා ගැනීමට ව්‍යාප්තිය මත පදනම් වූ ශෛලිය ආකෘති නිර්මාණය භාවිතා කරයි.

සංවර්‍ධක::
Columbia University

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
4x

මිනිස් මට්ටම රටාව විහිදීම තරගකාරී පුහුණුව ස්වභාවික වෙනස්වීම ඉහළ විශ්වාසනීයත්වය

සඳහා හොඳම:: ස්ටූඩියෝ-ගුණාත්මක තනි කථානායක සංස්ලේෂණය, වෘත්තීය කථා

උත්සහ කරන්න StyleTTS 2

OpenVoice

Premium

MyShell.ai විසින් OpenVoice හඬ ශෛලිය, හැඟීම්, උච්චාරණය, රිද්මය, විරාම, සහ intonation මත කැටිති පාලනය සමග ක්ෂණික හඬ ක්ලෝන කිරීම හැකියාව. එය කෙටි ශ්රව්ය ක්ලිප් සිට හඬ ක්ලෝන හා කථානායක අනන්යතාව පවත්වා ගනිමින් බහු භාෂා කතා බහ ජනනය කළ හැකිය. OpenVoice ද හඬ පරිවර්තකයක් ලෙස ක්රියා, තත්කාලීන හඬ පරිවර්තනය ඉඩ.

සංවර්‍ධක::
MyShell.ai / MIT

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, ja, ko, fr, de, es, it

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
4x

ක්ෂණික ක්ලෝනකරණය හඬ පරිවර්තනය හැඟීම් පාලනය උපසර්ග පාලකය බහුභාෂා

සඳහා හොඳම:: ඝන-අස්වැන්න රටාව පාලනය, හඬ පරිවර්තනය සමග හඬ ක්ලෝන

උත්සහ කරන්න OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS යනු අලිබාබා Qwen කණ්ඩායමේ 1.7 බිලියන පරාමිතික පෙළ-කථන ආකෘතියකි. එය මාදිලි තුනක් සහාය දක්වයි: හැඟීම් පාලනය සහිත හඬ (කථිකයින්9දෙනෙකු), ශ් රව්ය තත්පර3කින් හඬ ක්ලෝන කිරීම සහ ස්වාභාවික භාෂාවෙන් ඔබට අවශ් ය හඬ විස්තර කරන සුවිශේෂී හඬ සැලසුම් මාදිලිය. එය ඉහළ ප් රකාශාත්මකභාවයක් සහ ස්වාභාවික ප් රසාදය සහිත භාෂා 10 ක් ආවරණය කරයි.

සංවර්‍ධක::
Alibaba (Qwen)

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

හඬ ක්ලෝන කිරීම 9 පෙරනිමි හඬ පෙළ සිට හඬ සැලසුම් හැඟීම් පාලනය භාෂා 10

සඳහා හොඳම:: හඬ ක්ලෝන හෝ අභිරුචි හඬ නිර්මාණය සමඟ බහුභාෂා අන්තර්ගතය

උත්සහ කරන්න Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) යනු සංවාදාත්මක කථාව ජනනය කිරීම සඳහා විශේෂයෙන් නිර්මාණය කරන ලද 1 බිලියන පරාමිති ආකෘතියකි. එය ආපසු හැරවීමේ වේලාව, backchannel ප්රතිචාර, හැඟීම් ප්රතිචාර සහ සංවාදාත්මක ප්රවාහය ඇතුළු මානව සංවාදයේ ස්වභාවික රටා ආකෘතිමත් කරයි. CSM කෘතිම කථාව වෙනුවට ස්වභාවික මානව සංවාදයක් මෙන් ශබ්ද වන ශ්රව්ය ජනනය කරයි.

සංවර්‍ධක::
Sesame

බලපත්‍රය::
Apache 2.0

වේගය:
Slow

තත්ත්ව::

භාෂා:
en

VRAM:
8GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
4x

සංවාදාත්මක ස්වභාවික වේලාව ආපසු හැරවීම පසු නාලිකාව 1B පරාමිතීන්

සඳහා හොඳම:: AI සහායකයින්, චැට්බෝට්, සංවාදාත්මක AI යෙදුම්

උත්සහ කරන්න Sesame CSM

Chatterbox Turbo

Standard

Resemble AI විසින් Chatterbox Turbo යනු Chatterbox වෙත 350M පරාමිතියක් උසස් කිරීමකි, එය 6x තත්ත්ව වේගයට 200ms ක්රියාකාරීත්වයක් සහිතව ලබා දෙයි. එය [සිනහව], [කැස්ස], සහ [කෑගැසීම] වැනි paralinguistic ටැග් පෙළ තුළ සෘජුවම සහාය දක්වයි. ප්රභවය හඳුනා ගැනීම සඳහා සියලුම ජනනය කරන ලද ශ්රව්ය මත පර්ත් ජල ලකුණු ඇතුළත් වේ.

සංවර්‍ධක::
Resemble AI

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en

VRAM:
2GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

යටතේ-200ms ප්‍රමාද Paralinguistic ටැග 6x සැබෑ කාලය හඬ ක්ලෝන කිරීම ජල ලකුණු

සඳහා හොඳම:: තත්කාලීන හඬ නියෝජිතයන්, ස්වභාවික ශබ්ද සමග ප්රකාශාත්මක කථා

උත්සහ කරන්න Chatterbox Turbo

Dia 2

Standard

Nari Labs විසින් Dia2 ඩය සඳහා ප් රවාහනය-පළමු උසස් කිරීමකි, 1B සහ 2B පරාමිතීන් විකල්ප ලබා ගත හැකිය. එය පළමු ටොකන් කිහිපයකින් ශ් රව් ය සංස්ලේෂණය කිරීම ආරම්භ කරයි, එය තත්කාලීන හඬ නියෝජිතයන් සහ කථා-කථා පයිප්ප සඳහා පරිපූර්ණ කරයි. [S1] / [S2] ටැග් සහ paralinguistic සූත් ර වැනි බහු කථික සංවාදය සහාය දක්වයි (සිනහ), (කැස්ස).

සංවර්‍ධක::
Nari Labs

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

ප්‍රථිදානය බහු- කථානායක අඩු ප්‍රමාදතාව ශාස්ත්‍රීය ලේඛන මිනිත්තු2ක් දක්වා ප්රතිදානය

සඳහා හොඳම:: තත්කාලීන හඬ නියෝජිතයන්, සංවාදය ජනනය, ශ්රව්ය යෙදුම්

උත්සහ කරන්න Dia 2

VoxCPM

Standard

OpenBMB විසින් VoxCPM 1.5 අඛණ්ඩ අවකාශය වෙනුවට විශිෂ්ට ටොකන් ක්රියාත්මක නවක tokenizer-නිදහස් TTS ආකෘතිය වේ. එය ඉහළ විශ්වාසය 44.1kHz ශ්රව්ය නිෂ්පාදනය, 3-10 තත්පර ශුන්‍ය-ෂොට් හඬ ක්ලෝන සහාය, හා පරිච්ඡේද හරහා අනුකූලතාව පවත්වා ගනී.

සංවර්‍ධක::
OpenBMB

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, zh

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

44.1kHz ශ්‍රව්‍ය ටොකනයිසර්- නිදහස් අන්තර්- භාෂා ක්ලෝන කිරීම සන්දර්භය- දැනෙන LoRA නිවැරදි කිරීම

සඳහා හොඳම:: අධි-විශ්වාසවන්ත ශ්රව්ය, ශ්රව්ය පොත්, හඬ අනුකූලතාව සමග දිගු-ආකෘතිය අන්තර්ගතය

උත්සහ කරන්න VoxCPM

OuteTTS

Free

OuteTTS මූලික ගෘහ නිර්මාණ ශිල්පය ආරක්ෂා කරමින් පෙළ-කථාව හැකියාවන් සමග විශාල භාෂා ආකෘති දීර්ඝ කරයි. එය llama.cpp (CPU / GPU) ඇතුළු බහු backends සහාය, හග් ෆේස් ට් රාන්ස්ෆෝමර්ස්, ExLlamaV2, VLLM, සහ Transformers.js හරහා බ්රවුසරයේ නිගමනය පවා.

සංවර්‍ධක::
OuteAI

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en

VRAM:
2GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
නිදහස්

CPU නිගමනය ගවේශක අනුමාන කිරීම හඬ ක්ලෝන කිරීම බහු පසුඉම කථානායක පැතිකඩ

සඳහා හොඳම:: Edge යෙදවීම, බ්රවුසර-පාදක TTS, අඩු සම්පත් පරිසර

උත්සහ කරන්න OuteTTS

TADA

Standard

TADA (Text-Acoustic Dual Alignment) හියුම් AI විසින් ලාමා 3.2 මත ඉදිකරන ලද නවකතාවක් හරහා හීනමානයන් ඉවත් කරන ප්රමුඛතම TTS ආකෘතියකි. 1B (ඉංග්රීසි) සහ 3B (බහුභාෂා) විකල්පයන්හි ලබා ගත හැකි TADA 0.09 හි RTF ලබා ගනී - සසඳන LLM පදනම් කරගත් TTS ආකෘති වලට වඩා 5x වේගවත්. එය ශ්රව්ය සන්දර්භයේ තත්පර 700 දක්වා සහාය දක්වන අතර සම්මත සංගුණක මත ශුන්‍ය හීනමාන සමඟ හැඟීම් ප්‍රකාශනාත්මක කථාව නිපදවයි.

සංවර්‍ධක::
Hume AI

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en

VRAM:
5GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

මනෝභ්‍රාන්ති ශුන්‍යයි. LLM TTS වඩා 5x වේගවත් හැඟීම් ප්‍රකාශනය 700s ශ්‍රව්‍ය සන්දර්භය ද්විත්ව පෙළගැස්වීම

සඳහා හොඳම:: උසස් තත්ත්වයේ හීනමාන-නිදහස් කථාව, හැඟීම් ප්රකාශ, ඉක්මන් නිගමනය

උත්සහ කරන්න TADA

VibeVoice

Standard

මයික්රොසොෆ්ට් විසින් VibeVoice වෙනස්කම් දෙකක් පැමිණේ: දිගු-ආකෘතිය අන්තර්ගතය සඳහා 1.5B ආකෘතිය (විනාඩි දක්වා 90,4කථිකයන්) සහ ~ 200ms පළමු ශ්රව්ය ප්රමාද සමග ශ්රව්ය විකාශනය සඳහා Realtime 0.5B ආකෘතිය. 1.5B විකල්පය දිගු ගමන් මගකට කථිකයා සමග පොඩ්කාස්ට් සහ ශ්රව්ය පොත්වල විශිෂ්ටත්වය. සටහන: මයික්රොසොෆ්ට් ටීටීඑස් කේතය ගබඩාවෙන් ඉවත් කර ඇති අතර ජනනය කරන ලද ශ්රව්ය ශ්රව්ය AI වගකීම් විරහිත වේ.

සංවර්‍ධක::
Microsoft

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, zh

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

බහු- කථානායක මිනිත්තු 90 ක් දක්වා පොඩ්කාස්ට් ජනනය කථානායක අනුකූලතාව 200ms විකාශනය

සඳහා හොඳම:: පොඩ්කාස්ට්, ශ්රව්ය පොත්, දිගු-ආකෘතිය බහු-කථික අන්තර්ගතය

උත්සහ කරන්න VibeVoice

Pocket TTS

Free

Kyutai විසින් පොකට් TTS (Moshi නිර්මාණකරුවන්) එහි බර ඉක්මවා යන සංයුක්ත 100M පරාමිතික පෙළ-කථා ආකෘතියකි. එය CPU මත කාර්යක්ෂමව ක් රියාත්මක වන අතර, තනි ශ්රව්ය සාම්පලයකින් ශුන්‍ය-ෂොට් හඬ ක්ලෝන කිරීම සහ ස්වාභාවික හඬක් ඇති කථාව නිපදවයි. කුඩා ආකෘති ප් රමාණයෙන් එය අගුළු දැමීම සහ අඩු සම්පත් පරිසර සඳහා පරිපූර්ණ වේ.

සංවර්‍ධක::
Kyutai

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, fr

VRAM:
1GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
නිදහස්

100M පරාමිතීන් CPU නිගමනය හඬ ක්ලෝන කිරීම තනි-සාම්පල ක්ලෝන කිරීම අගල්- සූදානම්

සඳහා හොඳම:: සැහැල්ලු යෙදවීම, CPU-එකම පරිසර, ඉක්මන් හඬ ක්ලෝන

උත්සහ කරන්න Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

සංවර්‍ධක::
KittenML

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en

VRAM:
0GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

සඳහා හොඳම:: Fast lightweight TTS, edge deployment, low-latency applications

උත්සහ කරන්න Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

සංවර්‍ධක::
Alibaba (FunAudioLLM)

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

සඳහා හොඳම:: Multilingual production TTS, real-time applications, voice cloning

උත්සහ කරන්න CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

සංවර්‍ධක::
OpenMOSS

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

VRAM:
16GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

සඳහා හොඳම:: Audiobooks, long-form content, multilingual production

උත්සහ කරන්න MOSS-TTS

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

සංවර්‍ධක::
ByteDance

බලපත්‍රය::
Apache 2.0

වේගය:
Slow

තත්ත්ව::

භාෂා:
en, zh

VRAM:
8GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
4x

Voice cloning Adjustable similarity Cross-lingual

සඳහා හොඳම:: High-fidelity voice cloning

උත්සහ කරන්න MegaTTS3

Kokoro

නිදහස්

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

සංවර්‍ධක::
Hexgrad

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා: en, ja, zh, ko, fr, de, it, pt, es, hi, ru

සඳහා හොඳම:: High-quality TTS with minimal latency, streaming applications

නොමිලේ උත්සාහ කරන්න

Piper

නිදහස්

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

සංවර්‍ධක::
Rhasspy

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

සඳහා හොඳම:: Quick previews, accessibility, and embedded applications

නොමිලේ උත්සාහ කරන්න

VITS

නිදහස්

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

සංවර්‍ධක::
Jaehyeon Kim et al.

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

සඳහා හොඳම:: General-purpose text-to-speech with natural prosody

නොමිලේ උත්සාහ කරන්න

MeloTTS

නිදහස්

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

සංවර්‍ධක::
MyShell.ai

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා: en, es, fr, zh, ja, ko

සඳහා හොඳම:: Production applications needing fast, multilingual TTS

නොමිලේ උත්සාහ කරන්න

OuteTTS

නිදහස්

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

සංවර්‍ධක::
OuteAI

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා: en

සඳහා හොඳම:: Edge deployment, browser-based TTS, low-resource environments

නොමිලේ උත්සාහ කරන්න

Pocket TTS

නිදහස්

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

සංවර්‍ධක::
Kyutai

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා: en, fr

සම්මත

සංවර්‍ධක::
Alibaba (FunAudioLLM)

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, zh, ja, ko, de, es, fr, it, ru

හඬ ක්ලෝන කිරීම:
ඔව්

Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following

සඳහා හොඳම:: Multilingual production TTS, real-time applications, voice cloning

උත්සහ කරන්න CosyVoice3

Chatterbox

ප්‍රමිතිය

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

සංවර්‍ධක::
Resemble AI

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

හඬ ක්ලෝන කිරීම:
ඔව්

VRAM:
4GB

1K අකුරු සඳහා පිරිවැය:
4x

Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning

සඳහා හොඳම:: Professional voice cloning with emotional control, content creation

උත්සහ කරන්න Chatterbox

Tortoise TTS

ප්‍රමිතිය

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

සංවර්‍ධක::
James Betker

බලපත්‍රය::
Apache 2.0

වේගය:
Slow

තත්ත්ව::

භාෂා:
en

හඬ ක්ලෝන කිරීම:
ඔව්

VRAM:
8GB

1K අකුරු සඳහා පිරිවැය:
4x

Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive

සඳහා හොඳම:: Audiobooks, premium content, quality-first applications

උත්සහ කරන්න Tortoise TTS

StyleTTS 2

ප්‍රමිතිය

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

සංවර්‍ධක::
Columbia University

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

හඬ ක්ලෝන කිරීම:
නෑ.

VRAM:
4GB

1K අකුරු සඳහා පිරිවැය:
4x

Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity

සඳහා හොඳම:: Studio-quality single-speaker synthesis, professional narration

උත්සහ කරන්න StyleTTS 2

OpenVoice

ප්‍රමිතිය

සංවර්‍ධක::
MyShell.ai / MIT

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, ja, ko, fr, de, es, it

හඬ ක්ලෝන කිරීම:
ඔව්

VRAM:
4GB

1K අකුරු සඳහා පිරිවැය:
4x

Instant cloningVoice conversionEmotion controlAccent controlMultilingual

සඳහා හොඳම:: Voice cloning with fine-grained style control, voice conversion

උත්සහ කරන්න OpenVoice

Sesame CSM

ප්‍රමිතිය

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

සංවර්‍ධක::
Sesame

බලපත්‍රය::
Apache 2.0

වේගය:
Slow

තත්ත්ව::

භාෂා:
en

හඬ ක්ලෝන කිරීම:
නෑ.

VRAM:
8GB

1K අකුරු සඳහා පිරිවැය:
4x

ConversationalNatural timingTurn-takingBackchannel1B parameters

සඳහා හොඳම:: AI assistants, chatbots, conversational AI applications

උත්සහ කරන්න Sesame CSM

MOSS-TTS

ප්‍රමිතිය

සංවර්‍ධක::
OpenMOSS

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

හඬ ක්ලෝන කිරීම:
ඔව්

VRAM:
16GB

1K අකුරු සඳහා පිරිවැය:
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

සඳහා හොඳම:: Audiobooks, long-form content, multilingual production

උත්සහ කරන්න MOSS-TTS

MegaTTS3

ප්‍රමිතිය

සංවර්‍ධක::
ByteDance

බලපත්‍රය::
Apache 2.0

වේගය:
Slow

තත්ත්ව::

භාෂා:
en, zh

හඬ ක්ලෝන කිරීම:
ඔව්

VRAM:
8GB

1K අකුරු සඳහා පිරිවැය:
4x

Voice cloningAdjustable similarityCross-lingual

සඳහා හොඳම:: High-fidelity voice cloning

උත්සහ කරන්න MegaTTS3

ආකෘතිය සංසන්දනය වගුව

ආකෘතිය	සංවර්‍ධක:	සත්ත්වයා	වේගය	භාෂා	VRAM	බලපත්‍රය:	ණය
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	නිදහස්	භාවිතය
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	නිදහස්	භාවිතය
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	නිදහස්	භාවිතය
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	නිදහස්	භාවිතය
Bark	Suno	Standard	Slow	13	5GB	MIT	2	භාවිතය
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	භාවිතය
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	භාවිතය
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	භාවිතය
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	භාවිතය
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	භාවිතය
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	භාවිතය
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	භාවිතය
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	භාවිතය
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	භාවිතය
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	භාවිතය
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	භාවිතය
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	භාවිතය
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	භාවිතය
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	භාවිතය
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	භාවිතය
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	භාවිතය
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	භාවිතය
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	භාවිතය
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	නිදහස්	භාවිතය
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	භාවිතය
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	භාවිතය
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	නිදහස්	භාවිතය
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	නිදහස්	භාවිතය
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	භාවිතය
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	භාවිතය
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	භාවිතය

කථා වේදිකාවට වඩාත්ම පුළුල් AI පෙළ

TTS.ai ක් තේරෙන්නේ ඇයි?

TTS.ai තනි, භාවිතා කිරීමට පහසු වේදිකාවක් ලෝකයේ හොඳම විවෘත මූලාශ්රය පෙළ-කථාව ආකෘති එකට ගෙන එයි. තනි හඬ එන්ජිමකට ඔබ අගුළු ලා ඇති වත්කම් සේවා මෙන් නොව, TTS.ai Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua විශ්ව විද්යාලයේ, සහ තවත් ප්රමුඛ පර්යේෂණ විද්යාගාර වලින් 20+ ආකෘති වෙත ඔබට ප්රවේශය ලබා දෙයි.

සෑම ආකෘතියක්ම MIT, Apache 2.0, හෝ සමාන ඉඩ දෙන බලපත්ර යටතේ විවෘත මූලාශ් රය වන අතර, ඔබගේ ව් යාපෘතිවල ජනනය කරන ලද ශබ්දය භාවිතා කිරීමට ඔබට පූර්ණ වාණිජ අයිතිවාසිකම් ඇති බව සහතික කරයි. ඔබට ශ් රව් ය පොත් සහ පොඩ්කාස්ට් සඳහා වේගවත්, සැහැල්ලු සංස්ලේෂණයක් අවශ් යද, TTS.ai සෑම භාවිතයක් සඳහාම සුදුසු ආකෘතිය ඇත.

නිදහස් ආකෘති, කිසිදු ගිණුමක් අවශ්ය

Piper (අතිශයින් වේගවත්, සැහැල්ලු), VITS (උසස් තත්ත්වයේ ස්නායු සංස්ලේෂණය), සහ MeloTTS (බහු-භාෂා සහාය) නොමිලේ TTS ආකෘති තුනක් සමඟ වහාම ආරම්භ කරන්න. කිසිදු ලියාපදිංචි, කිසිදු ක්රෙඩිට් කාඩ්, පරම්පරාව මත සීමා. නිදහස් ආකෘති බොහෝ යෙදුම් සඳහා සුදුසු ස්වභාවික ශබ්ද ප්රතිදානය සමඟ ඉංග්රීසි සහ වෙනත් භාෂා බහු සහාය.

GPU- ත්වරණ සැකසීම

සියලුම TTS ආකෘති වේගවත්, අනුකූල පරම්පරා කාලය සඳහා කැප NVIDIA GPUs මත ධාවනය. නිදහස් ආකෘති සාමාන්යයෙන් යටතේ ශ්රව්ය ජනනය2තත්පර. Kokoro වැනි සම්මත ආකෘති, CosyVoice2සහ Bark සාමාන්ය 3-5 තත්පර. ඉහළම ගුණාත්මකභාවය සහිත ප් රමිතිමත් ආකෘති, Tortoise සහ Chatterbox වැනි, පෙළ දිග අනුව තත්පර 5-15 ක් තුළ ක් රියා කරයි.

30+ භාෂා සහාය

ඉංග්රීසි, ස්පාඤ්ඤ, ප්රංශ, ජර්මානු, ඉතාලි, පෘතුගීසි, චීන, ජපන්, කොරියානු, අරාබි, හින්දි, රුසියානු, සහ තවත් බොහෝ භාෂා ඇතුළුව 30 කට වඩා වැඩි ගණනකදී කථාව ජනනය කරන්න. ආකෘති කිහිපයක් හරස්-භාෂා සංස්ලේෂණයට සහාය දක්වයි, එනම් ඔබ මුල් හඬ පුහුණු කර නොමැති භාෂාවකින් කථාව ජනනය කළ හැකිය. CosyVoice2සහ GPT-SoVITS හරස්-භාෂා හඬ ක්ලෝන කිරීමේදී විශිෂ්ට වේ.

සංවර්ධක- සූදානම් API

අපගේ OpenAI අනුකූල REST API සමඟ ඔබේ යෙදුම් වලට TTS.ai ඒකාබද්ධ කරන්න. සියලුම 20+ ආකෘති සඳහා එක් අවසන් ස්ථානයක්. Python, JavaScript, cURL සහ Go SDKs. තත්කාලීන යෙදුම් සඳහා ප් රවාහනය සහාය. විශාල ප් රමාණයේ අන්තර්ගත ජනනය සඳහා බැච් සැකසීම. අසමකාලීන දැනුම්දීම් සඳහා වෙබ්හූක්ස්. ප් රො සහ එන්ටර්ප්රයිස් සැලසුම් මත ලබා ගත හැකිය.

නිතර අසන ප්රශ්න

කතා කිරීමට පෙළ (TTS) ස්වාභාවික ශබ්ද කතා ශ්රව්ය බවට ලිඛිත පෙළ පරිවර්තනය කරන AI තාක්ෂණය. Kokoro වැනි නූතන ස්නායු TTS ආකෘති, Chatterbox, හා CosyVoice2විශේෂයෙන් මනුෂ්ය ශබ්ද වන කතා නිෂ්පාදනය කිරීමට ගැඹුරු ඉගෙනුම් භාවිතා, ස්වභාවික prosody සමග, හැඟීම්, හා රිද්මය.

එය ඔබේ අවශ්යතා මත රඳා පවතී. ඉක්මන් ප්රතිපූර්ව දර්ශන සඳහා, Piper හෝ MeloTTS භාවිතා කරන්න (නිදහස්, වේගවත්). ඉහළ ගුණාත්මක සඳහා, Kokoro හෝ CosyVoice2සහය ගන්න (ප්රමාණවත් තලය). හඬ ක්ලෝන කිරීම සඳහා, Chatterbox හෝ GPT-SoVITS භාවිතා කරන්න (වැට්). සංවාද / පොඩ්කාස්ට් අන්තර්ගතය සඳහා, Dia TTS උත්සාහ කරන්න. එක් එක් ආකෘතිය වෙනස් ශක්තිමත් — හොඳම ගැලපීම සොයා ගැනීමට පරීක්ෂණ.

ඔව්! TTS.ai Kokoro සමග නොමිලේ පෙළ-කතා ඉදිරිපත් කරයි, Piper, VITS, සහ MeloTTS ආකෘති. දක්වා කිසිදු ගිණුමක් අවශ්ය 500 අක්ෂර හා3පැයකට පරම්පරා. ලබා ගැනීමට නොමිලේ ගිණුමක් සඳහා ලියාපදිංචි 15 ණය හා සියලු ආකෘති ප්රවේශ.

අපගේ TTS ආකෘති සමස්තයක් ලෙස ඉංග්රීසි ඇතුළු 30+ භාෂා සහාය, ස්පාඤ්ඤ, ප්රංශ, ජර්මානු, ඉතාලි, පෘතුගීසි, චීන, ජපන්, කොරියානු, අරාබි, රුසියානු, හින්දි, සහ තවත් බොහෝ. භාෂා ලබා ගත හැකි ආකෘතිය අනුව වෙනස් වේ.

ඔව්, TTS.ai හරහා ජනනය කරන ලද ශ්රව්ය වාණිජමය ලෙස භාවිතා කළ හැකිය. අපගේ සියලු ආකෘති විවෘත මූලාශ්රය බලපත්ර භාවිතා (MIT, Apache 2.0). නිශ්චිත කොන්දේසි සඳහා තනි ආකෘතිය බලපත්ර පරීක්ෂා කරන්න. අපි ඔබ ඔබේ ව්යාපෘතිය සඳහා භාවිතා කරන නිශ්චිත ආකෘතිය බලපත්රය සමාලෝචනය කිරීම නිර්දේශ කරමු.

TTS.ai MP3, WAV, OGG, සහ FLAC ප්රතිදානය ආකෘති සහාය. MP3 වෙබ් වාදනය සඳහා පෙරනිමි වේ. WAV තවදුරටත් ශ්රව්ය සැකසුම් සඳහා නිර්දේශ කරනු ලැබේ. ඔබ අපගේ ශ්රව්ය පරිවර්තකය මෙවලම භාවිතා ආකෘති අතර පරිවර්තනය කළ හැකිය.

හඬ ක්ලෝන කිරීම කෙටි ශ්රව්ය සාම්පලයක් (සාමාන්යයෙන් තත්පර 5-30) සිට නිශ්චිත හඬක් පිටපත් කිරීමට AI භාවිතා කරයි. ඉලක්ක හඬ පැහැදිලි පටිගත කිරීමක් උඩුගත කරන්න, සහ චැටර්බොක්ස්, GPT-SoVITS, හෝ OpenVoice වැනි ආකෘති එම හඬ තුළ නව කථාව ජනනය කරනු ඇත. ගුණාත්මකභාවය පිරිසිදු, දිගු සබැඳි ශ්රව්ය සමඟ වැඩි දියුණු වේ.

නිදහස් පරිශීලකයන් දක්වා ජනනය කළ හැකිය 500 ඉල්ලීමකට අක්ෂර. ලියාපදිංචි පරිශීලකයන් දක්වා ඉල්ලීමකට අක්ෂර 5,000 ලබා. දිගු පෙළ සඳහා, ශ්රව්ය චුන්ක්ස් ජනනය සහ ස්වයංක්රීයව එකට stitch. API පරිශීලකයන් දක්වා සකස් කළ හැකිය 10,000 ඉල්ලීමකට අක්ෂර.

SSML (කථා සංස්ලේෂණය මාකප් භාෂාව) ආකෘතිය අනුව වෙනස් සහාය. Piper හා සමහර අනෙකුත් ආකෘති විරාම සඳහා මූලික SSML ටැග් සහාය, අවධාරණය, හා උච්චාරණය පාලනය. ස්වදේශීය SSML සහාය නොමැති ආකෘති සඳහා, ඔබ prosody බලපෑම් කිරීමට ස්වභාවික විරාම ලකුණු හා රේඛා බිඳීම් භාවිතා කළ හැකිය.

ඔව්, බොහෝ ආකෘති 0.5x සිට 2.0x දක්වා වේග ගැලපුම් සහාය. බර්ක් සහ පාර්ලර් වැනි සමහර ආකෘති ද පන්දු සහ ශෛලිය පාලනය කිරීමට ඉඩ සලසයි. ඔබට උසස් සැකසුම් පුවරුව හෝ API වේග පරාමිතීන් හරහා වේග පරාමිතීන් සකස් කළ හැකිය.

ඔව්, කණ්ඩායම සැකසීම අපගේ API හරහා ලබා ගත හැක. ඔබ තනි API ඇමතුමක් හෝ ස්ක්රිප්ට් බහු පෙළ කොටස් ඉදිරිපත් කළ හැකි අතර, එක් එක් සැකසීමට හා වෙනම ශ්රව්ය ගොනු ලෙස ආපසු ලැබෙනු ඇත. මෙය ශ්රව්ය පොත් පරිච්ඡේද, ඊ-ඉගෙනුම් මොඩියුල, හෝ ක්රීඩා සංවාදය ස්ක්රිප්ට් සඳහා කදිම වේ.

ඔබේ ගිණුම දර්ශක පුවරුව සිට API යතුරක් ජනනය කරන්න, ඉන්පසු ඔබේ පෙළ, ආකෘතිය සහ හඬ පරාමිතීන් සමඟ අපගේ REST API අවසන් ස්ථානයට POST ඉල්ලීම් යවන්න. අපි Python, JavaScript සහ cURL හි කේත උදාහරණ සපයන්නෙමු. API OpenAI අනුකූල වන අතර, පවතින ඒකාබද්ධතා අවම වෙනස්කම් සමඟ වැඩ කරයි.

5.0/5 (3)

දැන් පෙළ සිට කථාව බවට පරිවර්තනය ආරම්භ කරන්න

TTS.ai භාවිතා නිර්මාණකරුවන් දහස් ගණනක් එක්වන්න. නව ගිණුමක් සමඟ 15,000 නොමිලේ අක්ෂර ලබා ගන්න. ලියාපදිංචි තොරව නොමිලේ ආකෘති ලබා ගත හැකිය.

නොමිලේ ලියාපදිංචි මිල දර්ශනය

AI පෙළ සිට කථාවName

TTS.ai ආදරය? ඔබේ මිතුරන්ට කියන්න!

ආකෘති විස්තර

OpenVoice

වඩා හොඳ ප්රතිඵල සඳහා ඉඟි

ණය පිරිවැය

AI පෙළ කථාව වැඩ කරන්නේ කෙසේද

ඔබේ පෙළ ඇතුළත් කරන්න

ආකෘතිය සහ හඬ තෝරන්න

ජනනය කරන්න (B)

කටහඬ පෙළ භාවිතය නඩු

ශ්‍රව්‍ය පොත්

වීඩියෝ කටහඬ

පොඩ්කාස්ට්

ක්‍රීඩාName

ඉලෙක්ට්‍රොනික ඉගෙනුම්

පිවිසීම

IVR සහ දුරකථන පද්ධති

සමාජ මාධ්ය

ප්‍රවාහය

අලෙවිකරණ

පිටපත් කිරීම සහ ප්‍රාදේශීයකරණයName

භාවනා & යහපැවැත්ම

සියලු පෙළ සිට කථාව ආකෘති

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Dia 2

VoxCPM

TADA

VibeVoice

CosyVoice3

Chatterbox