AI පෙළ සිට කථාවName

විවෘත මූලාශ්රය AI ආකෘති සමඟ ස්වභාවික ශබ්ද කථනය පෙළ පරිවර්තනය. භාවිතා කිරීමට නිදහස්, ගිණුමක් අවශ්ය නැත.

නොමිලේ ලියාපදිංචි

අපි තවම ඔබේ භාෂාවෙන් TTS හඬක් නැහැ. අපිට උදව් කරන්න ඔබගේ එක එකතු කරන්න! ඔබේ හඬ විකුණන්න

0/500 අකුරු · පරම්පරාවකට 5,000 ක් සඳහා ලියාපදිංචි වන්න →

ලියාපදිංචි වන්න 5,000 අක්ෂර සීමා

SSML ක්‍රමය (හොඳින් පාලනය සඳහා කථා සංස්ලේෂණය මාකප් භාෂාව)

නිවැරදි පාලනය සඳහා SSML ටැග් ඔබේ පෙළ ආවරණය:

<speak><prosody rate="slow">Slow speech</prosody></speak>

හැඟීම් / ශෛලිය

බෙදා හැරීම බලපෑම් කිරීමට හැඟීම් සලකුණු එකතු (ආකෘතිය සහාය වෙනස්):

උච්චාරණ ශබ්දකෝෂය

අභිරුචි උච්චාරණය අර්ථ දක්වන්න (වචනය = උච්චාරණය):

පීච් 0

-12 +12

AI ආකෘතිය

හඬ

භාෂාව

ප්‍රථිධාන සංයුතිය

වේගය 1.0x

0.5x 2.0x

Piper, VITS, MeloTTS සමඟ නිදහස්

ඔබේ ජනනය ශ්රව්ය මෙහි පෙනෙනු ඇත. ආකෘතිය තෝරන්න, පෙළ ඇතුලත්, හා ජනනය ක්ලික් කරන්න.

ආකෘති විස්තර

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

සංවර්‍ධක:	KittenML
බලපත්‍රය:	Apache 2.0
වේගය	Fast
තත්ත්ව:
භාෂා	1 භාෂාව
VRAM	0GB
හඬ ක්ලෝන කිරීම	සහාය නොදක්වයි

විශේෂාංග:

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

සඳහා හොඳම:: Fast lightweight TTS, edge deployment, low-latency applications

වඩා හොඳ ප්රතිඵල සඳහා ඉඟි

ස්වභාවික විරාම හා කටහඬ සඳහා සුදුසු විරාම ලකුණු භාවිතා කරන්න
පැහැදිලි උච්චාරණය සඳහා අංක සහ කෙටි නාම අකුරු කරන්න
වාක්‍ය ඛණ්ඩ අතර කෙටි විරාම සෑදීමට කොමාව එක් කරන්න
දිගු නාට්‍යමය විරාම සඳහා එලිප්සි භාවිතා කරන්න (...)
බොහෝ ස්වාභාවික ප්රතිඵල සඳහා Kokoro හෝ CosyVoice උත්සාහ කරන්න2
බහු- කථික සංවාදය සහ පොඩ්කාස්ට් අන්තර්ගතය සඳහා Dia භාවිතා කරන්න

ණය පිරිවැය

සත්ත්වයා	1K අකුරු සඳහා පිරිවැය
නිදහස්	0 ණය (සීමා රහිත)
සම්මත	2 ණය / 1K අක්ෂර
ප්‍රමිතිය	4 ණය / 1K අක්ෂර

තවත් අකුරු ලබාගන්න

AI පෙළ කථාව වැඩ කරන්නේ කෙසේද

සරල පියවර තුනක් වෘත්තීය-ගුණාත්මක voiceovers ජනනය. තාක්ෂණික දැනුම අවශ්ය නැත.

පියවර 1

ඔබේ පෙළ ඇතුළත් කරන්න

වර්ගය, ඇලවීම, හෝ ඔබ කතා කිරීමට පරිවර්තනය කිරීමට අවශ්ය පෙළ උඩුගත. දක්වා සහාය 5,000 පිවිසුණු පරිශීලකයන් සඳහා පරම්පරාවකට අක්ෂර. සරල පෙළ භාවිතා හෝ උච්චාරණය උසස් පාලනය සඳහා SSML ටැග් එකතු, විරාම, සහ අවධාරණය.

පියවර 2

ආකෘතිය සහ හඬ තෝරන්න

20+ AI ආකෘති ස්ථර තුනක් හරහා තෝරන්න. ඔබේ අන්තර්ගතය ගැලපෙන හඬක් තෝරන්න, ඔබේ ඉලක්ක භාෂාව තෝරන්න, 0.5x සිට 2.0x දක්වා ප් රචාරක වේගය සකසන්න, සහ ඔබේ ප් රියතම ප්රතිදානය ආකෘතිය තෝරන්න (MP3, WAV, OGG, හෝ FLAC).

පියවර 3

ජනනය කරන්න (B)

ක්ලික් කරන්න ජනනය සහ ඔබේ ශ්රව්ය තත්පර තුළ සූදානම්. තනන ලද ක්රීඩකයා සමග පූර්ව දර්ශනය, ඔබේ තෝරාගත් ආකෘතිය බාගත, හෝ shareable සබැඳියක් පිටපත්. ඔබේ වැඩ ප්රවාහයට කණ්ඩායම් සැකසීම සහ ඒකාබද්ධ කිරීම සඳහා API භාවිතා කරන්න.

කටහඬ පෙළ භාවිතය නඩු

AI-powered text-to-speech කර්මාන්ත දස දහස් ගණනක් හරහා මිනිසුන් නිර්මාණය, පරිභෝජනය, සහ ශ්‍රව්‍ය අන්තර්ගතය සමඟ අන්තර් ක්රියා කරන ආකාරය පරිවර්තනය කරයි.

ශ්‍රව්‍ය පොත්

සම්පූර්ණ පොත් ස්වභාවික-ශබ්ද ශ්රව්ය පොත් ස්ටූඩියෝ-ගුණාත්මක කථා සමග පරිවර්තනය. චරිත සංවාදය සඳහා Dia සමග බහු-කථික සහාය.

වීඩියෝ කටහඬ

YouTube, TikTok, Instagram Reels සහ Shorts සඳහා වෘත්තීය හඬකැවීම් නිර්මාණය කරන්න. 100+ හඬ හෝ ඔබේම ක්ලෝන් කරන්න.

පොඩ්කාස්ට්

බහු AI හඬවල් සමග ස්ක්රිප්ට් සිට පොඩ්කාස්ට් වැඩසටහන් ජනනය කරන්න. ස්වභාවික දෙකක් කථානායක සංවාද සඳහා Dia භාවිතා කරන්න.

ක්‍රීඩාName

ඉන්දීය ක්රීඩා සඳහා AI හඬ ක්රියා, දෘශ්ය නවකතා, සහ අන්තර්ක්රියාකාරී චිත්රපට. NPC සංවාදය, cutscene හඬ, 30 + භාෂා.

ඉලෙක්ට්‍රොනික ඉගෙනුම්

පාඨමාලා ද්රව්ය පරිවර්තනය, දේශන, සහ ශ්රව්ය පුහුණු අන්තර්ගතය. ගෝලීය වේදිකා සඳහා බහු-භාෂා සහාය.

පිවිසීම

වෙබ් අඩවි කරන්න, ලේඛන, සහ යෙදුම් ප්රවේශ විය හැක. තිරය කියවන්නා API ඒකාබද්ධ හා ලිපිය ශ්රව්ය පරිවර්තනය.

IVR සහ දුරකථන පද්ධති

ස්වාභාවික AI හඬ සමඟ බලය IVR පද්ධති, දුරකථන මෙනු සහ පාරිභෝගික සේවා. ඇමතුම් මධ්යස්ථාන සඳහා අඩු ප්රමාද ශ්රව්ය.

සමාජ මාධ්ය

ටික් ටොක් කථා, ඉන්ස්ටග්රෑම් රීල්ස්, ට්විටර් / X විචාර, යූ ටියුබ් කෙටි. නිදහස් ආකෘති සමඟ ඉක්මන් ජනනය.

ප්‍රවාහය

ට්විච් TTS අනතුරු ඇඟවීම්, හඬ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-සහ-

අලෙවිකරණ

දැන්වීම් voiceovers, විස්තර වීඩියෝ, නිෂ්පාදන දර්ශන, සහ අලෙවි ඉදිරිපත් කිරීම්. ව්යාපාර හරහා ශ්රව්ය අන්තර්ගතය නිෂ්පාදනය පරිමාණය.

පිටපත් කිරීම සහ ප්‍රාදේශීයකරණයName

හඬ-ගැලපෙන AI සමඟ 30+ භාෂා වලට වීඩියෝ පරිවර්තනය සහ ඩබ්. ස්වයං-පරිවර්තනය සහ කථානායක හඳුනා ගැනීම.

භාවනා & යහපැවැත්ම

භාවනා, නින්ද කතා, හුස්ම අභ්‍යාස, සහ සන්සුන් සමග ස්ථිර කිරීම්, සන්සුන් AI හඬවල්.

සියළුම නඩු සහ මෙවලම් භාවිතා කරන්න

සියලු පෙළ සිට කථාව ආකෘති

TTS.ai මත ලබා ගත හැකි සෑම AI ආකෘතිය සඳහා සවිස්තරාත්මක පිරිවිතර. ඔබේ ව්යාපෘතිය සඳහා පරිපූර්ණ ආකෘතිය සොයා ගුණාත්මක, වේගය, භාෂා සහාය, සහ ලක්ෂණ සංසන්දනය.

Kokoro

Free

Kokoro යනු එහි බර පන්තියට වඩා හොඳින් පීඩනය කරන 82 මිලියන පරාමිතික පෙළ-කථා ආකෘතියකි. එහි කුඩා ප් රමාණයට පටහැනිව, එය විශිෂ්ට ස්වාභාවික හා ප් රකාශාත්මක කථාව නිපදවයි. Kokoro ඉංග් රීසි, ජපන්, චීන, සහ කොරියානු ඇතුළු විවිධ භාෂා සඳහා සහාය දක්වයි. එය අතිශයින් වේගවත්ව ක් රියාත්මක වේ - GPU මත සැබෑ කාලයට වඩා 100x වේගයෙන් ශ් රව් ය ජනනය කරයි.

සංවර්‍ධක::
Hexgrad

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, ja, zh, fr, it, pt, es, hi

VRAM:
1.5GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

82M පරාමිතීන් අති- වේගවත් ප්‍රකාශිත හඬ බහුභාෂා විකාශන සහාය

සඳහා හොඳම:: අවම ප්රමාදයක් සහිත උසස් තත්ත්වයේ TTS, ප්රවාහ යෙදුම්

උත්සහ කරන්න Kokoro

Piper

Free

Piper යනු VITS සහ larynx ගෘහ නිර්මාණ ශිල්ප භාවිතා කරන Rhasspy විසින් සංවර්ධනය කරන ලද සැහැල්ලු පෙළ-කථා එන්ජිමකි. එය සම්පූර්ණයෙන්ම CPU මත ධාවනය වන අතර, එය අගල් උපාංග, ගෘහ ස්වයංක් රීයකරණ සහ ඔෆ්ලයින් TTS අවශ් ය වන යෙදුම් සඳහා පරිපූර්ණ කරයි. 30+ භාෂා හරහා 100 හඬවල් කට වඩා වැඩි, Piper රාස්ප්බෙරි පයි මත පවා තත්පරයට ස්වභාවික හඬක් ඇති කථාව ලබා දෙයි4.

සංවර්‍ධක::
Rhasspy

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

CPU- හිතකාමී නොබැඳි හැකියාව 100+ හඬ 30+ භාෂා SSML සහාය

සඳහා හොඳම:: ඉක්මන් පූර්‍වදසුන, පිවිසුම් හැකියාව, සහ තිළැලි යෙදුම්Name

උත්සහ කරන්න Piper

VITS

Free

VITS (අවසන්-අවසන් පෙළ-කථාව සඳහා විරුද්ධාභාස ඉගෙනීම සමග විචලනය උපකල්පනය) වත්මන් අදියර දෙකක් ආකෘති වඩා ස්වභාවික ශබ්ද ශ්රව්ය ජනනය කරන සමාන්තර අවසන්-අවසන් TTS ක්රමයකි. එය ස්වභාවිකත්වය සැලකිය යුතු දියුණුවක් ලබා ගැනීම සඳහා, සාමාන්යකරණය ප්රවාහයන් හා විරුද්ධාභාස පුහුණු ක්රියාවලිය සමග වැඩි දියුණු කරන ලද විචලනය උපකල්පනය අනුගමනය කරයි.

සංවර්‍ධක::
Jaehyeon Kim et al.

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

VRAM:
1GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

අවසානයේ සිට අවසානය දක්වා සංස්ලේෂණය ස්වභාවික ව්‍යංජනාක්ෂර වේගවත් නිගමනය බහු කථාකරන්නන්

සඳහා හොඳම:: ස්වභාවික කටහඬ සහිත පොදු අරමුණු පෙළ- සිට- කථාවName

උත්සහ කරන්න VITS

MeloTTS

Free

MyShell.ai විසින් MeloTTS ඉංග්රීසි සහාය බහුභාෂා TTS පුස්තකාලයක් (ඇමරිකානු, බ්‍රිතාන්‍ය, ඉන්දියානු, ඕස්ට් රේලියානු), ස්පාඤ්ඤ, ප්රංශ, චීන, ජපන්, සහ කොරියානු. එය ඉතා වේගවත්, CPU පමණක් මත සමීප තත්කාලීන වේගයෙන් පෙළ සැකසීම. MeloTTS නිෂ්පාදනය භාවිතා කිරීම සඳහා නිර්මාණය කර ඇති අතර CPU සහ GPU නිගමනය දෙකම සහාය.

සංවර්‍ධක::
MyShell.ai

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

CPU- උපරිමකරණය බහුභාෂා බහු වචන නිෂ්පාදනය-සූදානම් අඩු ප්‍රමාදයක්

සඳහා හොඳම:: වේගවත්, බහුභාෂා TTS අවශ්ය නිෂ්පාදන යෙදුම්

උත්සහ කරන්න MeloTTS

Bark

Standard

සුනෝ විසින් බර්ක් ඉතා යථාර්ථවාදී, බහුභාෂා කථාව මෙන්ම සංගීතය වැනි වෙනත් ශ්රව්ය උත්පාදනය කළ හැකි පරිවර්තක-පාදක පෙළ-සංගීතය ආකෘතිය, පසුබිම් ශබ්දය, හා ශබ්ද බලපෑම්. එය සිනහව, සිනා, හා හඬමින් වැනි වචන නොවන සන්නිවේදන නිෂ්පාදනය කළ හැකිය. බර්ක් 100 කථානායක පෙර සැකසුම් සහ 13+ භාෂා කට වඩා සහාය.

සංවර්‍ධක::
Suno

බලපත්‍රය::
MIT

වේගය:
Slow

තත්ත්ව::

භාෂා:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

ශබ්ද සැරසිලි හිනාවෙනවා/සුසුම් හෙලනවා සංගීතය ජනනය කථානායකයන් 100+ බහුභාෂා

සඳහා හොඳම:: නිර්මාණාත්මක ශ්රව්ය අන්තර්ගතය, හැඟීම් සමග ශ්රව්ය පොත්, ශබ්ද බලපෑම්

උත්සහ කරන්න Bark

Bark Small

Standard

බර්ක් කුඩා සැලකිය යුතු ලෙස වේගවත් නිගමනය වේග හා අඩු මතක අවශ්යතා සඳහා සමහර ශ්රව්ය ගුණාත්මක වෙළඳාම් කරන බර්ක් ආකෘතිය ඩිස්ටිල්ඩ් අනුවාදය වේ. එය හැඟීම් සමග කථාව ජනනය කිරීමට බර්ක්ගේ හැකියාව පවත්වා, හිනාව, සහ බහු භාෂා.

සංවර්‍ධක::
Suno

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

සැහැල්ලු සම්පූර්ණ බර්ක් වඩා වේගවත් චිත්තවේගීය කථාව බහුභාෂා

සඳහා හොඳම:: සම්පූර්ණ බර්ක් ඉතා මන්දගාමී විට ඉක්මන් නිර්මාණශීලී ශ්රව්ය

උත්සහ කරන්න Bark Small

CosyVoice 2

Standard

ඇලිබාබාගේ ටොන්ජි රසායනාගාරය විසින් CosyVoice2අතිශයින්ම අඩු ප්රමාදයක් සහිත මිනිස්-සමාන කථා ගුණාත්මකභාවය ලබා ගනී, එය තත්කාලීන යෙදුම් සඳහා කදිම කරයි. එය ප්රවාහ සංස්ලේෂණය සඳහා සීමිත ස්කෑලර් ක්වොන්ටම් ප්රවේශයක් භාවිතා කරන අතර ශූරතාවයේ හඬ ක්ලෝන කිරීම, හුවමාරු භාෂා සංස්ලේෂණය සහ සිහින් හැඟීම් පාලනයට සහාය දක්වයි. එය මනෝවිද් යාත්මක ඇගයීම්වල බොහෝ වාණිජ TTS පද්ධතිවලට වඩා හොඳින් ඉටු කරයි.

සංවර්‍ධක::
Alibaba (Tongyi Lab)

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

ශ්‍රිතය ශුන්‍ය-ෂොට් ක්ලෝන කිරීම අන්තර් භාෂාName හැඟීම් පාලනය මිනිස්-සමානතාව

සඳහා හොඳම:: තත්කාලීන යෙදුම්, ට් ටී ටී එස්, හඬ සහායකයින්

උත්සහ කරන්න CosyVoice 2

Dia TTS

Standard

Nari Labs විසින් ඩය 1.6B පරාමිතීන් පෙළ-කථාව ආකෘතිය විශේෂයෙන් බහු කථික සංවාදයක් ජනනය කිරීම සඳහා නිර්මාණය කර ඇත. එය සුදුසු ආපසු ගැනීම, prosody, හා හැඟීම් ප්රකාශ සමග කථිකයන් දෙදෙනෙකු අතර ස්වභාවික-ශබ්ද සංවාද නිෂ්පාදනය කළ හැකිය. ඩය පොඩ්කාස්ට්-ශෛලිය අන්තර්ගතය නිර්මාණය කිරීම සඳහා පරිපූර්ණ වේ, ශ්රව්ය පොත් සංවාද, සහ අන්තර්ක්රියාකාරී සංවාදාත්මක AI.

සංවර්‍ධක::
Nari Labs

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

බහු- කථානායක සංවාද ජනනය ස්වභාවිකව හැරෙමින් හැඟීම් ප්‍රකාශනය 1.6B පරාමිතීන්

සඳහා හොඳම:: පොඩ්කාස්ට්, ශ්රව්ය පොත් සංවාද, සංවාදාත්මක අන්තර්ගතය

උත්සහ කරන්න Dia TTS

Parler TTS

Standard

Parler TTS ජනනය කරන ලද කථාව පාලනය කිරීමට ස්වභාවික භාෂාව හඬ විස්තරය භාවිතා කරන පෙළ-කථාව ආකෘතිය වේ. පෙර සකස් හඬ තෝරා වෙනුවට, ඔබ අවශ්ය හඬ විස්තර (උදා, "සුළු බ්‍රිතාන්‍ය උච්චාරණය සමග උණුසුම් කාන්තා හඬ, හෙමින් හා පැහැදිලිව කතා") හා Parler එම විස්තරය ගැලපෙන කථාව ජනනය. මෙම නිර්මාණාත්මක යෙදුම් සඳහා එය සුවිශේෂී නම්යශීලී කරයි.

සංවර්‍ධක::
Hugging Face

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

හඬ විස්තරය ස්වභාවික භාෂා පාලනය නම්යශීලී හඬ නිර්මාණය පෙර සැකසූ හඬක් අවශ්‍ය නොවේ

සඳහා හොඳම:: ඔබට අභිරුචි හඬ ලක්ෂණ අවශ්ය වන නිර්මාණශීලී යෙදුම්

උත්සහ කරන්න Parler TTS

GLM-TTS

Standard

Zhipu AI විසින් GLM-TTS යනු ප් රවාහය ගැලපීම සමඟ ලාමා ගෘහ නිර්මාණ ශිල්පය මත ඉදි කරන ලද පෙළ-කථා පද්ධතියකි. එය විවෘත මූලාශ් රය TTS ආකෘති අතර අඩුම අක්ෂර දෝෂ අනුපාතය ලබා ගනී, එය වඩාත් නිවැරදි උච්චාරණය නිපදවයි යන්නයි. GLM-TTS 3-10 තත්පර ශ් රව් ය සාම්පල වලින් හඬ ක්ලෝන කිරීම සමඟ ඉංග් රීසි සහ චීන සහාය දක්වයි.

සංවර්‍ධක::
Zhipu AI

බලපත්‍රය::
GLM-4 License

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

අඩුම දෝෂ අනුපාතය හඬ ක්ලෝන කිරීම ගලා යාම ගැලපීම ස්වභාවික ව්‍යංජනාක්ෂර

සඳහා හොඳම:: උපරිම උච්චාරණ නිරවද්‍යතාව අවශ්‍ය යෙදුම්Name

උත්සහ කරන්න GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 යනු රසවත් හැඟීම් පාලනයක් සහිත ශුන්‍ය-ෂොට් හඬ සංස්ලේෂණයේ විශිෂ්ටත්වයක් ඇති උසස් පෙළ-කථා පද්ධතියකි. එය හැඟීම්-විශේෂී පුහුණු දත්ත අවශ් ය නොවන අතර සතුට, දුක, තරහ, හෝ බිය වැනි විශේෂිත හැඟීම් ස්වරූපයෙන් කතා කළ හැකිය. ආකෘතිය නිශ්චිතව ජනනය කරන ලද කථාවේ හැඟීම් ප්රකාශනය පාලනය කිරීම සඳහා හැඟීම් දෛශික භාවිතා කරයි.

සංවර්‍ධක::
Index Team

බලපත්‍රය::
Bilibili Model License

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

හැඟීම් පාලනය ශූන්‍ය-ෂොට් හැඟීම් දෛශික නිරූපණාත්මක කථාව කුඩා ධාන්ය පාලන

සඳහා හොඳම:: මානසිකව ප්රකාශාත්මක අන්තර්ගතය, ශ්රව්ය පොත්, අතථ්ය සහායකයින්

උත්සහ කරන්න IndexTTS-2

Spark TTS

Standard

SparkAudio විසින් Spark TTS පාලනය කළ හැකි හැඟීම් සහ කතා කිරීමේ ශෛලිය සමඟ හඬ ක්ලෝන කිරීම ඒකාබද්ධ කරන පෙළ-කථා ආකෘතියකි. හුදෙක් භාවිතා කරමින්5සඳහන ශ්රව්ය තත්පර, එය හඬ ක්ලෝන කළ හැකි අතර පසුව විවිධ හැඟීම්, වේගයන් සහ ශෛලීන් සමඟ කථාව ජනනය කළ හැකිය. ක්ලෝන හඬ අනන්යතාව පවත්වා ගනිමින්. Spark TTS ඉක්මන් පදනම් පාලන පද්ධතියක් භාවිතා කරයි.

සංවර්‍ධක::
SparkAudio

බලපත්‍රය::
CC BY-NC-SA 4.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

හඬ ක්ලෝන කිරීම හැඟීම් පාලනය රටා පාලකය ප්‍රශ්ණ- පාදක තත්පර 5ක ක්ලෝන කිරීම

සඳහා හොඳම:: ක්ලෝන හඬ සහ හැඟීම් පාලනය සමග අන්තර්ගතය නිර්මාණය

උත්සහ කරන්න Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS බලවත් කිහිපයක්-ෂොට් හඬ ක්ලෝන සඳහා SoVITS (පරිවර්තනය සහ සංස්ලේෂණය හරහා ගායනා හඬ නිගමනය) සමග GPT-ශෛලිය භාෂා ආකෘති නිර්මාණය ඒකාබද්ධ කරයි.5සඳහා සුළු ලෙස5සඳහා සබැඳි ශ්රව්ය තත්පර, එය කථානායකගේ සුවිශේෂී ලක්ෂණ පවත්වා ගනිමින් නිවැරදිව හඬ ක්ලෝන හා නව කථාව ජනනය කළ හැකිය. එය කතා කිරීම සහ ගායනා හඬ සංස්ලේෂණය දෙකම විශිෂ්ට වේ.

සංවර්‍ධක::
RVC-Boss

බලපත්‍රය::
MIT

වේගය:
Slow

තත්ත්ව::

භාෂා:
en, zh, ja, ko

VRAM:
6GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

තත්පර 5ක ක්ලෝන කිරීම සින්දු කියන හඬ ටිකක්-ෂොට් ඉගෙනීම ඉහළ විශ්වාසනීයත්වය භාෂා

සඳහා හොඳම:: හඬ ක්ලෝන, ගායනා සංස්ලේෂණය, අන්තර්ගත නිර්මාණකරු හඬ අනුපිටපත්

උත්සහ කරන්න GPT-SoVITS

Orpheus

Standard

Orpheus මිනිස් මට්ටමේ මානසික ප්රකාශනය සාක්ෂාත් කරන විශාල පරිමාණ පෙළ-කථාව ආකෘතිය වේ. විවිධාකාර කථන දත්ත පැය 100,000 කට වඩා පුහුණු, එය ස්වභාවික හැඟීම්, අවධාරණය, හා කථා ශෛලීන් සමග කථාව ජනනය විශිෂ්ට. Orpheus මානව පටිගත කිරීම් සිට බොහෝ දුරට වෙන් කළ නොහැකි බව කථාව නිෂ්පාදනය කළ හැකිය.

සංවර්‍ධක::
Canopy Labs

බලපත්‍රය::
Llama 3.2 Community

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

මිනිස් මට්ටමේ හැඟීම් 100K පැය පුහුණු ස්වභාවික අවධාරණය නිරූපණාත්මක කථාව

සඳහා හොඳම:: උසස් තත්ත්වයේ මානසික කතා, ශ්රව්ය පොත්, හඬ ක්රියා

උත්සහ කරන්න Orpheus

Chatterbox

Premium

Resemble AI විසින් Chatterbox අති නවීන ශුන්‍ය-ෂොට් හඬ ක්ලෝන ආකෘතිය වේ. එය කැපී පෙනෙන නිරවද් යතාවය සමග තනි ශ්රව්ය සාම්පලයක් සිට ඕනෑම හඬක් අනුපිටපත් කළ හැකි, හුදෙක් timbre පමණක් නොව කතා ශෛලිය හා හැඟීම් තීව්රතාවය අල්ලා ගැනීම. Chatterbox ද සිහින්-ගුණාත්මක හැඟීම් පාලනය ලක්ෂණ, ඔබ හඬ අනන්යතාවයෙන් ස්වාධීනව ජනනය කරන ලද කථාව හැඟීම් තීව්රතාවය සකස් කිරීමට ඉඩ.

සංවර්‍ධක::
Resemble AI

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
4x

ශුන්‍ය-ෂොට් ක්ලෝන කිරීම හැඟීම් පාලනය ඉහළ විශ්වාසනීයත්වය රටා හුවමාරුව තනි සාම්පල ක්ලෝන කිරීම

සඳහා හොඳම:: හැඟීම් පාලනය, අන්තර්ගතය නිර්මාණය සමග වෘත්තීය හඬ ක්ලෝන

උත්සහ කරන්න Chatterbox

Tortoise TTS

Premium

කටුස්සා TTS වේගය වඩා ශ්රව්ය ගුණාත්මක ප් රමුඛතාවය දෙන බව autoregressive බහු-හඬ පෙළ-කථා පද්ධතියකි. එය විශිෂ්ට prosody හා කථානායක සමානත්වය සමග ඉතා ස්වභාවික කථාව ජනනය කිරීමට DALL-E-ආශ්වාදයක් ගෘහ නිර්මාණ ශිල්පය භාවිතා කරයි. බොහෝ විකල්ප වඩා මන්දගාමී වන අතර, කටුස්සා විවෘත මූලාශ්රය පරිසර පද්ධතිය තුළ ලබා ගත හැකි වඩාත් යථාර්ථවාදී සංස්ලේෂණය කථාව සමහරක් නිෂ්පාදනය කරයි.

සංවර්‍ධක::
James Betker

බලපත්‍රය::
Apache 2.0

වේගය:
Slow

තත්ත්ව::

භාෂා:
en

VRAM:
8GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
4x

උසස්ම තත්ත්වයේ බහු හඬ DALL-E ගෘහ නිර්මාණ ශිල්පය හඬ ක්ලෝන කිරීම ස්වයංක්‍රීය ප්‍රතික්‍රියාකාරක

සඳහා හොඳම:: ශ්රව්ය පොත්, වාරික අන්තර්ගතය, ගුණාත්මක පළමු අයදුම්පත්

උත්සහ කරන්න Tortoise TTS

StyleTTS 2

Premium

StyleTTS2මනුෂ්ය මට්ටමේ TTS සංස්ලේෂණය විශාල කථා භාෂා ආකෘති භාවිතා කරමින් විරුද්ධාභාසීය පුහුණුව සමග ශෛලිය ව්‍යාප්තිය ඒකාබද්ධ කිරීමෙන් සාක්ෂාත් කර ගනී. එය තනි කථානායක ආකෘති අතර වඩාත් ස්වභාවික ශබ්ද කථනය ජනනය, මානව පටිගත තරග. StyleTTS2මනුෂ්ය කථාව වෙනස්කම් පූර්ණ පරාසය අල්ලා ගැනීමට ව්‍යාප්තිය මත පදනම් වූ ශෛලිය ආකෘති නිර්මාණය භාවිතා කරයි.

සංවර්‍ධක::
Columbia University

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
en

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
4x

මිනිස් මට්ටම රටාව විහිදීම තරගකාරී පුහුණුව ස්වභාවික වෙනස්වීම ඉහළ විශ්වාසනීයත්වය

සඳහා හොඳම:: ස්ටූඩියෝ-ගුණාත්මක තනි කථානායක සංස්ලේෂණය, වෘත්තීය කථා

උත්සහ කරන්න StyleTTS 2

OpenVoice

Premium

MyShell.ai විසින් OpenVoice හඬ ශෛලිය, හැඟීම්, උච්චාරණය, රිද්මය, විරාම, සහ intonation මත කැටිති පාලනය සමග ක්ෂණික හඬ ක්ලෝන කිරීම හැකියාව. එය කෙටි ශ්රව්ය ක්ලිප් සිට හඬ ක්ලෝන හා කථානායක අනන්යතාව පවත්වා ගනිමින් බහු භාෂා කතා බහ ජනනය කළ හැකිය. OpenVoice ද හඬ පරිවර්තකයක් ලෙස ක්රියා, තත්කාලීන හඬ පරිවර්තනය ඉඩ.

සංවර්‍ධක::
MyShell.ai / MIT

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, ja, ko, fr, es

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
4x

ක්ෂණික ක්ලෝනකරණය හඬ පරිවර්තනය හැඟීම් පාලනය උපසර්ග පාලකය බහුභාෂා

සඳහා හොඳම:: ඝන-අස්වැන්න රටාව පාලනය, හඬ පරිවර්තනය සමග හඬ ක්ලෝන

උත්සහ කරන්න OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS යනු අලිබාබා Qwen කණ්ඩායමේ 1.7 බිලියන පරාමිතික පෙළ-කථන ආකෘතියකි. එය මාදිලි තුනක් සහාය දක්වයි: හැඟීම් පාලනය සහිත හඬ (කථිකයින්9දෙනෙකු), ශ් රව්ය තත්පර3කින් හඬ ක්ලෝන කිරීම සහ ස්වාභාවික භාෂාවෙන් ඔබට අවශ් ය හඬ විස්තර කරන සුවිශේෂී හඬ සැලසුම් මාදිලිය. එය ඉහළ ප් රකාශාත්මකභාවයක් සහ ස්වාභාවික ප් රසාදය සහිත භාෂා 10 ක් ආවරණය කරයි.

සංවර්‍ධක::
Alibaba (Qwen)

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

හඬ ක්ලෝන කිරීම 9 පෙරනිමි හඬ පෙළ සිට හඬ සැලසුම් හැඟීම් පාලනය භාෂා 10

සඳහා හොඳම:: හඬ ක්ලෝන හෝ අභිරුචි හඬ නිර්මාණය සමඟ බහුභාෂා අන්තර්ගතය

උත්සහ කරන්න Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) යනු සංවාදාත්මක කථාව ජනනය කිරීම සඳහා විශේෂයෙන් නිර්මාණය කරන ලද 1 බිලියන පරාමිති ආකෘතියකි. එය ආපසු හැරවීමේ වේලාව, backchannel ප්රතිචාර, හැඟීම් ප්රතිචාර සහ සංවාදාත්මක ප්රවාහය ඇතුළු මානව සංවාදයේ ස්වභාවික රටා ආකෘතිමත් කරයි. CSM කෘතිම කථාව වෙනුවට ස්වභාවික මානව සංවාදයක් මෙන් ශබ්ද වන ශ්රව්ය ජනනය කරයි.

සංවර්‍ධක::
Sesame

බලපත්‍රය::
Apache 2.0

වේගය:
Slow

තත්ත්ව::

භාෂා:
en

VRAM:
8GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
4x

සංවාදාත්මක ස්වභාවික වේලාව ආපසු හැරවීම පසු නාලිකාව 1B පරාමිතීන්

සඳහා හොඳම:: AI සහායකයින්, චැට්බෝට්, සංවාදාත්මක AI යෙදුම්

උත්සහ කරන්න Sesame CSM

Chatterbox Turbo

Standard

Resemble AI විසින් Chatterbox Turbo යනු Chatterbox වෙත 350M පරාමිතියක් උසස් කිරීමකි, එය 6x තත්ත්ව වේගයට 200ms ක්රියාකාරීත්වයක් සහිතව ලබා දෙයි. එය [සිනහව], [කැස්ස], සහ [කෑගැසීම] වැනි paralinguistic ටැග් පෙළ තුළ සෘජුවම සහාය දක්වයි. ප්රභවය හඳුනා ගැනීම සඳහා සියලුම ජනනය කරන ලද ශ්රව්ය මත පර්ත් ජල ලකුණු ඇතුළත් වේ.

සංවර්‍ධක::
Resemble AI

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en

VRAM:
2GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

යටතේ-200ms ප්‍රමාද Paralinguistic ටැග 6x සැබෑ කාලය හඬ ක්ලෝන කිරීම ජල ලකුණු

සඳහා හොඳම:: තත්කාලීන හඬ නියෝජිතයන්, ස්වභාවික ශබ්ද සමග ප්රකාශාත්මක කථා

උත්සහ කරන්න Chatterbox Turbo

VoxCPM

Standard

OpenBMB විසින් VoxCPM 1.5 අඛණ්ඩ අවකාශය වෙනුවට විශිෂ්ට ටොකන් ක්රියාත්මක නවක tokenizer-නිදහස් TTS ආකෘතිය වේ. එය ඉහළ විශ්වාසය 44.1kHz ශ්රව්ය නිෂ්පාදනය, 3-10 තත්පර ශුන්‍ය-ෂොට් හඬ ක්ලෝන සහාය, හා පරිච්ඡේද හරහා අනුකූලතාව පවත්වා ගනී.

සංවර්‍ධක::
OpenBMB

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, zh

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

44.1kHz ශ්‍රව්‍ය ටොකනයිසර්- නිදහස් අන්තර්- භාෂා ක්ලෝන කිරීම සන්දර්භය- දැනෙන LoRA නිවැරදි කිරීම

සඳහා හොඳම:: අධි-විශ්වාසවන්ත ශ්රව්ය, ශ්රව්ය පොත්, හඬ අනුකූලතාව සමග දිගු-ආකෘතිය අන්තර්ගතය

උත්සහ කරන්න VoxCPM

Kani TTS 2

Free

NineNineSix විසින් Kani-TTS-2 යනු NVIDIA NanoCodec සමඟ දියර AI LFM2 පිටුපස ඉදිකරන ලද අතිශය සැහැල්ලු 400M පරාමිතික ආකෘතියකි. එය 3GB VRAM හි ධාවනය වන අතර A100 (RTF 0.2) මත ~2 තත්පර වලදී ~ 10 තත්පර කතාබහක් නිපදවයි. වත්මන් මහජන නිකුතුව ඉංග් රීසි පමණක් `kani-tts-2-en` චෙක්පොයින්ට් එකක් සහ හඬ ක්ලෝන කිරීම සඳහා අවශ් ය කථික-අභ් යන්තරකරණය වූ හොක් නිරාවරණය නොකරයි - ක්ලෝන කිරීම සඳහා Chatterbox / IndexTTS2 / F5-TTS භාවිතා කරන්න, හෝ ඉංග් රීසි නොවන Kokoro / MeloTTS.

සංවර්‍ධක::
NineNineSix

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en

VRAM:
3GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

3GB VRAM අති- වේගවත් සැහැල්ලු නානෝකොඩෙක් නිදහස්

සඳහා හොඳම:: අඩු VRAM දෘඩාංග මත වේගවත් ඉංග්රීසි ජනපදය, ඉක්මන් පූර්ව දර්ශන

උත්සහ කරන්න Kani TTS 2

OuteTTS

Free

OuteTTS මූලික ගෘහ නිර්මාණ ශිල්පය ආරක්ෂා කරමින් පෙළ-කථාව හැකියාවන් සමග විශාල භාෂා ආකෘති දීර්ඝ කරයි. එය llama.cpp (CPU / GPU) ඇතුළු බහු backends සහාය, හග් ෆේස් ට් රාන්ස්ෆෝමර්ස්, ExLlamaV2, VLLM, සහ Transformers.js හරහා බ්රවුසරයේ නිගමනය පවා.

සංවර්‍ධක::
OuteAI

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en

VRAM:
2GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
නිදහස්

CPU නිගමනය ගවේශක අනුමාන කිරීම හඬ ක්ලෝන කිරීම බහු පසුඉම කථානායක පැතිකඩ

සඳහා හොඳම:: Edge යෙදවීම, බ්රවුසර-පාදක TTS, අඩු සම්පත් පරිසර

උත්සහ කරන්න OuteTTS

VibeVoice

Standard

මයික්රොසොෆ්ට් විසින් VibeVoice වෙනස්කම් දෙකක් පැමිණේ: දිගු-ආකෘතිය අන්තර්ගතය සඳහා 1.5B ආකෘතිය (විනාඩි දක්වා 90,4කථිකයන්) සහ ~ 200ms පළමු ශ්රව්ය ප්රමාද සමග ශ්රව්ය විකාශනය සඳහා Realtime 0.5B ආකෘතිය. 1.5B විකල්පය දිගු ගමන් මගකට කථිකයා සමග පොඩ්කාස්ට් සහ ශ්රව්ය පොත්වල විශිෂ්ටත්වය. සටහන: මයික්රොසොෆ්ට් ටීටීඑස් කේතය ගබඩාවෙන් ඉවත් කර ඇති අතර ජනනය කරන ලද ශ්රව්ය ශ්රව්ය AI වගකීම් විරහිත වේ.

සංවර්‍ධක::
Microsoft

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, zh

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
2x

බහු- කථානායක මිනිත්තු 90 ක් දක්වා පොඩ්කාස්ට් ජනනය කථානායක අනුකූලතාව 200ms විකාශනය

සඳහා හොඳම:: පොඩ්කාස්ට්, ශ්රව්ය පොත්, දිගු-ආකෘතිය බහු-කථික අන්තර්ගතය

උත්සහ කරන්න VibeVoice

Pocket TTS

Free

Kyutai විසින් පොකට් TTS (Moshi නිර්මාණකරුවන්) එහි බර ඉක්මවා යන සංයුක්ත 100M පරාමිතික පෙළ-කථා ආකෘතියකි. එය CPU මත කාර්යක්ෂමව ක් රියාත්මක වන අතර, තනි ශ්රව්ය සාම්පලයකින් ශුන්‍ය-ෂොට් හඬ ක්ලෝන කිරීම සහ ස්වාභාවික හඬක් ඇති කථාව නිපදවයි. කුඩා ආකෘති ප් රමාණයෙන් එය අගුළු දැමීම සහ අඩු සම්පත් පරිසර සඳහා පරිපූර්ණ වේ.

සංවර්‍ධක::
Kyutai

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, fr

VRAM:
1GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
නිදහස්

100M පරාමිතීන් CPU නිගමනය හඬ ක්ලෝන කිරීම තනි-සාම්පල ක්ලෝන කිරීම අගල්- සූදානම්

සඳහා හොඳම:: සැහැල්ලු යෙදවීම, CPU-එකම පරිසර, ඉක්මන් හඬ ක්ලෝන

උත්සහ කරන්න Pocket TTS

Kitten TTS

Free

KittenML විසින් Kitten TTS යනු ONNX මත ඉදිකරන ලද අතිශය සැහැල්ලු පෙළ-කථන ආකෘතියකි. 15M සිට 80M පරාමිතීන් දක්වා (තැටිය මත 25-80 MB) වෙනස්කම් සමඟ, එය GPU අවශ් ය නොවන පරිදි CPU මත උසස් තත්ත්වයේ හඬ සංස්ලේෂණය ලබා දෙයි. අංක, මුදල් සහ ඒකක සඳහා 8 ස්ථාපිත හඬ, වෙනස් කළ හැකි කතා වේගය සහ ස්ථාපිත පෙළ පෙර සැකසීම. අගුළු යෙදවීම සහ අඩු ප් රමාණයේ යෙදුම් සඳහා පරිපූර්ණ.

සංවර්‍ධක::
KittenML

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en

VRAM:
0GB

හඬ ක්ලෝන කිරීම:
නෑ.

1K අකුරු සඳහා පිරිවැය:
නිදහස්

CPU- පමණක් නිගමනය 80MB ට අඩු ආකෘති ප්‍රමාණයක් 8 තිළැලි හඬ වේග පාලකය ONNX- පදනම් 24kHz ප්රතිදානය

සඳහා හොඳම:: වේගවත් සැහැල්ලු TTS, අගල් යෙදවීම, අඩු-ලෙන්ටිටි යෙදුම්

උත්සහ කරන්න Kitten TTS

CosyVoice3

Standard

CosyVoice3 යනු අලිබාබාගේ FunAudioLLM කණ්ඩායමේ නවතම පරිණාමයයි. එය ~ 150ms ප් රමාදයක් සහිත ද්විත්ව ශ් රව්ය උපුටා ගැනීමක්, හැඟීම් / වේගය / පරිමාව සඳහා උපදෙස් මත පදනම් වූ පාලනයක් සහ ශුන්‍ය-ෂටල ක්ලෝන කිරීම සඳහා වැඩිදියුණු කළ කථික සමානතාවයක් ඇත.9භාෂා සහ 18 චීන භාෂා සහාය දක්වයි. RL-tuneed විකල්පය රාජ්ය-of-the-art prosody සපයයි.

සංවර්‍ධක::
Alibaba (FunAudioLLM)

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

ද්විත්ව- ධාරා හැඟීම් පාලනය හඬ ක්ලෝන කිරීම වේගය / පරිමාව පාලනය උපදෙස් පහත

සඳහා හොඳම:: බහුභාෂා නිෂ්පාදන TTS, තත්කාලීන යෙදුම්, හඬ ක්ලෝන

උත්සහ කරන්න CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA සවුදි TTS අභ්යවකාශයේ සෞදි අරාබියේ ChatterboxMultilingual සමාන සවුදි අරාබි fine-tune වේ. NAMAA Space විසින් පුහුණු සත්ය සවුදි-භාෂා කතාබහ මත, එය සාමාන්ය බහුභාෂා ආකෘති ගැලපෙන නොහැකි ස්වභාවික නවීන සම්මත අරාබි හා සවුදි සංවාදාත්මක උච්චාරණය නිෂ්පාදනය. Chatterbox ශුන්‍ය-ෂොට් හඬ ක්ලෝන සහ සංවාදාත්මක ශ්රව්ය ප්රශ්න හරහා හැඟීම් පාලනය උරුම. පළමු විවෘත-බර අරාබි TTS TTS.ai මත යෙදවුම්.

සංවර්‍ධක::
NAMAA Space

බලපත්‍රය::
MIT

වේගය:
Medium

තත්ත්ව::

භාෂා:
ar

VRAM:
6GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

සවුදි අරාබි උපභාෂාව නවීන සම්මත අරාබි ශූරතාවය-අවිශ්වාස හඬ ක්ලෝන හැඟීම් පාලනය ස්වදේශීය උච්චාරණය

සඳහා හොඳම:: සවුදි ප්‍රේක්ෂකයන් සඳහා අරාබි අන්තර්ගතය, MSA කථා, Khaleeji-කථාකරන හඬ නියෝජිතයන්, අරාබි ශ්රව්ය පොත්

උත්සහ කරන්න NAMAA Saudi TTS

Darwin TTS

Standard

ඩෝවින්-TTS-1.7B-කුරුස අවසන්-බංකුව විසින් Qwen3-TTS-1.7B පර්යේෂණ විකල්පය වන අතර, එහිදී 84 කතා කරන්නා-FFN tensors (8.6%) Qwen3-1.7B-අධිපත්‍යය සිට ගැලපෙන tensors සමග α =3% දී මිශ්ර කරනු ලැබේ. මිශ්රණය නැවත පුහුණුවකින් තොරව ඉදි කර ඇති අතර කොරියානු හරහා සැලකිය යුතු crisper හරස්-භාෂා හඬ ක්ලෝන නිෂ්පාදනය, ඉංග්රීසි, ජපන්, සහ චීන. ශූරතාවය-ෂොට් හඬ-ක්ලෝන මාදිලිය තුළ ක්රියාත්මක වේ (3 තත්පර උපුටා ශ්රව්ය).

සංවර්‍ධක::
FINAL-Bench

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, ko, ja, zh

VRAM:
7GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

හඬ ක්ලෝන කිරීම භාෂා FFN- මිශ්‍ර 4 මූලික භාෂා Qwen3 පසුබිම

සඳහා හොඳම:: තනි උපුටා හඬ සමග ඉංග්රීසි / කොරියානු / ජපන් / චීන අතර හරස්-භාෂා හඬ ක්ලෝන

උත්සහ කරන්න Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 OpenMOSS සිට කෙටි ශ්රව්ය ප්රතිඥාව සිට සංවාදය දිගටම පවතී 7B සංවාද පෙළ-කථාව ආකෘතිය වේ. [S1] / [S2] ටැග් හරහා5සමකාලීන කථිකයන් දක්වා සහාය, 3-10s සම්භන්ධ ශ්රව්ය ශූරතාවය හඬ ක්ලෝන, සහ 20 භාෂා හරහා සමබර බහු-පසුබස්වන සංවාදය විනාඩි දක්වා 60. MOSS-TTS සිට වෙනස් - TTSD පොඩ්කාස්ට් / ශ්රව්ය පොත් / dubbing වැඩ ප්රවාහයන් සඳහා විශේෂිත වේ.

සංවර්‍ධක::
OpenMOSS

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh

VRAM:
12GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
2x

බහු කථික සංවාදය කථානායකයන්5දක්වා 60min සමබර ශ්රව්ය හඬ ක්ලෝන කිරීම පොඩ්කාස්ට් උපරිමකරණය

සඳහා හොඳම:: පොඩ්කාස්ට්, ශ්රව්ය පොත්, dubbed සංවාදය, බහු හඬ සමග සංවාදාත්මක අන්තර්ගතය

උත්සහ කරන්න MOSS-TTSD

Ming-Omni TTS

Free

inclusionAI විසින් Ming-omni-tts-0.5B පැච්-by-පැච් ප්රවාහය ගැලපෙන ශ්රව්ය විකේතනය සමග BailingMM ඝන පිටුපස මත ඉදි කරන ලද සංයුක්ත omni-modal කථා ආකෘතිය වේ. 44.1kHz ප්රතිදානය (CD ගුණාත්මක අසල), 3+ තත්පර උපුටා ගැනීමකින් ශුන්‍ය-ෂොට් හඬ ක්ලෝන සහාය, සහ JSON උපදෙස් හරහා තනන ලද හැඟීම් / උපභාෂාව / BGM පාලනය ඇතුළත් වේ. විශිෂ්ට ස්ථාවරත්වය - චීන සම්මතයන් මත 0.83% WER.

සංවර්‍ධක::
inclusionAI

බලපත්‍රය::
Apache 2.0

වේගය:
Medium

තත්ත්ව::

භාෂා:
en, zh

VRAM:
3GB

හඬ ක්ලෝන කිරීම:
ඔව්

1K අකුරු සඳහා පිරිවැය:
නිදහස්

44. 1kHz ප්රතිදානය හඬ ක්ලෝන කිරීම හැඟීම් පාලනය භාෂා පාලකය BGM ජනනය සංයුක්ත 0. 5B

සඳහා හොඳම:: ඉහළ විශ්වාසනීය දෙමළ කථා, හැඟීම් පාලනය හඬ ක්රියා, චීන ශ්රව්ය පොත් අන්තර්ගතය

උත්සහ කරන්න Ming-Omni TTS

Kokoro

නිදහස්

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

සංවර්‍ධක::
Hexgrad

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා: en, ja, zh, fr, it, pt, es, hi

සඳහා හොඳම:: High-quality TTS with minimal latency, streaming applications

නොමිලේ උත්සාහ කරන්න

Piper

නිදහස්

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

සංවර්‍ධක::
Rhasspy

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

සඳහා හොඳම:: Quick previews, accessibility, and embedded applications

නොමිලේ උත්සාහ කරන්න

VITS

නිදහස්

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

සංවර්‍ධක::
Jaehyeon Kim et al.

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

සඳහා හොඳම:: General-purpose text-to-speech with natural prosody

නොමිලේ උත්සාහ කරන්න

MeloTTS

නිදහස්

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

සංවර්‍ධක::
MyShell.ai

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා: en, es, fr, zh, ja, ko

සඳහා හොඳම:: Production applications needing fast, multilingual TTS

නොමිලේ උත්සාහ කරන්න

Kani TTS 2

නිදහස්

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

සංවර්‍ධක::
NineNineSix

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා: en

සඳහා හොඳම:: Fast English generation on low-VRAM hardware, quick previews

නොමිලේ උත්සාහ කරන්න

OuteTTS

නිදහස්

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

සංවර්‍ධක::
OuteAI

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා: en

සඳහා හොඳම:: Edge deployment, browser-based TTS, low-resource environments

නොමිලේ උත්සාහ කරන්න

Pocket TTS

නිදහස්

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

සංවර්‍ධක::
Kyutai

බලපත්‍රය::
MIT

වේගය:
Fast

තත්ත්ව::

භාෂා: en, fr

සඳහා හොඳම:: Lightweight deployment, CPU-only environments, quick voice cloning

නොමිලේ උත්සාහ කරන්න

Kitten TTS

නිදහස්

සංවර්‍ධක::
KittenML

බලපත්‍රය::
Apache 2.0

වේගය:
Fast

තත්ත්ව::

භාෂා: en

සඳහා හොඳම:: Fast lightweight TTS, edge deployment, low-latency applications

ආකෘතිය	සංවර්‍ධක:	සත්ත්වයා	වේගය	භාෂා	VRAM	බලපත්‍රය:	ණය
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	නිදහස්	භාවිතය
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	නිදහස්	භාවිතය
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	නිදහස්	භාවිතය
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	නිදහස්	භාවිතය
Bark	Suno	Standard	Slow	13	5GB	MIT	2	භාවිතය
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	භාවිතය
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	භාවිතය
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	භාවිතය
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	භාවිතය
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	භාවිතය
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	භාවිතය
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	භාවිතය
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	භාවිතය
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	භාවිතය
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	භාවිතය
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	භාවිතය
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	භාවිතය
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	භාවිතය
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	භාවිතය
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	භාවිතය
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	භාවිතය
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	භාවිතය
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	නිදහස්	භාවිතය
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	නිදහස්	භාවිතය
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	භාවිතය
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	නිදහස්	භාවිතය
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	නිදහස්	භාවිතය
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	භාවිතය
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	භාවිතය
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	භාවිතය
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	භාවිතය
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	නිදහස්	භාවිතය

කථා වේදිකාවට වඩාත්ම පුළුල් AI පෙළ

TTS.ai ක් තේරෙන්නේ ඇයි?

TTS.ai තනි, භාවිතා කිරීමට පහසු වේදිකාවක් ලෝකයේ හොඳම විවෘත මූලාශ්රය පෙළ-කථාව ආකෘති එකට ගෙන එයි. තනි හඬ එන්ජිමකට ඔබ අගුළු ලා ඇති වත්කම් සේවා මෙන් නොව, TTS.ai Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua විශ්ව විද්යාලයේ, සහ තවත් ප්රමුඛ පර්යේෂණ විද්යාගාර වලින් 20+ ආකෘති වෙත ඔබට ප්රවේශය ලබා දෙයි.

සෑම ආකෘතියක්ම MIT, Apache 2.0, හෝ සමාන ඉඩ දෙන බලපත්ර යටතේ විවෘත මූලාශ් රය වන අතර, ඔබගේ ව් යාපෘතිවල ජනනය කරන ලද ශබ්දය භාවිතා කිරීමට ඔබට පූර්ණ වාණිජ අයිතිවාසිකම් ඇති බව සහතික කරයි. ඔබට ශ් රව් ය පොත් සහ පොඩ්කාස්ට් සඳහා වේගවත්, සැහැල්ලු සංස්ලේෂණයක් අවශ් යද, TTS.ai සෑම භාවිතයක් සඳහාම සුදුසු ආකෘතිය ඇත.

නිදහස් ආකෘති, කිසිදු ගිණුමක් අවශ්ය

Piper (අතිශයින් වේගවත්, සැහැල්ලු), VITS (උසස් තත්ත්වයේ ස්නායු සංස්ලේෂණය), සහ MeloTTS (බහු-භාෂා සහාය) නොමිලේ TTS ආකෘති තුනක් සමඟ වහාම ආරම්භ කරන්න. කිසිදු ලියාපදිංචි, කිසිදු ක්රෙඩිට් කාඩ්, පරම්පරාව මත සීමා. නිදහස් ආකෘති බොහෝ යෙදුම් සඳහා සුදුසු ස්වභාවික ශබ්ද ප්රතිදානය සමඟ ඉංග්රීසි සහ වෙනත් භාෂා බහු සහාය.

GPU- ත්වරණ සැකසීම

සියලුම TTS ආකෘති වේගවත්, අනුකූල පරම්පරා කාලය සඳහා කැප NVIDIA GPUs මත ධාවනය. නිදහස් ආකෘති සාමාන්යයෙන් යටතේ ශ්රව්ය ජනනය2තත්පර. Kokoro වැනි සම්මත ආකෘති, CosyVoice2සහ Bark සාමාන්ය 3-5 තත්පර. ඉහළම ගුණාත්මකභාවය සහිත ප් රමිතිමත් ආකෘති, Tortoise සහ Chatterbox වැනි, පෙළ දිග අනුව තත්පර 5-15 ක් තුළ ක් රියා කරයි.

30+ භාෂා සහාය

ඉංග්රීසි, ස්පාඤ්ඤ, ප්රංශ, ජර්මානු, ඉතාලි, පෘතුගීසි, චීන, ජපන්, කොරියානු, අරාබි, හින්දි, රුසියානු, සහ තවත් බොහෝ භාෂා ඇතුළුව 30 කට වඩා වැඩි ගණනකදී කථාව ජනනය කරන්න. ආකෘති කිහිපයක් හරස්-භාෂා සංස්ලේෂණයට සහාය දක්වයි, එනම් ඔබ මුල් හඬ පුහුණු කර නොමැති භාෂාවකින් කථාව ජනනය කළ හැකිය. CosyVoice2සහ GPT-SoVITS හරස්-භාෂා හඬ ක්ලෝන කිරීමේදී විශිෂ්ට වේ.

සංවර්ධක- සූදානම් API

අපගේ OpenAI අනුකූල REST API සමඟ ඔබේ යෙදුම් වලට TTS.ai ඒකාබද්ධ කරන්න. සියලුම 20+ ආකෘති සඳහා එක් අවසන් ස්ථානයක්. Python, JavaScript, cURL සහ Go SDKs. තත්කාලීන යෙදුම් සඳහා ප් රවාහනය සහාය. විශාල ප් රමාණයේ අන්තර්ගත ජනනය සඳහා බැච් සැකසීම. අසමකාලීන දැනුම්දීම් සඳහා වෙබ්හූක්ස්. API ප්රවේශය නොමිලේ ඇතුළු සෑම සැලැස්මකම ඇතුළත් වේ.

නිතර අසන ප්රශ්න

කතා කිරීමට පෙළ (TTS) ස්වාභාවික ශබ්ද කතා ශ්රව්ය බවට ලිඛිත පෙළ පරිවර්තනය කරන AI තාක්ෂණය. Kokoro වැනි නූතන ස්නායු TTS ආකෘති, Chatterbox, හා CosyVoice2විශේෂයෙන් මනුෂ්ය ශබ්ද වන කතා නිෂ්පාදනය කිරීමට ගැඹුරු ඉගෙනුම් භාවිතා, ස්වභාවික prosody සමග, හැඟීම්, හා රිද්මය.

එය ඔබේ අවශ්යතා මත රඳා පවතී. ඉක්මන් ප්රතිපූර්ව දර්ශන සඳහා, Piper හෝ MeloTTS භාවිතා කරන්න (නිදහස්, වේගවත්). ඉහළ ගුණාත්මක සඳහා, Kokoro හෝ CosyVoice2සහය ගන්න (ප්රමාණවත් තලය). හඬ ක්ලෝන කිරීම සඳහා, Chatterbox හෝ GPT-SoVITS භාවිතා කරන්න (වැට්). සංවාද / පොඩ්කාස්ට් අන්තර්ගතය සඳහා, Dia TTS උත්සාහ කරන්න. එක් එක් ආකෘතිය වෙනස් ශක්තිමත් — හොඳම ගැලපීම සොයා ගැනීමට පරීක්ෂණ.

ඔව්! TTS.ai Kokoro සමග නොමිලේ පෙළ-කතා ඉදිරිපත් කරයි, Piper, VITS, සහ MeloTTS ආකෘති. දක්වා කිසිදු ගිණුමක් අවශ්ය 500 අක්ෂර හා3පැයකට පරම්පරා. ලබා ගැනීමට නොමිලේ ගිණුමක් සඳහා ලියාපදිංචි 15 ණය හා සියලු ආකෘති ප්රවේශ.

අපගේ TTS ආකෘති සමස්තයක් ලෙස ඉංග්රීසි ඇතුළු 30+ භාෂා සහාය, ස්පාඤ්ඤ, ප්රංශ, ජර්මානු, ඉතාලි, පෘතුගීසි, චීන, ජපන්, කොරියානු, අරාබි, රුසියානු, හින්දි, සහ තවත් බොහෝ. භාෂා ලබා ගත හැකි ආකෘතිය අනුව වෙනස් වේ.

ඔව්, TTS.ai හරහා ජනනය කරන ලද ශ්රව්ය වාණිජමය ලෙස භාවිතා කළ හැකිය. අපගේ සියලු ආකෘති විවෘත මූලාශ්රය බලපත්ර භාවිතා (MIT, Apache 2.0). නිශ්චිත කොන්දේසි සඳහා තනි ආකෘතිය බලපත්ර පරීක්ෂා කරන්න. අපි ඔබ ඔබේ ව්යාපෘතිය සඳහා භාවිතා කරන නිශ්චිත ආකෘතිය බලපත්රය සමාලෝචනය කිරීම නිර්දේශ කරමු.

TTS.ai MP3, WAV, OGG, සහ FLAC ප්රතිදානය ආකෘති සහාය. MP3 වෙබ් වාදනය සඳහා පෙරනිමි වේ. WAV තවදුරටත් ශ්රව්ය සැකසුම් සඳහා නිර්දේශ කරනු ලැබේ. ඔබ අපගේ ශ්රව්ය පරිවර්තකය මෙවලම භාවිතා ආකෘති අතර පරිවර්තනය කළ හැකිය.

හඬ ක්ලෝන කිරීම කෙටි ශ්රව්ය සාම්පලයක් (සාමාන්යයෙන් තත්පර 5-30) සිට නිශ්චිත හඬක් පිටපත් කිරීමට AI භාවිතා කරයි. ඉලක්ක හඬ පැහැදිලි පටිගත කිරීමක් උඩුගත කරන්න, සහ චැටර්බොක්ස්, GPT-SoVITS, හෝ OpenVoice වැනි ආකෘති එම හඬ තුළ නව කථාව ජනනය කරනු ඇත. ගුණාත්මකභාවය පිරිසිදු, දිගු සබැඳි ශ්රව්ය සමඟ වැඩි දියුණු වේ.

නිදහස් පරිශීලකයන් දක්වා ජනනය කළ හැකිය 500 ඉල්ලීමකට අක්ෂර. ලියාපදිංචි පරිශීලකයන් දක්වා ඉල්ලීමකට අක්ෂර 5,000 ලබා. දිගු පෙළ සඳහා, ශ්රව්ය චුන්ක්ස් ජනනය සහ ස්වයංක්රීයව එකට stitch. API පරිශීලකයන් දක්වා සකස් කළ හැකිය 10,000 ඉල්ලීමකට අක්ෂර.

SSML (කථා සංස්ලේෂණය මාකප් භාෂාව) ආකෘතිය අනුව වෙනස් සහාය. Piper හා සමහර අනෙකුත් ආකෘති විරාම සඳහා මූලික SSML ටැග් සහාය, අවධාරණය, හා උච්චාරණය පාලනය. ස්වදේශීය SSML සහාය නොමැති ආකෘති සඳහා, ඔබ prosody බලපෑම් කිරීමට ස්වභාවික විරාම ලකුණු හා රේඛා බිඳීම් භාවිතා කළ හැකිය.

ඔව්, බොහෝ ආකෘති 0.5x සිට 2.0x දක්වා වේග ගැලපුම් සහාය. බර්ක් සහ පාර්ලර් වැනි සමහර ආකෘති ද පන්දු සහ ශෛලිය පාලනය කිරීමට ඉඩ සලසයි. ඔබට උසස් සැකසුම් පුවරුව හෝ API වේග පරාමිතීන් හරහා වේග පරාමිතීන් සකස් කළ හැකිය.

ඔව්, කණ්ඩායම සැකසීම අපගේ API හරහා ලබා ගත හැක. ඔබ තනි API ඇමතුමක් හෝ ස්ක්රිප්ට් බහු පෙළ කොටස් ඉදිරිපත් කළ හැකි අතර, එක් එක් සැකසීමට හා වෙනම ශ්රව්ය ගොනු ලෙස ආපසු ලැබෙනු ඇත. මෙය ශ්රව්ය පොත් පරිච්ඡේද, ඊ-ඉගෙනුම් මොඩියුල, හෝ ක්රීඩා සංවාදය ස්ක්රිප්ට් සඳහා කදිම වේ.

ඔබේ ගිණුම දර්ශක පුවරුව සිට API යතුරක් ජනනය කරන්න, ඉන්පසු ඔබේ පෙළ, ආකෘතිය සහ හඬ පරාමිතීන් සමඟ අපගේ REST API අවසන් ස්ථානයට POST ඉල්ලීම් යවන්න. අපි Python, JavaScript සහ cURL හි කේත උදාහරණ සපයන්නෙමු. API OpenAI අනුකූල වන අතර, පවතින ඒකාබද්ධතා අවම වෙනස්කම් සමඟ වැඩ කරයි.

5.0/5 (4)

දැන් පෙළ සිට කථාව බවට පරිවර්තනය ආරම්භ කරන්න

TTS.ai භාවිතා නිර්මාණකරුවන් දහස් ගණනක් එක්වන්න. නව ගිණුමක් සමඟ 15,000 නොමිලේ අක්ෂර ලබා ගන්න. ලියාපදිංචි තොරව නොමිලේ ආකෘති ලබා ගත හැකිය.

නොමිලේ ලියාපදිංචි මිල දර්ශනය

AI පෙළ සිට කථාවName

TTS.ai ආදරය? ඔබේ මිතුරන්ට කියන්න!

ආකෘති විස්තර

Kitten TTS

වඩා හොඳ ප්රතිඵල සඳහා ඉඟි

ණය පිරිවැය

AI පෙළ කථාව වැඩ කරන්නේ කෙසේද

ඔබේ පෙළ ඇතුළත් කරන්න

ආකෘතිය සහ හඬ තෝරන්න

ජනනය කරන්න (B)

කටහඬ පෙළ භාවිතය නඩු

ශ්‍රව්‍ය පොත්

වීඩියෝ කටහඬ

පොඩ්කාස්ට්

ක්‍රීඩාName

ඉලෙක්ට්‍රොනික ඉගෙනුම්

පිවිසීම

IVR සහ දුරකථන පද්ධති

සමාජ මාධ්ය

ප්‍රවාහය

අලෙවිකරණ

පිටපත් කිරීම සහ ප්‍රාදේශීයකරණයName

භාවනා & යහපැවැත්ම

සියලු පෙළ සිට කථාව ආකෘති

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3