VibeVoice

Speaker 2

සම්මත ඉංග්‍රීසි Neutral VibeVoice

Speaker 2 යනු VibeVoice පෙළ- සිට- කථාව ආකෘතිය මගින් බලගැන්වෙන neutral AI හඬකි. මෙම සම්මත-මට්ටම හඬ ඉංග්‍රීසි කතාකරයි සහ චිත්‍රාගාරය- ගුණාත්මක කථා සංස්ලේෂණය ලබාදෙයි. ක්ෂණික ජනනය කිරීමේ වේගය සහ 5/5 ක ගුණාත්මක ශ්‍රේණිගත කිරීමක් සහිතව, Speaker 2 podcasts, dialogues, long-form narration, multi-speaker content සඳහා සුදුසු වේ. මෙම ක්‍රමවේදය මඟින් ද්‍රව්‍යය ද්‍රවයක් බවට පත්කර එය ද්‍රවයක් ලෙසින් භාවිතා කිරීමට ඉඩ සලසයි. ඵලදායිතාවය: ඵලදායිතාවය යනු: ඵලදායිතාවය යනු: ඵලදායිතාවය යනු: ඵලදායිතාවය යනු: ඵලදායිතාවය යනු: ඵලදායිතාවය යනු: ඵලදායිතාවය යනු: ඵලදායිතාවය යනු: ඵලදායිතාවය යනු: ඵලදායිතාවය යනු: ඵලදායිතාවය.

තවමත් ශ්‍රේණිගත කිරීම් නැත

VibeVoiceආකෘති තොරතුරු

ආකෘතිය VibeVoice
සංවර්‍ධක Microsoft
ප්‍රමිතිය
වේගය ස්ථාවර
බලපත්‍රය MIT
ක්ලෝන කිරීම නොමැත
සත්වයා සම්මත (2 ණය / 1K අක්ෂර)
පරාමිතීන් 1.5B
ගෘහ නිර්මාණ ශිල්පය LLM + DAC
පුහුණු දත්ත 100000 පැය
වසර 2025

සඳහා හොඳම භාවිතය නඩු Speaker 2

මෙම හඬේ ලක්ෂණ මත පදනම්ව නිර්දේශිත යෙදුම්Name

ශ්‍රව්‍ය පොත් සහ කථා

ස්වභාවික ව්‍යවහාරය හා ප්‍රකාශනය සමග දිගු ආකෘති අන්තර්ගතය විස්තර කිරීමට Speaker 2 භාවිතා කරන්න.

වීඩියෝ කටහඬ

YouTube වීඩියෝ, දැන්වීම් සහ සමාජ මාධ්ය අන්තර්ගතයට වෘත්තීය කථාව එකතු කරන්න.

යෙදුම් සහ පිවිසුම්

මෙම ක්‍රමවේදය මඟින් ඡායාරූප, ඡායාරූප සංස්කරණ, ඡායාරූප සංස්කරණ ක්‍රම සහ ඡායාරූප සංස්කරණ ක්‍රමවේදයන් නිර්මාණය කළ හැක.

පොඩ්කාස්ට් සහ විකාශනය

ස්ටූඩියෝ-ගුණාත්මක ප්රතිදානය පොඩ්කාස්ට්, ගුවන් විදුලි, සහ වෘත්තීය විකාශනය සඳහා සුදුසු වේ.

තවත් VibeVoice ශබ්ද

එම TTS ආකෘතියෙන් වෙනත් හඬවල්

Speaker 1

ඉංග්‍රීසි Neutral

Speaker 1 (Chinese)

චීන Neutral

Speaker 2 (Chinese)

චීන Neutral

Speaker 3

ඉංග්‍රීසි Neutral

Speaker 4

ඉංග්‍රීසි Neutral

නිතර අසන ප්රශ්න

මයික්රොසොෆ්ට් විසින් VibeVoice වෙනස්කම් දෙකක් පැමිණේ: දිගු-ආකෘතිය අන්තර්ගතය සඳහා 1.5B ආකෘතිය (විනාඩි දක්වා 90,4කථිකයන්) සහ ~ 200ms පළමු ශ්රව්ය ප්රමාද සමග ශ්රව්ය විකාශනය සඳහා Realtime 0.5B ආකෘතිය. 1.5B විකල්පය දිගු ගමන් මගකට කථිකයා සමග පොඩ්කාස්ට් සහ ශ්රව්ය පොත්වල විශිෂ්ටත්වය. සටහන: මයික්රොසොෆ්ට් ටීටීඑස් කේතය ගබඩාවෙන් ඉවත් කර ඇති අතර ජනනය කරන ලද ශ්රව්ය ශ්රව්ය AI වගකීම් විරහිත වේ.

VibeVoice මයික්‍රොසොෆ්ට් විසින් නිර්මාණය කරන ලද අතර MIT (research-only intent) බලපත්‍රය යටතේ නිකුත් කරන ලද අතර එයින් ජනනය කරන ලද ශ්‍රව්‍ය දෘශ්‍ය දත්ත වාණිජමය භාවිතයට අවසර ලබා දෙයි.

VibeVoice සහාය 1 භාෂා: ඉංග්රීසි.

VibeVoice වාරික තලය තුළ වේ -4කෙටි පණිවුඩයක් සඳහා 1,000 අක්ෂර. ඔබ සම්පූර්ණ ශ්රව්ය ජනනය කිරීමට පෙර නොමිලේ ඕනෑම VibeVoice හඬ ප්රවේශ විය හැකිය.

VibeVoice මධ්යම ජනගහන වේගය ඇත. ජනගහනය සාමාන්යයෙන් පෙළ දිග මත රඳා තත්පර කිහිපයක් ගත වේ.

VibeVoice ශ්රේණිගත කර ඇත 5/5 TTS.ai මත ශ්රව්ය ගුණාත්මක සඳහා. එය ශ්රේණිගත ශ්රේණියේ ස්ටූඩියෝ ලබා දෙයි, මිනිසා-සමාන කථා.

නැත, VibeVoice තනන ලද හඬවල් ස්ථාවර කට්ටලයක් භාවිතා කරයි. හඬ ක්ලෝන කිරීම සඳහා, CosyVoice වැනි ආකෘති උත්සාහ කරන්න2, GPT-SoVITS, හෝ Chatterbox.

ඔව්, VibeVoice විශේෂයෙන් පොඩ්කාස්ට් සඳහා නිර්දේශ කරනු ලැබේ, ශ්රව්ය පොත්, දිගු ආකෘතිය බහු-කථික අන්තර්ගතය. එහි බහු-කථික, දක්වා 90 විනාඩි, පොඩ්කාස්ට් ජනනය හැකියාවන් මෙම භාවිතය සඳහා විශිෂ්ට තේරීම.

ඔව්, VibeVoice MIT යටතේ බලපත්ර ලත් (පර්යේෂණ-එකම අරමුණ), වාණිජ භාවිතය සඳහා ඉඩ දෙන. VibeVoice හඬ සමග ජනනය ශ්රව්ය වීඩියෝ භාවිතා කළ හැක, පොඩ්කාස්ට්, යෙදුම්, ක්රීඩා, සහ වෙනත් ඕනෑම වාණිජ ව්යාපෘතිය.

ඔව්, TTS.ai මත සියලු හඬවල් වාණිජමය බලපත්රලාභී විවෘත මූලාශ්ර ආකෘති භාවිතා (MIT, Apache 2.0). ජනනය කරන ලද ශ්රව්ය වීඩියෝ, පොඩ්කාස්ට්, යෙදුම්, ක්රීඩා සහ වෙනත් ඕනෑම වාණිජ යෙදුමක් භාවිතා කිරීමට ඔබගේ ය.

ආකෘති නාමය සහ හඬ ID සමග /api/v1/tts/ වෙත POST ඉල්ලීමක් යවන්න. Python හි කේත උදාහරණ සඳහා අපගේ API ලේඛන පිටුව බලන්න, JavaScript, Go, සහ cURL.

ඔව්, සාම්පලයක් අසන්නට මෙම පිටුවේ ක්ලික් කරන්න ක්ලික් කරන්න. ඔබ ද කටහඬ පිටුව පෙළ මත අභිරුචි පෙළ වර්ග හා ඕනෑම හඬ සමග නිදහස් පූර්ව දර්ශනයක් ජනනය කළ හැකිය.

උත්සහ කරන්න Speaker 2 දැන්

ඕනෑම පෙළක් ටයිප් කර එය කථා කරන සවන් දෙන්න Speaker 2. භාවිතා කිරීමට නිදහස්.