متن ته د وینا (TTS) څه ده؟

د خبرو لپاره متن هغه ټیکنالوژي ده چې د مصنوعي استخباراتو په کارولو سره لیکل شوي متن ته غږیز غږ بدلوي.

ټکنالوژي مخينه دا څنګه کار کوي عصبي شبکې اېوليوشن

په متن کې د وینا کلیدي مفکورې

د عصري وینا ترکیب د ودانۍ بلاکونو پوهیدل

TTS د څه لپاره ولاړ دی

TTS د Text-to-Speech لپاره دی - هغه ټیکنالوژي چې د کمپیوټر لخوا رامینځته شوي غږونو په کارولو سره لیکل شوي متن ته غږیز غږ بدلوي.

څنګه نيورال TTS کار کوي

عصري TTS ژور عصبي شبکې کاروي ترڅو متن تحلیل کړي، د وینا نمونې وړاندوینه وکړي، او د غږ څپې رامینځته کړي چې په حیرانتیا سره د انسان غږ کوي.

د وینا د ترکیب تاریخ

له 1960 لسیزې څخه د قواعدو پر بنسټ سیسټمونو څخه تر 1990 لسیزې پورې د نن ورځې عصبي ماډلونو پورې - څنګه TTS د شپږو لسیزو په اوږدو کې وده کړې.

عصري AI ماډلونه

د نن ورځې ماډلونه لکه Kokoro، Bark، او CosyVoice 2 د انسان د کچې د خبرو د کیفیت ترلاسه کولو لپاره د بدلونونو، خپریدو، او توپیر استنباط کاروي.

عام کاريالونه

TTS د سکرین لوستونکي، د GPS نیویګیشن، مجازی مرستیالان، آډیو کتابونه، د پیرودونکو خدماتو بوتونه، د ای-لوړو پلیټ فارمونه، او د مینځپانګې جوړول.

خلاص سرچینه vs سوداګریز

د خلاصې سرچینې ماډلونه (MIT، Apache 2.0) وړیا، د ځان کوربه TTS چمتو کوي پداسې حال کې چې سوداګریز خدمتونه د SLAs او ملاتړ سره اداره شوي APIs وړاندې کوي.

TTS ماډلونه په TTS.ai کې شتون لري

له چټک او سپک وزن څخه د سټوډیو کیفیت عصبي غږونو ته

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

د: لپاره غوره State-of-the-art کوچنۍ ماډل - ښیي چې څومره د عصبي TTS راغلی دی

هڅه Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

د: لپاره غوره د ټرانسفارمر پر بنسټ ماډل چې د وینا څخه بهر آډیو تولید ښیي

هڅه Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 غږ نقلول

د: لپاره غوره د انسان د مساوي کیفیت او صفر شوټ کلونینګ سره د TTS لیږل

هڅه CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 غږ نقلول

د: لپاره غوره د صفر شوټ غږ کلونینګ چې د غږ ترکیب سرحد ښیي

هڅه Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 غږ نقلول

د: لپاره غوره د تر ټولو لوړ غږيز کیفیت لومړیتوب ورکول

هڅه Tortoise TTS

څنګه نيورال TTS کار کوي

په څلورو ګامونو کې د عصري وینا ترکیب پایپ لاین

1

د اساسي پوهه

TTS په غږیز غږ کې لیکل شوي متن بدلوي. عصري سیسټمونه عصبي شبکې کاروي چې د انسان د وینا ریکارډونو په زرګونو ساعتونو کې روزل شوي.

2

مختلف ماډلونه وپلټئ

هر TTS ماډل په سرعت، کیفیت، او ځانګړتیاوو کې د ځانګړو قوتونو سره یو مختلف معمارۍ کاروي (ترمیم، خپریدل، توپیر).

3

هڅه يې وکړئ

د TTS د پوهیدو غوره لاره دا ده چې دا وکاروئ. زموږ د وړیا ماډلونو هڅه وکړئ - هر متن پټ کړئ او په ثانیو کې یې ووایاست.

4

خپل پروژې سره يوځای کول

کله چې تاسو یو ماډل ومومئ چې تاسو یې غواړئ، زموږ API وکاروئ ترڅو TTS ستاسو غوښتنلیکونو، محصولاتو، یا د مینځپانګې جوړولو کاري جریان کې مدغم کړئ.

د متن د وینا یو لنډ تاریخ

له میخانیکي خبرې ماشینونو څخه عصبي شبکو ته

لومړنۍ ورځې (1950s-1980s)

د لومړي کمپیوټر تولید شوي وینا 1961 ته راستون کیږي، کله چې IBM

د پام وړ سیسټمونه: Votrax (1970s)، DECtalk (1984، د Stephen Hawking لخوا کارول شوی)، Apple

Concatenative ترکیب (1990s-2000s)

Concatenative TTS د ریښتینې انساني غږ ریکارډونه د فونیم ترکیبونو په زرګونو خبرې کوي، بیا په runtime کې سمې برخې سره یوځای کوي. دا ډیر طبیعي غږیز وینا تولیدوي مګر پراخه ډیټابیس ته اړتیا لري (معمولا د هر غږ ریکارډونو 10-20 ساعته). کیفیت په لویه کچه د برخو ترمینځ د نرم غړو موندلو پورې اړه لري.

له خوا کارول: AT & T طبیعي غږونه، Nuance Vocalizer، د ګوګل ژباړه TTS.

احصايې / Parametric (2000s-2010s)

پټ مارکوف ماډلونه (HMMs) او وروسته ژور عصبي شبکې د وینا پارامترونه رامینځته کړل (پیچ، موده، سپیکٹرل ځانګړتیاوې) چې د vocoder له لارې تغذیه شوي. دا د نامحدود لغتونو او اسانه غږ جوړولو ته اجازه ورکوي، مګر د vocoder ګام اکثرا د \ تولیدوي.

کلیدي ماډلونه: HTS، Merlin، د DNN پر بنسټ سیستمونه.

نیورال TTS (2016-اوسنی)

عصري دور د WaveNet (DeepMind، 2016) سره پیل شو، کوم چې د ژورو عصبي شبکو په کارولو سره د نمونې لخوا د آډیو نمونې رامینځته کوي. دا د Tacotron (Google، 2017) لخوا تعقیب شو، کوم چې په مستقیم ډول د سپیکٹروګرامونو ته متن نقشه کول زده کړل. نن ورځ

کلیدي پرمختګونه: WaveNet، Tacotron، FastSpeech، VITS، Bark، Kokoro.

څنګه عصري عصبي TTS کار کوي

د طبیعي غږ AI غږونو شاته معمارۍ

د ليکنې څېړنه او عادي کول

خام متن پاک شوی او نورمال شوی: شمیرې کلمې کیږي (\

آکوستیک ماډل (د سپېکټروګرام لپاره ليکنه)

د آکوستیک ماډل (معمولا یو ترانسفورمر یا autoregressive شبکې) د فونیم ترتیب نیسي او د MEL spectrogram وړاندوینه کوي - د څرنګوالي د آډیو یو بصري استازیتوب

ويکوډر (سپېکټروګرام غږيز ته)

عصري عصبي vocoders (HiFi-GAN، BigVGAN، Vocos) د لوړ وفادارۍ 24kHz یا 44.1kHz آډیو تولیدوي چې د طبیعي وینا ښه جزییات، په شمول د تنفس غږونه او نازک لپ حرکتونه نیولي.

پای-تر-پای ماډلونه

وروستي ماډلونه لکه VITS، Kokoro، او Bark په بشپړ ډول د دوه مرحلو پایپ لاین پریږدي. دوی په مستقیم ډول په یو واحد عصبي شبکې کې د متن څخه آډیو ته ځي، د لږو هنرونو سره ډیر طبیعي پایلې تولیدوي. ځینې ماډلونه (لکه Bark) حتی کولی شي د وینا سره سم غیر وینا غږونه، خندا او موسیقي رامینځته کړي.

TTS تګلارې پرتله

څنګه د TTS تکنالوژۍ څلور نسلونه پرتله

نژدېوالی زمانه طبیعي انعطاف چټکتيا اومتوک اړين دی
فورمانټ ترکیب
د قاعدې پر بنسټ د فریکونسۍ ماډلنګ
1960s-1990s هېڅ
نښلونکی
غږيز برخې نښلېدلې
1990s-2010s 10-20 ساعته
پېرامېټريک (HMM/DNN)
د ژبې احصايې ماډلونه
2000s-2016 1-5 ساعته
نيورالي پای-تر-پای
ژوره زده کړه (VITS، Kokoro، Bark)
2016-اوسنی دقیقې ته ګېنټې

د TTS عام غوښتنلیکونه

چېرته چې نن ليکنه وينا ته کارول کيږي

لاسرسی

د سکرین لوستونکي، مرستندویه وسیلې، او د ویډیو اختلالاتو یا د لوست معلولیتونو سره د خلکو لپاره وسایل په TTS تکیه کوي ترڅو ډیجیټل مینځپانګې هرچا ته لاسرسی ولري.

منځپانګې جوړول

یوټیوبران، پوډکاسټران، او د ټولنیزو رسنیو جوړونکي د غږونو، کیسې، او اتومات محتوا تولید لپاره په پیمانه TTS کاروي.

دوديز مرستيالونه

Siri، Alexa، د ګوګل مرستیال، او د پیرودونکو خدمت chatbots ټول TTS کاروي چې په طبیعي توګه کاروونکو ته ځوابونه ووایی.

ډېرې پوښتنې

د ليکنې څخه د وينا تکنالوژۍ په اړه عامې پوښتنې

TTS د Text-to-Speech لپاره ولاړ دی. دا هغه ټیکنالوژۍ ته اشاره کوي چې لیکل شوي متن د synthesized یا AI-generated غږونو په کارولو سره د اوریدونکي غږ شوي کلمو ته بدلوي. دا اصطلاح په تخنیکي ادبیاتو کې "د وینا ترکیب" سره د تبادلې سره کارول کیږي.

عصري TTS سیسټمونه په دریو مرحلو کې کار کوي: د متن تحلیل (پارسنګ، نورمالیزیشن، فونیم بدلول)، د پروسوسي وړاندوینه (د ریتم، پیچ، فشار او وقفو مشخص کول)، او د غږ ترکیب (د ریښتیني غږ څپې رامینځته کول). عصبي ماډلونه د روزنې معلوماتو څخه ټول درې مرحلې زده کوي.

Concatenative TTS سره یوځای د مخکې ثبت شوي وینا ټوټې splices، چې کولای شي په بدلونونو choppy غږ. عصبي TTS د ژور زده کړې په کارولو سره له پیل څخه وینا تولیدوي، د ښه prosody او احساس سره نرم، نور طبیعي غږ غږ تولیدوي.

SSML (د وینا ترکیب مارکپ ژبه) د XML پر بنسټ مارکپ ژبه ده چې تاسو ته اجازه درکوي چې څنګه د TTS سیسټمونه متن څرګندوي. تاسو کولی شئ د وقفې، ټینګار، pronunciation، pitch بدلونونه، او ستاسو د متن د ننوتلو SSML توري په کارولو سره د خبرو کولو کچه مشخص کړئ.

TTS د لاسرسي لپاره کارول کیږي (د لیدل شوي زیانمنونکو کاروونکو لپاره د سکرین لوستونکي)، مجازي مرستیالان (سیری، الیکسا، د ګوګل مرستیال)، د آډیو کتاب تولید، ای-لوستل، GPS نیویګیشن، د پیرودونکو خدمت IVR سیسټمونه، د مینځپانګې جوړول، او د ژبې د زده کړې غوښتنلیکونه.

TTS په 1960 لسیزه کې د روبوټیک قواعدو پر بنسټ سیسټمونو څخه رامینځته شوی ، په 1990 لسیزه کې د اړیکو ترکیب ته ، په 2000 لسیزه کې د احصایوي پارامترونو ترکیب ته ، په 2016 کې د WaveNet سره عصبي TTS ته ، د نن ورځې ترمیم او خپریدو ماډلونو ته چې د انساني کچې کیفیت ترلاسه کوي.

د طبیعي غږ TTS دقیق prosody ته اړتیا لري (ریتم، فشار، انتونیشن)، مناسب پیسینګ، د فونیمونو ترمینځ نرم بدلونونه، او د غږ پیژندنه. عصبي ماډلونه دا نمونې د طبیعي انساني وینا ریکارډونو له لویو ډیټا سیټونو څخه زده کوي.

د غږ د کلون کولو ماډلونه لکه Chatterbox او CosyVoice 2 کولی شي د 5-30 ثانیو په څیر د حوالې غږ څخه یو ځانګړی غږ تکرار کړي. د کلون شوي غږ غږ، غږ، او د خبرو کولو سټایل نیسي، که څه هم اخلاقي او قانوني پاملرنې د نورو غږونو کلون کولو ته پلي کیږي.

عصري TTS ماډلونه په ګډه د 30 + ژبو ملاتړ کوي. ځینې ماډلونه په ځانګړو ژبو کې تخصص لري پداسې حال کې چې نور څو ژبني دي. انګلیسي ترټولو شتون لري ماډلونه او غږونه لري، مګر چینایي، جاپاني، کوریایي، هسپانوي، او اروپايي ژبې ښه ملاتړ کیږي.

TTS د AI غږ نسل یوه فرعي برخه ده. TTS په ځانګړې توګه د متن انباکس د وینا محصول ته بدلوي. AI غږ نسل یو پراخه اصطلاح ده چې د غږ کلونینګ، د غږ بدلول، د خبرو اترو خبرو اترو، او د غږ اغیز نسل هم پکې شامل دي.

دا ستاسو په اړتیاو پورې اړه لري. Kokoro د عمومي کارونې لپاره د سرعت او کیفیت غوره توازن وړاندې کوي. Chatterbox په غږ کلون کې لارښوونه کوي. Orpheus په احساساتي څرګندونو کې غوره کوي. StyleTTS 2 د ترټولو طبیعي واحد غږیز کیسه تولیدوي. د ټولو کارولو قضیو لپاره یو واحد "ښه" ماډل شتون نلري.

هو. په TTS.ai کې ټول ماډلونه خلاص سرچینه دي او کولی شي ځان کوربه شي. د CPU-only ماډلونه لکه پیپر په هر کمپیوټر کې چلیږي. د GPU ماډلونه لکه کوکورو او بارک د 2-8GB VRAM سره د NVIDIA GPU ته اړتیا لري. زموږ پلیټ فارم هم کوربه لاسرسی چمتو کوي نو تاسو اړتیا نلرئ د زیربنا مدیریت وکړئ.
5.0/5 (1)

تجربه عصري TTS ځان

هڅه وکړئ 24+ state-of-the-art AI غږ ماډلونه وړيا. وګورئ چې څومره لرې متن ته د وینا راغلی دی.