Տեղեկացնել սխալի / հատկության մասին

Ճշմարիտ ժամանակի TTS

Տեքստից խոսքի ջնջում վայրկյանների ընթացքում առաջին ձայնային ազդանշանի հետ։ Ստեղծված է ձայնային գործակալների և կենդանի ծրագրերի համար։

Անվճար գրանցում

Մենք դեռևս չունենք TTS ձայներ ձեր լեզվով։ Կօգնեք մեզ ավելացնել ձերը! Ձեր ձայնը վաճառել

Տեքստ

Սահմանափակ

0/5,000 այբուբեն ~0.3s առաջին ձայնային

Գործողություն

մոդել Էլեկտրոնային մոդելավորման ինստիտուտ.

Խոսք

արագություն 1.0x

Ցավալի

—

Սեղմել Stream-ը առաջին ձայնային ուշացումը չափելու համար

Ընտրեք ելքը

Ավտոմատ կերպով կնվագարկվեն ձայնային կտորները, երբ դրանք ներթափանցեն.

Ինչպես է աշխատում TTS-ի հոսքը

1. Առաջարկել տեքստը

POST տեքստը /v1/tts/stream/-ին որպես սերվերի կողմից ուղարկված իրադարձությունների խնդրանք.

2. Ծրագրի ստեղծում

Kokoro-ն տեքստը կտրում է և ձայնային նմուշներ է թողարկում GPU-ի վրա։

3. Փոխանցման հատվածներ

Base64 կոդավորմամբ WAV կտրվածքները հասնում են SSE-ի միջոցով և սկսում են անմիջապես նվագել։

4. Լսեք ողջույնի խոսքը

Օգտագործողը լսում է նախադասության սկիզբը մի վայրկյանից քիչ ժամանակում, նույնիսկ երկար մուտքագրումների դեպքում։

Օգտագործման դեպքեր

Որտեղ վայրկյանների ընթացքում նոր փորձառություններ են բացվում։

Ձայնային գործակալներ

Խոսակցական ռոբոտներ, որոնք պատասխանում են այնքան արագ, որքան մարդը կպատասխաներ։

Զանգվածային ձայնագրություն

Թարգմանել և ձայնագրել հոսքը իրական ժամանակում առանց բախման ընդմիջումների

Խաղեր

NPC երկխոսություն, որը անմիջապես արձագանքում է խաղացողի ընտրությանը, առանց նախօրոք ցուցադրված ձայնի.

Մատչելիացում

Էկրանային կարդացողներ և օգտակար գործիքներ, որոնք սկսում են խոսել, երբ օգտատերերը սեղմում են։

Ճշգրիտ ժամանակի TTS պլաններ

Սկսեք անվճար, բարձրացրեք, երբ ավելի շատ բանի կարիք ունեք

Ազատ

Kokoro stream (բաց մոդել)
500 կերպար յուրաքանչյուր սերունդում
10 անվճար հոսքեր/օր յուրաքանչյուր անանուն օգտատիրոջ համար
Ձախողում առաջին ձայնային ձայնագրության ժամանակ
SSE հոսք HTTPS-ի միջոցով

Ամենատարածված

Ազատ հաշիվ

15,000 կերպար գրանցման ժամանակ
5,000 աստղեր յուրաքանչյուր հոսքի համար
API կոդը ծրագրային մուտք գործելու համար
Ծագման պատմություն
Չկա օրական հոսքի սահմանափակում

Անվճար գրանցում

Օգտագործող

MOSS-TTS-Realtime (երբ ակտիվ է)
100,000 աստղեր յուրաքանչյուր հոսքի համար
Գրաֆիկական պրոցեսորի ուշադրության գիծ
Ձայնային գործակալ + Twilio ինտեգրում
Ավելի բարձր արագության սահմանափակումներ

Նորացնել

Հաճախ տրվող հարցեր

Օգտագործելով իրական ժամանակի տեքստը խոսքի վերածելու գործառույթը, ձայնային հատվածները սերտիֆիկատի մեջ են ներառվում, երբ դրանք սերտիֆիկատի մեջ են, այլ ոչ թե սպասում են ամբողջ նախադասության ավարտին։ Առաջին ձայնային նմուշը գալիս է մեկ վայրկյանից քիչ ժամանակում, ինչը այն դարձնում է հարմար կենդանի ձայնային գործակալների, ձայնագրման և ինտերակտիվ ծրագրերի համար, որտեղ կարևոր է ուշացումը։

Համակարգային TTS- ը գեներացնում է ամբողջական ձայնային ֆայլը, մինչև որևէ բան վերադարձնելը — դուք սպասում եք, ապա լսում եք ամբողջ նախադասությունը միանգամից։ Ռեալ ժամանակի TTS- ը օգտագործում է սերվերի կողմից ուղարկված իրադարձությունները (SSE)՝ մոդելի կողմից արտադրվող կարճ ձայնային հատվածները հոսքային կերպով փոխանցելու համար։ Օգտագործողը լսում է նախադասության սկիզբը գրեթե անմիջապես, նույնիսկ երկար մուտքագրումների դեպքում։

Kokoro-ն լռելյայն աջակցում է, այն ձայնագրում է մոտավորապես 100 անգամ ավելի արագ, քան ժամանակակից GPU-ների դեպքում իրական ժամանակում։ Մենք ներգրավում ենք MOSS-TTS-Realtime-ը որպես ավելի բարձր որակի այլընտրանք։ Օգտագործողները կկարողանան ընտրել ըստ իրենց պահանջի, երբ այն կհրապարակվի։

Տիպիկ առաջին ձայնային լռությունը Kokoro-ում 300-800 մս է հանրային կապի վրա։ Այնուհետև ցանցի երթևեկությունը գերակշռում է։ Էջը ցույց է տալիս UI-ում առաջին ձայնային լռության ժամանակը, որպեսզի դուք կարողանաք տեսնել, թե որքան ժամանակ է տևել յուրաքանչյուր խնդրանքը։

Ձայնային գործակալներ, որոնք պատասխանում են խոսակցական, կենդանի ձայնագրություն ալիքային մեդիայի համար, ինտերակտիվ խաղի NPC-ներ, հասանելիության ընթերցողներ, որոնք սկսում են խոսել այն պահին, երբ օգտագործողը սեղմում է, և ցանկացած ծրագրի համար, որտեղ սպասում են երկու կամ երեք վայրկյան ձայնի համար, դա դանդաղ կլինի։

Այո, POST դեպի https://api.tts.ai/v1/tts/stream/ նույն մարմնով, ինչ /v1/tts/ վերջնական կետը։ Պատասխանը base64-ով կոդավորված WAV հատվածների SSE հոսք է։ Ազատ մակարդակով աջակցվում է օրական 10 սերիա յուրաքանչյուր անանուն օգտատիրոջ համար։ Ավտոմատացված օգտատերերը ստանում են ամբողջական յուրաքանչյուր հաշվի համար նախատեսված կերպարների քանակը։

Kokoro-ն օգտագործում է նախօրոք պատրաստված ձայներ և չի կլոնում դրանք։ MOSS-TTS-Realtime-ն (եթե ինտեգրված է) աջակցում է ձայնի կլոգում 3 վայրկյանի ռեֆերենսից։ Առաջին անգամ ձայնի կլոգում կատարելու համար օգտագործեք Chatterbox-ի կամ GPT-SoVITS-ի հետ /text-to-speech/ էջը, դրանք չեն կարող ձայնագրել, բայց կարող են ստեղծել Ձեր սեփական ձայները։

Հատկության արժեքը նույնն է, ինչ սովորական TTS վերջնական կետում։ Kokoro-ն անվճար է (1x արժեք)։ MOSS-TTS-Realtime-ը կաշխատի ստանդարտ մակարդակով (2x արժեք), երբ այն ակտիվացված է։ Ստրեյմ պրոտոկոլը չի ավելացնում որևէ արժեքային ավելացում։

Այո, միացնել ալիքի վերջնական կետը՝ Twilio ձայնային webhook-ի հետ, որպեսզի հեռախոսազանգը ուղիղ ձայնով լինի։ Մեր ձայնային գործակալի պլատֆորմը արդեն անում է դա IVR-ի և դուրս եկող զանգերի համար։ Զանգի վերջից վերջի միջև ընկած ժամանակը սովորաբար 1-2 վայրկյան է, ներառյալ STT և LLM պատասխանը։

Եթե ձեր ցանցը կտրված է, ապա հոսող նվագարկիչը կանցնի առաջ, այլ ոչ թե կկանգնի։ Այն ծրագրերի համար, որոնք չեն կարողանում դիմանալ բացերը, վերադարձեք սովորական ոչ-հոսող վերջնական կետ կամ բյուֆերացրեք 500 մս/սմ ձայնի նվագարկման սկզբից առաջ։

5.0/5 (1)

Ձայնագրություն իրական ժամանակում

Առաջին 10 սերունդը անվճար է։ Գրանցվեք՝ բացելու համար ամբողջական այբուբենի թույլատրելի քանակը և API-ի հասանելիությունը։

Անվճար գրանցում Ցույց տալ գները

Ճշմարիտ ժամանակի TTS

Տեքստ

Գործողություն

Ցավալի

Ընտրեք ելքը

Ինչպես է աշխատում TTS-ի հոսքը

1. Առաջարկել տեքստը

2. Ծրագրի ստեղծում

3. Փոխանցման հատվածներ

4. Լսեք ողջույնի խոսքը

Օգտագործման դեպքեր

Ձայնային գործակալներ

Զանգվածային ձայնագրություն

Խաղեր

Մատչելիացում

Ճշգրիտ ժամանակի TTS պլաններ

Հաճախ տրվող հարցեր

Ի՞նչ է իրական ժամանակի TTS-ը։

Ինչպե՞ս է իրական ժամանակի TTS-ը տարբերվում սովորական TTS-ից։

Ո՞ր մոդելն է ապահովում իրական ժամանակի էջը։

Որքա՞ն արագ է առաջին ձայնային ազդանշանը։

Ի՞նչ կարող եմ կառուցել իրական ժամանակի TTS-ի միջոցով։

Արդյո՞ք գոյություն ունի իրական ժամանակի TTS-ի API-ն։

Ձեր համակարգը աջակցո՞ւմ է ձայնի կլոինինգը։

Որքա՞ն է արժե իրական ժամանակի TTS-ը։

Կարո՞ղ եմ այն օգտագործել հեռախոսազանգերի համար։

Ինչու՞ է ձայնը երբեմն կտրված բառի կեսից։

Ձայնագրություն իրական ժամանակում