Ճշմարիտ ժամանակի TTS

Տեքստից խոսքի ջնջում վայրկյանների ընթացքում առաջին ձայնային ազդանշանի հետ։ Ստեղծված է ձայնային գործակալների և կենդանի ծրագրերի համար։

Մենք դեռևս չունենք TTS ձայներ ձեր լեզվով։ Կօգնեք մեզ ավելացնել ձերը! Ձեր ձայնը վաճառել

Տեքստ

Սահմանափակ
0/5,000 այբուբեն ~0.3s առաջին ձայնային

Գործողություն

Էլեկտրոնային մոդելավորման ինստիտուտ.

Ցավալի

Սեղմել Stream-ը առաջին ձայնային ուշացումը չափելու համար

Ընտրեք ելքը

Ավտոմատ կերպով կնվագարկվեն ձայնային կտորները, երբ դրանք ներթափանցեն.

0:00
Առաջին հատված:
Ընդհանուր քանակ: 0
Համախառն ժամանակ:

Ինչպես է աշխատում TTS-ի հոսքը

1. Առաջարկել տեքստը

POST տեքստը /v1/tts/stream/-ին որպես սերվերի կողմից ուղարկված իրադարձությունների խնդրանք.

2. Ծրագրի ստեղծում

Kokoro-ն տեքստը կտրում է և ձայնային նմուշներ է թողարկում GPU-ի վրա։

3. Փոխանցման հատվածներ

Base64 կոդավորմամբ WAV կտրվածքները հասնում են SSE-ի միջոցով և սկսում են անմիջապես նվագել։

4. Լսեք ողջույնի խոսքը

Օգտագործողը լսում է նախադասության սկիզբը մի վայրկյանից քիչ ժամանակում, նույնիսկ երկար մուտքագրումների դեպքում։

Օգտագործման դեպքեր

Որտեղ վայրկյանների ընթացքում նոր փորձառություններ են բացվում։

Ձայնային գործակալներ

Խոսակցական ռոբոտներ, որոնք պատասխանում են այնքան արագ, որքան մարդը կպատասխաներ։

Զանգվածային ձայնագրություն

Թարգմանել և ձայնագրել հոսքը իրական ժամանակում առանց բախման ընդմիջումների

Խաղեր

NPC երկխոսություն, որը անմիջապես արձագանքում է խաղացողի ընտրությանը, առանց նախօրոք ցուցադրված ձայնի.

Մատչելիացում

Էկրանային կարդացողներ և օգտակար գործիքներ, որոնք սկսում են խոսել, երբ օգտատերերը սեղմում են։

Ճշգրիտ ժամանակի TTS պլաններ

Սկսեք անվճար, բարձրացրեք, երբ ավելի շատ բանի կարիք ունեք

Ազատ
  • Kokoro stream (բաց մոդել)
  • 500 կերպար յուրաքանչյուր սերունդում
  • 10 անվճար հոսքեր/օր յուրաքանչյուր անանուն օգտատիրոջ համար
  • Ձախողում առաջին ձայնային ձայնագրության ժամանակ
  • SSE հոսք HTTPS-ի միջոցով
Ամենատարածված
Ազատ հաշիվ
  • 15,000 կերպար գրանցման ժամանակ
  • 5,000 աստղեր յուրաքանչյուր հոսքի համար
  • API կոդը ծրագրային մուտք գործելու համար
  • Ծագման պատմություն
  • Չկա օրական հոսքի սահմանափակում
Անվճար գրանցում
Օգտագործող
  • MOSS-TTS-Realtime (երբ ակտիվ է)
  • 100,000 աստղեր յուրաքանչյուր հոսքի համար
  • Գրաֆիկական պրոցեսորի ուշադրության գիծ
  • Ձայնային գործակալ + Twilio ինտեգրում
  • Ավելի բարձր արագության սահմանափակումներ
Նորացնել

Հաճախ տրվող հարցեր

Օգտագործելով իրական ժամանակի տեքստը խոսքի վերածելու գործառույթը, ձայնային հատվածները սերտիֆիկատի մեջ են ներառվում, երբ դրանք սերտիֆիկատի մեջ են, այլ ոչ թե սպասում են ամբողջ նախադասության ավարտին։ Առաջին ձայնային նմուշը գալիս է մեկ վայրկյանից քիչ ժամանակում, ինչը այն դարձնում է հարմար կենդանի ձայնային գործակալների, ձայնագրման և ինտերակտիվ ծրագրերի համար, որտեղ կարևոր է ուշացումը։

Համակարգային TTS- ը գեներացնում է ամբողջական ձայնային ֆայլը, մինչև որևէ բան վերադարձնելը — դուք սպասում եք, ապա լսում եք ամբողջ նախադասությունը միանգամից։ Ռեալ ժամանակի TTS- ը օգտագործում է սերվերի կողմից ուղարկված իրադարձությունները (SSE)՝ մոդելի կողմից արտադրվող կարճ ձայնային հատվածները հոսքային կերպով փոխանցելու համար։ Օգտագործողը լսում է նախադասության սկիզբը գրեթե անմիջապես, նույնիսկ երկար մուտքագրումների դեպքում։

Kokoro-ն լռելյայն աջակցում է, այն ձայնագրում է մոտավորապես 100 անգամ ավելի արագ, քան ժամանակակից GPU-ների դեպքում իրական ժամանակում։ Մենք ներգրավում ենք MOSS-TTS-Realtime-ը որպես ավելի բարձր որակի այլընտրանք։ Օգտագործողները կկարողանան ընտրել ըստ իրենց պահանջի, երբ այն կհրապարակվի։

Տիպիկ առաջին ձայնային լռությունը Kokoro-ում 300-800 մս է հանրային կապի վրա։ Այնուհետև ցանցի երթևեկությունը գերակշռում է։ Էջը ցույց է տալիս UI-ում առաջին ձայնային լռության ժամանակը, որպեսզի դուք կարողանաք տեսնել, թե որքան ժամանակ է տևել յուրաքանչյուր խնդրանքը։

Ձայնային գործակալներ, որոնք պատասխանում են խոսակցական, կենդանի ձայնագրություն ալիքային մեդիայի համար, ինտերակտիվ խաղի NPC-ներ, հասանելիության ընթերցողներ, որոնք սկսում են խոսել այն պահին, երբ օգտագործողը սեղմում է, և ցանկացած ծրագրի համար, որտեղ սպասում են երկու կամ երեք վայրկյան ձայնի համար, դա դանդաղ կլինի։

Այո, POST դեպի https://api.tts.ai/v1/tts/stream/ նույն մարմնով, ինչ /v1/tts/ վերջնական կետը։ Պատասխանը base64-ով կոդավորված WAV հատվածների SSE հոսք է։ Ազատ մակարդակով աջակցվում է օրական 10 սերիա յուրաքանչյուր անանուն օգտատիրոջ համար։ Ավտոմատացված օգտատերերը ստանում են ամբողջական յուրաքանչյուր հաշվի համար նախատեսված կերպարների քանակը։

Kokoro-ն օգտագործում է նախօրոք պատրաստված ձայներ և չի կլոնում դրանք։ MOSS-TTS-Realtime-ն (եթե ինտեգրված է) աջակցում է ձայնի կլոգում 3 վայրկյանի ռեֆերենսից։ Առաջին անգամ ձայնի կլոգում կատարելու համար օգտագործեք Chatterbox-ի կամ GPT-SoVITS-ի հետ /text-to-speech/ էջը, դրանք չեն կարող ձայնագրել, բայց կարող են ստեղծել Ձեր սեփական ձայները։

Հատկության արժեքը նույնն է, ինչ սովորական TTS վերջնական կետում։ Kokoro-ն անվճար է (1x արժեք)։ MOSS-TTS-Realtime-ը կաշխատի ստանդարտ մակարդակով (2x արժեք), երբ այն ակտիվացված է։ Ստրեյմ պրոտոկոլը չի ավելացնում որևէ արժեքային ավելացում։

Այո, միացնել ալիքի վերջնական կետը՝ Twilio ձայնային webhook-ի հետ, որպեսզի հեռախոսազանգը ուղիղ ձայնով լինի։ Մեր ձայնային գործակալի պլատֆորմը արդեն անում է դա IVR-ի և դուրս եկող զանգերի համար։ Զանգի վերջից վերջի միջև ընկած ժամանակը սովորաբար 1-2 վայրկյան է, ներառյալ STT և LLM պատասխանը։

Եթե ձեր ցանցը կտրված է, ապա հոսող նվագարկիչը կանցնի առաջ, այլ ոչ թե կկանգնի։ Այն ծրագրերի համար, որոնք չեն կարողանում դիմանալ բացերը, վերադարձեք սովորական ոչ-հոսող վերջնական կետ կամ բյուֆերացրեք 500 մս/սմ ձայնի նվագարկման սկզբից առաջ։
5.0/5 (1)

Ի՞նչ կարող ենք բարելավել: Ձեր կարծիքը օգնում է մեզ լուծել խնդիրները:

Ձայնագրություն իրական ժամանակում

Առաջին 10 սերունդը անվճար է։ Գրանցվեք՝ բացելու համար ամբողջական այբուբենի թույլատրելի քանակը և API-ի հասանելիությունը։