რეალურ დროში TTS

ტექსტის საუბრად გადამუშავება აუდიოს პირველი ხმა 1 წამის დაგვიანებით. შექმნილია საუბრის აგენტებისთვის და აქტიური პროგრამებისთვის. Name

რეგისტრაცია

ტექსტი

სტრიმინგი

0/5,000 სიმბოლოები ~0.3s პირველი აუდიო

ხმოვანი პარამეტრებიName

მოდელი ჟამჲ ჟრპთმ-კჲმოვრთბლნთ მჲევლთ.

ხმა

სიჩქარე 1.0x

ატმოსფერული სინათლე

—

დააწკაპუნეთ ნაკადზე პირველი აუდიოს დაგვიანების გასაზომად

გამონატანი

ჱგსკჲგთრვ ოპჲეყლზვნთწ ღვ ჟვ ოპვგყჱოპაგწრ რსკ, კჲდარჲ ჟვ ოპთბთპარ.

როგორ მუშაობს TTS- ის გადაცემა

1. ტექსტის გაგზავნა

PostScript 1.0-ის ოფიციალური საიტი PostScript 1.0-ის ოფიციალური საიტი PostScript 1.0-ის ოფიციალური საიტი

2. მოდელის შექმნა

Kokoro-მ ტექსტი დაჭერს და აუდიოს ნამუშევრები GPU-ზე გამოსცემს.

3. ნაკადის ნაჭრები

Base64-ით კოდირებულ WAV-ის ნაჭრები SSE-ზე მოდიან და იწყებენ თამაშს.

4. მყისიერი მოსმენა

ოჲრჲმ ოჲფსგჟრგა ჟვკსნეა ოჲ-კჲლკს ჟვ ჱაოჲფგა ოპვეთჱგჲეჲრ, თ ნა ეჲლდთ გლვჱნთ.

გამოყენების შემთხვევები

ჱაეყლზვნთვრჲ ჲრ ნწკჲლკჲ ჟვკსნეთ ჲრგჲპწ ნჲგთ ოპვზთგწგანთწ.

ხმოვანი აგენტებიName

ჟოჲპჲგთ ბჲრთ, კჲთრჲ ჲრდჲგჲპწრ ბყპჱჲ კარჲ ფჲგვკ.

ჟურნალი

აუდიოს გადათარგმნა და დუბაიტი რეალურ დროში, უბაფერის შეწყვეტის გარეშე.

თამაშებიName

NPC დიალოგი, რომელიც რეაგირებს მოთამაშის არჩევანს, არანაირი წინასწარ გაკეთებული VO.

დამხმარე ობიექტები

ეკრანის მკითხველი და დახმარების ინსტრუმენტები, რომლებიც იწყებენ საუბარს მომხმარებლის დაჭერის მომენტში.

რეალურ დროში TTS გეგმები

ჱაოჲფნთ ბვჱოლარნჲ, ოპვმვჟრთ ჟვ, კჲდარჲ რთ რპწბგა ოჲგვფვ

თავისუფალი

Kokoro-ს სტრიმინგი (საბავშვო მოდელი)
500 სიმბოლო ერთ გენერაციაში
10 უფასო ნაკადი დღეში ანონსებულ მომხმარებელზე
აუდიოს პირველი ხმა
SSE-ს გადაცემა HTTPS-ზე

ყველაზე პოპულარული

ანგარიში

15000 სიმბოლო რეგისტრაციისას
5000 სიმბოლო ერთ ნაკადში
API ღილაკი პროგრამული წვდომისათვის
ისტორიის შექმნა
ყოველდღიური ნაკადის საზღვრის არქონა

რეგისტრაცია

პროფესიონალი

MOSS- TTS- რეალურ დროში (თუ აქტიურია)
100, 000 სიმბოლო ერთ ნაკადში
GPU- ს რიგის პრიორიტეტი
ხმოვანი აგენტი + Twilio ინტეგრაციაName
მაღალ დონეზე საზღვრები

გაუმჯობესება

ხშირად დასმული კითხვები

რეალურ დროში ტექსტის საუბრად გადამუშავება აუდიო ნაწილებს აწარმოებს მათი შექმნის დროს, მთელი ფრაზების დასრულების მოლოდინის ნაცვლად. პირველი აუდიო ნამსხვრევი ერთ წამში მოდის, რაც მას შესაფერისს ხდის ხმაურიანი აგენტებისთვის, დუბინგისთვის და ინტერაქტიული პროგრამებისთვის, სადაც ლოდინის დრო მნიშვნელოვანია.

ჩვეულებრივი TTS ქმნის სრულ აუდიო ფაილს, სანამ რაიმეს დაუბრუნებს - თქვენ ელოდებით, შემდეგ კი მთელი ფრაზას ერთდროულად უსმენთ. რეალურ დროში TTS იყენებს სერვერის მიერ გაგზავნილ მოვლენებს (SSE), რომ მოკლე აუდიო ნაწილების გადაცემა მოხდეს, როგორც კი მოდელი მათ გამოიმუშავებს. მომხმარებელი ფრაზის დასაწყისს თითქმის მაშინვე უსმენს, ხანგრძლივი შეყვანის შემთხვევაშიც კი.

Kokoro არის ნაგულისხმევი ბაზული პროგრამა - ის რეალურ დროში ხმას 100-ჯერ უფრო სწრაფად ქმნის, ვიდრე თანამედროვე გრაფიკული პროცესორი. ჩვენ MOSS-TTS-Realtime-ს ინტეგრირებას ვახდენთ, როგორც უფრო მაღალი ხარისხის ალტერნატივას; მომხმარებლებს შეეძლებათ აირჩიონ თხოვნის მიხედვით, როდესაც ის გამოვა.

Kokoro- სთვის პირველი აუდიოს ტიპიური დაგვიანება არის 300- 800 მლს საზოგადოებრივ კავშირზე. ამის შემდეგ ქსელის ორმაგი გზავნილი დომინირებს. გვერდი აჩვენებს რეალურ დროში გამოთვლილ პირველ აუდიოს დროს UI- ში, ასე რომ შეგიძლიათ ნახოთ ზუსტად რამდენი დრო დასჭირდა თითოეულ მოთხოვნას.

2000 წელს გამოვიდა ფილმი „The Last of Us“, რომელიც თამაშს ეფუძნება. ფილმი ეფუძნება 2000 წლის ფილმს „The Last of Us“, რომელიც ასევე ეფუძნება 2000 წლის ფილმს „The Last of Us Part II“, რომელიც ასევე ეფუძნება ფილმს „The Last of Us Part III“.

დიახ. POST https://api.tts.ai/v1/tts/stream/-ზე, იგივე სხეულით, როგორც ჩვეულებრივი /v1/tts/ დასასრული. პასუხი არის base64-ით კოდირებულ WAV ნაჭრების SSE ნაკადი. უფასო დონე მხარს უჭერს 10 წარმოქმნას დღეში ანონო მომხმარებლისთვის; ავთენტური მომხმარებლები იღებენ სრულ სიმბოლოთა რაოდენობას ანგარიშზე.

Kokoro იყენებს წინასწარ მომზადებულ ხმებს და არ ახდენს კლონირებას. MOSS- TTS- Realtime (თუ ინტეგრირებულია) უზრუნველყოფს 3 წამიანი რეფერენტის ნულოვანი გასროლის ხმების კლონირებას. სრული ხმების კლონირებისთვის დღეს, გამოიყენეთ ჩვეულებრივი /text- to- speech/ გვერდი Chatterbox ან GPT- SoVITS- ით - ისინი არ არიან სტრიმინგის შესაძლებლობით, მაგრამ ქმნიან ინდივიდუალურ ხმებს.

იგივე სიმბოლოების ღირებულება, როგორც ჩვეულებრივი TTS დასასრული. Kokoro არის უფასო დონე (1x ღირებულება). MOSS- TTS- Realtime მუშაობს სტანდარტულ დონეზე (2x ღირებულება), თუ ჩართულია. სტრიმინგ პროტოკოლი არ მატებს რაიმე ფასდაკლებას.

დიახ — აუდიოს გადაცემის დასასრული დაკავშირებულია Twilio- ს ხმოვანი webhook- ით, რათა აუდიოს გადაცემა ხმაურიანი ზარის დროს მოხდეს. ჩვენი ხმოვანი აგენტების პლატფორმა უკვე ახორციელებს ამ ფუნქციას IVR- ისა და გამომავალი ზარების დროს. ხმოვანი ზარის ბოლოდან ბოლომდე დაგვიანება ჩვეულებრივ 1-2 წამს შეადგენს, STT და LLM პასუხების ჩათვლით.

თუ თქვენი ქსელი ტრანსპორტირების დროს დაკარგავს ნაწილს, სტრიმინგ პლეერი გადავა წინ, და არ დაჩქარდება. იმ პროგრამებისთვის, რომლებიც ვერ იტანენ შეფერხებებს, დაბრუნდით ჩვეულებრივ არასტრიმინგულ დასასრული პუნქტზე, ან აუდიოს 500 მს-ის უბაფირებას, სანამ სტრიმინგს დაიწყებთ.

5.0/5 (1)

საუბრის რეალურ დროში გადაცემაName

უფასო დღეში პირველი 10 თაობისთვის. რეგისტრაცია, რომ გააქტიურდეს სიმბოლოების სრული რაოდენობა და API წვდომა.

რეგისტრაცია ფასების ჩვენება

რეალურ დროში TTS

ტექსტი

ხმოვანი პარამეტრებიName

ატმოსფერული სინათლე

გამონატანი

როგორ მუშაობს TTS- ის გადაცემა

1. ტექსტის გაგზავნა

2. მოდელის შექმნა

3. ნაკადის ნაჭრები

4. მყისიერი მოსმენა

გამოყენების შემთხვევები

ხმოვანი აგენტებიName

ჟურნალი

თამაშებიName

დამხმარე ობიექტები

რეალურ დროში TTS გეგმები

ხშირად დასმული კითხვები

კაკგჲ ვ ოპვგჲე გ პვალნჲ გპვმვ?

კაკ ჟვ პაჱლთფაგა ოპვგჲეყრ გ პვალნჲ გპვმვ ჲრ ჲბთფნთწ?

კჲი მჲევლ ჱაოჲგვეა ჟრპანთუარა გ პვალნჲ გპვმვ?

კჲლკჲ ბყპჱჲ ვ ჱაეყლზვნთვრჲ ნა ჱგსკა?

კაკგჲ მჲდა ეა ჟრპჲწ ჟ ოპვგჲე გ პვალნჲ გპვმვ?

თმა ლთ აპრთკსლა ჱა ოპვგჲე გ პვალნჲ გპვმვ?

ოჲეეპზა ლთ დლაჟჲგჲ კლჲნთპანვ?

კჲლკჲ ჟრპსგა ოპვგჲეყრ გ პვალნჲ გპვმვ?

მჲზვ ლთ ეა დჲ თჱოჲლჱგამ ჱა რვლვტჲნნთ ჲბაეთ?

ჱაღჲ ჱგსკყრ ოჲნწკჲდა ჟვ ოპვკპაღა ნა ჟპვეარა ნა ჟლჲგთრვ?

საუბრის რეალურ დროში გადაცემაName