რეალურ დროში TTS

ტექსტის საუბრად გადამუშავება აუდიოს პირველი ხმა 1 წამის დაგვიანებით. შექმნილია საუბრის აგენტებისთვის და აქტიური პროგრამებისთვის. Name

ტექსტი

სტრიმინგი
0/5,000 სიმბოლოები ~0.3s პირველი აუდიო

ხმოვანი პარამეტრებიName

ჟამჲ ჟრპთმ-კჲმოვრთბლნთ მჲევლთ.

ატმოსფერული სინათლე

დააწკაპუნეთ ნაკადზე პირველი აუდიოს დაგვიანების გასაზომად

გამონატანი

ჱგსკჲგთრვ ოპჲეყლზვნთწ ღვ ჟვ ოპვგყჱოპაგწრ რსკ, კჲდარჲ ჟვ ოპთბთპარ.

0:00
პირველი ნაჭერი:
საერთო ნაჭრები: 0
საერთო დრო:

როგორ მუშაობს TTS- ის გადაცემა

1. ტექსტის გაგზავნა

PostScript 1.0-ის ოფიციალური საიტი PostScript 1.0-ის ოფიციალური საიტი PostScript 1.0-ის ოფიციალური საიტი

2. მოდელის შექმნა

Kokoro-მ ტექსტი დაჭერს და აუდიოს ნამუშევრები GPU-ზე გამოსცემს.

3. ნაკადის ნაჭრები

Base64-ით კოდირებულ WAV-ის ნაჭრები SSE-ზე მოდიან და იწყებენ თამაშს.

4. მყისიერი მოსმენა

ოჲრჲმ ოჲფსგჟრგა ჟვკსნეა ოჲ-კჲლკს ჟვ ჱაოჲფგა ოპვეთჱგჲეჲრ, თ ნა ეჲლდთ გლვჱნთ.

გამოყენების შემთხვევები

ჱაეყლზვნთვრჲ ჲრ ნწკჲლკჲ ჟვკსნეთ ჲრგჲპწ ნჲგთ ოპვზთგწგანთწ.

ხმოვანი აგენტებიName

ჟოჲპჲგთ ბჲრთ, კჲთრჲ ჲრდჲგჲპწრ ბყპჱჲ კარჲ ფჲგვკ.

ჟურნალი

აუდიოს გადათარგმნა და დუბაიტი რეალურ დროში, უბაფერის შეწყვეტის გარეშე.

თამაშებიName

NPC დიალოგი, რომელიც რეაგირებს მოთამაშის არჩევანს, არანაირი წინასწარ გაკეთებული VO.

დამხმარე ობიექტები

ეკრანის მკითხველი და დახმარების ინსტრუმენტები, რომლებიც იწყებენ საუბარს მომხმარებლის დაჭერის მომენტში.

რეალურ დროში TTS გეგმები

ჱაოჲფნთ ბვჱოლარნჲ, ოპვმვჟრთ ჟვ, კჲდარჲ რთ რპწბგა ოჲგვფვ

თავისუფალი
  • Kokoro-ს სტრიმინგი (საბავშვო მოდელი)
  • 500 სიმბოლო ერთ გენერაციაში
  • 10 უფასო ნაკადი დღეში ანონსებულ მომხმარებელზე
  • აუდიოს პირველი ხმა
  • SSE-ს გადაცემა HTTPS-ზე
ყველაზე პოპულარული
ანგარიში
  • 15000 სიმბოლო რეგისტრაციისას
  • 5000 სიმბოლო ერთ ნაკადში
  • API ღილაკი პროგრამული წვდომისათვის
  • ისტორიის შექმნა
  • ყოველდღიური ნაკადის საზღვრის არქონა
რეგისტრაცია
პროფესიონალი
  • MOSS- TTS- რეალურ დროში (თუ აქტიურია)
  • 100, 000 სიმბოლო ერთ ნაკადში
  • GPU- ს რიგის პრიორიტეტი
  • ხმოვანი აგენტი + Twilio ინტეგრაციაName
  • მაღალ დონეზე საზღვრები
გაუმჯობესება

ხშირად დასმული კითხვები

რეალურ დროში ტექსტის საუბრად გადამუშავება აუდიო ნაწილებს აწარმოებს მათი შექმნის დროს, მთელი ფრაზების დასრულების მოლოდინის ნაცვლად. პირველი აუდიო ნამსხვრევი ერთ წამში მოდის, რაც მას შესაფერისს ხდის ხმაურიანი აგენტებისთვის, დუბინგისთვის და ინტერაქტიული პროგრამებისთვის, სადაც ლოდინის დრო მნიშვნელოვანია.

ჩვეულებრივი TTS ქმნის სრულ აუდიო ფაილს, სანამ რაიმეს დაუბრუნებს - თქვენ ელოდებით, შემდეგ კი მთელი ფრაზას ერთდროულად უსმენთ. რეალურ დროში TTS იყენებს სერვერის მიერ გაგზავნილ მოვლენებს (SSE), რომ მოკლე აუდიო ნაწილების გადაცემა მოხდეს, როგორც კი მოდელი მათ გამოიმუშავებს. მომხმარებელი ფრაზის დასაწყისს თითქმის მაშინვე უსმენს, ხანგრძლივი შეყვანის შემთხვევაშიც კი.

Kokoro არის ნაგულისხმევი ბაზული პროგრამა - ის რეალურ დროში ხმას 100-ჯერ უფრო სწრაფად ქმნის, ვიდრე თანამედროვე გრაფიკული პროცესორი. ჩვენ MOSS-TTS-Realtime-ს ინტეგრირებას ვახდენთ, როგორც უფრო მაღალი ხარისხის ალტერნატივას; მომხმარებლებს შეეძლებათ აირჩიონ თხოვნის მიხედვით, როდესაც ის გამოვა.

Kokoro- სთვის პირველი აუდიოს ტიპიური დაგვიანება არის 300- 800 მლს საზოგადოებრივ კავშირზე. ამის შემდეგ ქსელის ორმაგი გზავნილი დომინირებს. გვერდი აჩვენებს რეალურ დროში გამოთვლილ პირველ აუდიოს დროს UI- ში, ასე რომ შეგიძლიათ ნახოთ ზუსტად რამდენი დრო დასჭირდა თითოეულ მოთხოვნას.

2000 წელს გამოვიდა ფილმი „The Last of Us“, რომელიც თამაშს ეფუძნება. ფილმი ეფუძნება 2000 წლის ფილმს „The Last of Us“, რომელიც ასევე ეფუძნება 2000 წლის ფილმს „The Last of Us Part II“, რომელიც ასევე ეფუძნება ფილმს „The Last of Us Part III“.

დიახ. POST https://api.tts.ai/v1/tts/stream/-ზე, იგივე სხეულით, როგორც ჩვეულებრივი /v1/tts/ დასასრული. პასუხი არის base64-ით კოდირებულ WAV ნაჭრების SSE ნაკადი. უფასო დონე მხარს უჭერს 10 წარმოქმნას დღეში ანონო მომხმარებლისთვის; ავთენტური მომხმარებლები იღებენ სრულ სიმბოლოთა რაოდენობას ანგარიშზე.

Kokoro იყენებს წინასწარ მომზადებულ ხმებს და არ ახდენს კლონირებას. MOSS- TTS- Realtime (თუ ინტეგრირებულია) უზრუნველყოფს 3 წამიანი რეფერენტის ნულოვანი გასროლის ხმების კლონირებას. სრული ხმების კლონირებისთვის დღეს, გამოიყენეთ ჩვეულებრივი /text- to- speech/ გვერდი Chatterbox ან GPT- SoVITS- ით - ისინი არ არიან სტრიმინგის შესაძლებლობით, მაგრამ ქმნიან ინდივიდუალურ ხმებს.

იგივე სიმბოლოების ღირებულება, როგორც ჩვეულებრივი TTS დასასრული. Kokoro არის უფასო დონე (1x ღირებულება). MOSS- TTS- Realtime მუშაობს სტანდარტულ დონეზე (2x ღირებულება), თუ ჩართულია. სტრიმინგ პროტოკოლი არ მატებს რაიმე ფასდაკლებას.

დიახ — აუდიოს გადაცემის დასასრული დაკავშირებულია Twilio- ს ხმოვანი webhook- ით, რათა აუდიოს გადაცემა ხმაურიანი ზარის დროს მოხდეს. ჩვენი ხმოვანი აგენტების პლატფორმა უკვე ახორციელებს ამ ფუნქციას IVR- ისა და გამომავალი ზარების დროს. ხმოვანი ზარის ბოლოდან ბოლომდე დაგვიანება ჩვეულებრივ 1-2 წამს შეადგენს, STT და LLM პასუხების ჩათვლით.

თუ თქვენი ქსელი ტრანსპორტირების დროს დაკარგავს ნაწილს, სტრიმინგ პლეერი გადავა წინ, და არ დაჩქარდება. იმ პროგრამებისთვის, რომლებიც ვერ იტანენ შეფერხებებს, დაბრუნდით ჩვეულებრივ არასტრიმინგულ დასასრული პუნქტზე, ან აუდიოს 500 მს-ის უბაფირებას, სანამ სტრიმინგს დაიწყებთ.
5.0/5 (1)

ჲბპარნარა ჟთ ჲბაგვჟრ ნთ ოჲმადა ეა ჟოპაგთმ ოპჲბლვმთრვ.

საუბრის რეალურ დროში გადაცემაName

უფასო დღეში პირველი 10 თაობისთვის. რეგისტრაცია, რომ გააქტიურდეს სიმბოლოების სრული რაოდენობა და API წვდომა.