Тікелей TTS

Мәтінді сөйлеуге айналдыру, бірінші дыбыс секундтың бір бөлігінде шығады. Дыбыс агенттері мен тірі қолданбалар үшін жасалған. Name

Мәтін

Аудару
0/5,000 таңбалар ~0.3s бірінші аудио

Дыбыс & баптаулары

Тірек-қимыл аппараты дамыған.

Кідіріс деңгейі

Бірінші аудионың кешіктіруін өлшеу үшін Stream батырмасын басыңыз

Шығыс

Аудио бөліктерін кірген кезде осы жерде ойнату.

0:00
Бірінші бөлігі:
Барлығы: 0
Жалпы уақыт:

ТТС- нің қалай жұмыс істейтінін көрсету

1. Мәтінді жіберу

POST /v1/tts/stream/ дегенге сервер-жіберген оқиғалар сұранысы ретінде.

2. Модель құру

Kokoro мәтіннің фрагменттерін шығарып, графикалық процессордың көмегімен аудионы үлгі-мысалы бойынша шығарады.

3. Ағыс бөлшектері

Base64 кодталған WAV фрагменттері SSE арқылы келіп, бірден ойнатылады.

4. Тіркелгіні тыңдау

Пайдаланушы сөйлемнің басын секундтан аз уақыт ішінде естиді, тіпті ұзақ енгізу кезінде де.

Пайдалану жағдайлары

Бұл ретте, 2-ші деңгейдегі функционалдық топтар да қарастырылады.

Дыбыс агенттері

Conversational bots that respond as fast as a human would.

Тікелей дублдеу

Буферлік үзілістерсіз ағынды тікелей аударып, дубляждау. Name

ОйындарName

Ойыншылардың таңдауларына бірден жауап беретін NPC диалогы, алдын- ала рендерингсіз.

Арнайы мүмкіндіктер

Экранды оқу және пайдаланушы түрткенде сөйлеуге кірісер көмекші құралдар.

Тізбекті

Тегін бастаңыз, қажет болғанда жаңартыңыз

Бос
  • Kokoro тасымалдау (еркін үлгі)
  • Бір буындағы 500 таңба
  • Анонимді пайдаланушы үшін күн сайын 10 тегін ағын
  • Бірінші аудионың секундтан аз кешігіп шығуы
  • HTTPS арқылы SSE тасымалдау
Ең танымалы
Бос тіркелгі
  • 15000 таңба тіркеу кезінде
  • 5000 таңба бір ағым
  • API кілті бағдарламалық қатынау үшін
  • Жасау журналы
  • Күнделікті ағым шегі жоқ
Тегін тіркелу
Про
  • MOSS- TTS- Realtime (жұмыс істегенде)
  • Бір ағынды 100, 000 таңба
  • Артықшылықты GPU кезегі
  • Дыбыс агенті + Twilio біріктіруіName
  • Жылдамдық шегі жоғары
Жаңарту

Жиі қойылатын сұрақтар

Тексеру

Кәдімгі TTS ештеңе қайтармай- ақ толық аудио файлды құрады - күтіп, содан кейін бірден бүтін сөйлемді тыңдайсыз. Тікелей TTS серверден жіберілген оқиғаларды (SSE) қолданып, үлгі шығарған қысқа аудио бөліктерін таратады. Пайдаланушы ұзақ кірістірулер болғанда да сөйлемнің басын бірден естиді.

Kokoro - әдетті бағдарламалық қамтамасыз ету - ол заманауи графикалық процессордың шын уақытында шығаратын дыбыстан 100 есе жылдам шығарады. Біз MOSS- TTS- Realtime- ды жоғары сапалы альтернатива ретінде енгізудеміз; ол шығарылғаннан кейін пайдаланушы оны сұраныс бойынша таңдай алады.

Kokoro- ның әдеттегі бірінші аудионың кешуі ашық қосылымда 300- 800 мс. Содан кейін желідегі айналым басым болады. Бұл бетте пайдаланушы интерфейсінде бірінші аудиоға дейінгі уақытты көрсетеді, сондықтан әрбір сұраныстың қанша уақытты алатындығын көре аласыз.

Сөйлесу арқылы жауап беретін дауыс агенттері, медиа-стриминг үшін тікелей дубляж, интерактивті ойындардағы NPC-лер, пайдаланушы тінтуірді шерткен кезде сөйлей бастайтын қолжетімділік оқушылары және аудионы екі-үш секунд күту баяу сезіледі.

Иә. POST- ты https://api. tts. ai/ v1/ tts/ stream/ дегенге /v1/ tts/ дегенмен бірдей /v1/ tts/ аяқтау нүктесімен жіберіңіз. Жауап base64 кодталған WAV фрагменттерінің SSE- дегі ағыны болады. Тегін деңгейде анонимді пайдаланушы күн сайын 10 генерацияны қолдайды; аутентификацияланған пайдаланушыларға тіркелгіге сәйкес таңба саны толық беріледі.

Kokoro алдын- ала үйренген дауыстарды қолданады және клондамайды. MOSS- TTS- Realtime (интеграцияланғанда) 3 секундтық сілтемеден дауысты клондауды қолдайды. Қазіргі таңда толық дауысты клондау үшін, Chatterbox немесе GPT- SoVITS- тің / text- to- speech/ бетін қолданыңыз - олар дауысты тасымалдауға қабілетті емес, бірақ өзінің дауыстарын шығарады.

Таңбаның бағасы қалыпты TTS аяқтау нүктесімен бірдей. Kokoro тегін деңгейде (1x бағасы). MOSS- TTS- Realtime стандартты деңгейде (2x бағасы) орындалады. Аударма протоколы қосымша баға қоспайды.

Иә — телефон қоңырауына тікелей аудионы беру үшін, желідегі ауысу нүктесін Twilio дыбыс webhook- імен қосыңыз. Біздің дыбыс агент платформасы бұл әрекетті IVR және шығу қоңыраулары үшін жасап жатыр. Телефон қоңырауының аяқталу уақыты әдетте 1- 2 секунд, STT және LLM жауаптары қоса.

Желіде тасымалдау кезінде бір бөлшек өшіп қалса, ағымдағы плейер тоқтап қалмай, алға жылжиды. Ажыратуды қабылдамайтын қолданбалар үшін, ағымдағы емес аяқтау нүктесіне ауысыңыз, немесе ойнатуды бастамас бұрын 500 мс буферге арнаңыз.
5.0/5 (1)

Нені жақсартуға болады? Сіздің пікіріңіз бізге қателерді түзетуге көмектеседі.

Тіркеусіз сөйлеуName

Күніне 10- нан бастап тегін. Таңбалардың толық санын және API- ға қатынау құқығын алу үшін тіркеліңіз.