ТТС во реално време

Го пренесувам текстот во говор со подсекунда прва аудио латенција. Изградена за гласовни агенти и живи апликации.

Сеуште немаме ТТС гласови на твојот јазик. Продај го гласот

Текст

Течење
0/5,000 знаци ~0.3s прво аудио

Поставувања за & гласот

Само модели кои можат да се пренесат.

Жива латенција

Кликнете на струја за да ја измерите латенцијата на прво- аудио

Излез

Аудио парчиња ќе свират тука додека влегуваат.

0:00
Прв дел:
Вкупно парчиња: 0
Вкупно време:

Како функционира струјната ТТС

1. Испрати текст

Текстот на POST до / v1/ tts/ stream/ како барање за настани со серверот.

2. Моделот генерира

Кокоро го дели текстот и генерира аудио примерок по примерок на ГПУ.

3. Токови парчиња

Басе64 кодирани WAV парчиња пристигнуваат преку SSE и почнуваат да свират веднаш.

4. Слушај во живо

Корисникот го слуша почетокот на реченицата за помалку од секунда, дури и за долги влези.

Случаи за користење

Каде што подсекундата отклучува нови искуства.

Гласовни агенти

Разговорни робови кои реагираат толку брзо како човек.

Лив Дуббинг

Преведи и преведи поток во реално време без паузи за баферирање.

Игри

Дијалогот на NCC кој реагира на изборите на играчот веднаш, нема предаден ВО.

Пристапност

Читачите на екранот и асистентските алатки кои почнуваат да зборуваат во моментот кога корисникот кликнува.

Планови за TTS во реално време

Стартувај бесплатно, надоградете кога ќе ви треба повеќе

Слободен
  • Кокоро пренесува (слободен модел)
  • 500 знаци во генерација
  • 10 слободни потоци/ден за анонимен корисник
  • Под-секунда прва-аудио латенција
  • SSE пренесува преку HTTPS
Најпопуларно
Слободна сметка
  • 15.000 знаци при пријавување
  • 5.000 знакови по поток
  • API- клуч за програмски пристап
  • Историја на генерирањето
  • Нема дневен капак на потокот
Слободно потпиши се
Проф.
  • MOSS- TTS- Реално време (кога е во живо)
  • 100.000 знакови по поток
  • Приоритетна GPU- редица
  • Гласовен агент + Твилио интеграција
  • Повисоки ограничувања на стапката
Надоградба

Често поставувани прашања

Реално време потоците од текст до текст како што се генерираат, наместо да чекаат целата реченица да биде завршена. Првиот аудио примерок пристигнува за помалку од една секунда, што го прави соодветен за живи гласовни агенти, дублирање и интерактивни апликации каде што латентноста е важна.

Регуларната TTS ја генерира целосната аудио датотека пред да се врати нешто — чекате, потоа ја слушате целата реченица одеднаш. Реално време TTS користи настани на сервер- Сент (SSE) за да пренесува кратки аудио делови додека моделот ги создава. Корисникот го слуша почетокот на реченицата речиси веднаш, дури и на долги влези.

Кокоро е стандардната позадина — генерира аудио приближно 100х побрзо од реалното време на модерниот ГПУ. Ние го интегрираме MOSS-TTS-Realtime како повисока алтернатива за квалитет; корисниците ќе можат да избираат по барање кога тие бродови.

Типичното прво-аудио латенција на Кокоро е 300-800м над јавната поврзаност. Мрежната трка доминира по тоа. Страницата го изгледува живо измереното од време на прв- аудио во УИ за да можете да видите точно колку време траеше секој барање.

Гласовните агенти кои одговараат разговорно, во живо дублирајќи за пренос на медиуми, интерактивна игра NPCs, читателите на пристапноста кои почнуваат да зборуваат во моментот кога корисникот кликнува, и секоја апликација каде што чекањето на две или три секунди за аудио ќе се чувствува слабо.

Да. ПОСТ на https://api. tts.ai/ v1/ tts/ stream/ со истото тело како и редовниот / v1/ tts/ крајниот крај. Одговорот е SSE поток од бази 64- кодирани WAV парчиња. Слободниот низ поддржува 10 генерации на ден за анонимниот корисник; аутентификуваните корисници добиваат целосна дозвола за карактер на сметка.

Kokoro користи претходно обучени гласови и не клонира. MOSS- TTS- Realtime (кога е интегриран) го поддржува клонирањето на гласот од 3 секунди. За целокупно клонирање на гласот денес, користете го редовниот / text- to- speech/ страницата со Chatterbox или GPT- SoVITS — тие не се приспособливи за струење, туку произведуваат сопствени гласови.

Истата цена на знаците како и редовната крајна точка на TTS. Kokoro е слободна (1x цена). MOSS- TTS- Realtime ќе работи според стандардната вредност (2x цена) кога е овозможена. Протоколот за точење не додава доплата на цените.

Да — парирајте го крајниот крај на преносот со Твилио за да внесете живо аудио во телефонски повик. Нашата платформа за гласовен агент веќе го прави ова за IVR и надворешното повикување. Крајната до крајната латенција на телефонски повик е обично 1-2 секунди, вклучувајќи го и одговорот на СТТ и LLM.

Ако вашата мрежа фрли дел во транзитот, играчот за точење ќе прескокне напред наместо да застојува. За апликациите кои не можат да толерираат празни, да се вратат на редовната крајна точка без пренос, или да баферираат 500м аудио пред да почнат да пуштаат.
5.0/5 (1)

Твоите повратни информации ни помагаат да ги решиме проблемите.

Тековен говор во реално време

Бесплатно за првите 10 генерации на ден. Запишете се за да го отклучите целосниот додаток за карактер и пристапот на API.