Тизме

Текст-в-слов поток секунданын ичиндеги биринчи аудионун кечигиш менен. Сөз агенттери жана түз эфирдеги колдонмолор үчүн иштелип чыккан.

Сиздин тилиңиз үчүн TTS үндөрү азырынча жок. Бизге өзүңүздүн үндөрүңүздү кошуп берүүңүздү сурайбыз! Сиздин үнүңүздү сатуу

Текст

Стриминг
0/5,000 символ ~0.3s биринчи аудио

Сөздү орнотуулар

Тексттик билдирүүлөрдү кабыл алууга мүмкүнчүлүк берген моделдер гана.

Жаңылоо

Биринчи аудионун кечигишин өлчөө үчүн "Стремка" баскычын чыкылдатыңыз

Чыгаруу

Аудио бөлүктөрүн ойнотуу

0:00
Биринчи бөлүк:
Бардыгы: 0
Жалпы убакыт:

Транслирование TTS как работает

Текстти жөнөтүү

POST текста в /v1/tts/stream/ как запроса на события, отправленные сервером.

2. Модель түзөт

Kokoro текстти бөлүп, аудиону GPU аркылуу семплден-семплге генерациялайт.

3. Потоктун бөлүктөрү

Base64-кодировкадагы WAV-фрагменттер SSE аркылуу келип, бир эле учурда ойнотулат.

4. Тез угуу

Колдонуучу узун сөздөрдүн киришин да бир секундадан кийин угуп калат.

Колдонуу мисалдары

Кайсы жерде секунданын бир бөлүгү ичиндеги кечиктирүү жаңы тажрыйбаларды ачат.

Сөз агенттери

Адамга окшоп тез жооп берген чат-боттор.

Дублирование

Буферизациялоосуз, реалдуу убакытта трансляциялоо жана дублдоо.

Оюндар

NPC диалогу, который реагирует на выборы игрока, без предварительного отображения голоса.

Артыкчылыктар

Экран окутуучу жана жардамчы аспаптар, алар колдонуучунун басуусу менен сүйлөй башташат.

Тизмелерди түзүү

Акысыз баштаңыз, керек болсо жаңыртыңыз

Акысыз
  • Kokoro поток (свободный вариант)
  • 500 символ бир генерацияда
  • 10 акысыз агым/күн ар бир анонимдүү колдонуучуга
  • Биринчи аудионун секунданын бир бөлүгү ичиндеги кечигиши
  • HTTPS аркылуу SSE поток
Эң популярдуу
Акысыз эсеп-кысап
  • 15000 символ
  • 5000 символ бир поток үчүн
  • Программалык кирүү үчүн API ачкыч
  • Жаңылоо тарыхы
  • Күнүнө агымдын чектөөсү жок
Акысыз каттоо
Про
  • MOSS-TTS-Realtime (ачык болгондо)
  • 100,000 символ бир поток үчүн
  • GPU кезектери
  • Твиллионун үн агенти жана интеграциясы
  • Жогору ылдамдыктагы чектөөлөр
Жаңылоо

Көп берилүүчү суроолор

Тексттен сүйлөмгө которуу процесси тексттен сүйлөмгө которуу процесси бүтүп жатканда аудио бөлүктөрүн түзөт, ал эми бүт сүйлөм бүтүп калганда күтпөйт. Биринчи аудио үлгүсү бир секундадан кийин келет, бул аны үн агенттери, дублёрлор жана интерактивдүү колдонмолор үчүн ылайыктуу кылат.

Жөнөкөй TTS толук аудио файлды эч нерсе кайтарбай туруп жаратат — сиз күтүп, андан кийин бүт сүйлөмдү бир эле учурда угуп аласыз. Реалдуу убакыттагы TTS Server-Sent Events (SSE) колдонуп, кыска аудио бөлүктөрдү моделдин чыгаруусу менен берүүгө мүмкүндүк берет. Колдонуучу узун сүйлөмдөрдүн башында да сөздүн башталышын бир эле учурда угат.

Kokoro - бул стандарттуу backend - ал заманбап GPU-да реалдуу убакытта болгондон 100 эсе тез генерациялайт. Биз MOSS-TTS-Realtime-ди сапаттуу альтернатива катары интеграциялап жатабыз; колдонуучуларга аны жүктөп алгандан кийин ар бир суроо боюнча тандоо мүмкүнчүлүгү берилет.

Kokoro'нун биринчи аудио сигналынын күтүлүүчү убактысы 300-800 мс. Андан кийин тармактык байланыштын ылдамдыгы жогорулайт. Бул барактын интерфейсинде биринчи аудио сигналга чейинки убакытты көрсөтөт, ошондуктан ар бир суроонун канча убакытты алганын көрө аласыз.

Конверсациялык жооп берген үн агенттери, медиа-транзит үчүн түз эфирдеги дублирование, интерактивдүү оюн NPCs, колдонуучунун чыкылдатканда сүйлөй баштаган жеткиликтүүлүк окурмандар, жана аудиону эки же үч секунд күтүп турган ар кандай тиркеме.

Да. POST https://api.tts.ai/v1/tts/stream/ менен, кадимки /v1/tts/ endpoint менен бирдей дене менен. Жауап base64-кодталған WAV фрагменттерінің SSE-ағысымен келеді. Тегін деңгей анонимді пайдаланушы үшін күн сайын 10 генерацияны қолдайды; аутентификацияланған пайдаланушылар үшін есептік жазба үшін толық символдық шектеулер бар.

Kokoro алдын-ала даярдалган үндөрү менен иштейт жана клондоого жол бербейт. MOSS-TTS-Realtime (интеграцияланганда) 3 секундалык шилтемеден 0-шот үн клондоону колдойт. Бүгүнкү күндө толук үн клондоо үчүн, Chatterbox же GPT-SoVITS менен адаттагы /text-to-speech/ бетин колдонуп көрүңүз — алар поток-кабилитеттүү эмес, бирок өз алдынча үн чыгарат.

Кокоро акысыз (1x баасы). MOSS-TTS-Realtime стандарттык (2x баасы) деңгээлде иштей алат, эгерде ал иштетилсе. Протоколдун агымы эч кандай кошумча бааны кошпойт.

Да — потоктук конечный пункт с Twilio голосовым веб-узелом для подачи живого аудио в телефонный звонок. Наша платформа голосового агента уже делает это для IVR и выходящих звонков. Конечный задержка на телефонном звонке обычно составляет 1-2 секунды, включая STT и LLM ответ.

Эгерде сиздин тармак транзит учурунда бир бөлүгүн жоготуп алса, поток ойноткучу токтоп калуудан көрө, алдыга жылат. Аралыктарды тоскоол кылбаган колдонмолор үчүн, адаттагы потоксуз аяктоо пунктуна кайтып келүү керек, же ойнотуудан мурун 500 мс аудиону буферге сактоо керек.
5.0/5 (1)

Биз эмнени жакшыртсак болот? Сиздин пикириңиз бизге көйгөйлөрдү чечүүгө жардам берет.

Сөздү реалдуу убакытта берүү

Күнүнө 10 генерацияга акысыз. Символдорду толук колдонууга жана APIге кирүү үчүн каттоодон өтүү керек.