Реалновременска ТТС

Преношење текста у говор са подсекунда првог аудио латенције. Направљена за говорне агенте и програме уживо.

Текст

Стрејање
0/5,000 знакови ~0.3s прво аудио

Поставке & гласа

Само модели који могу да се претекну.

Жива латенција

Кликните на ток да изм› јерите латенцију првог аудија

Излаз

Аудио парчићи ће свирати овде док се точе.

0:00
Први део:
укупно парчића: 0
укупно вр› ијеме:

Како ради струјни ТТС

1. Пошаљи текст

Текст ПОСТ‐ а до / v1/ tts/ stream / као захтев за догађајима које су послати серверу.

2. Модел генерише

Кокоро дели текст и генерише аудио узорак по узорку на ГПУ.

3. струм парчићи

Басе64-кодирани WAV парчићи стижу преко ССЕ и почни одмах да свираш.

4. Слушајте уживо

Корисник чује почетак реченице испод секунде, чак и на дугим улазима.

Случаји коришћења

Где подсекунда латенција откључава нова искуства.

Гласовни агенти

Разговорни ботови који реагују тако брзо као човек би.

Ливе Дуббинг

Преведи и пребаци ток у реално време без баферских пауза.

Игре

Дијалог НПЦ‐ а који одмах реагује на избор играча, без предатог ВО.

Приступачност

Читачи екрана и помоћни алат који почињу да говоре чим корисник кликне.

Реалновременски ТТС планови

Покрени бесплатно, надогради када ти затреба више

слободни
  • ~@ ¦Кокоро¦Kokoro¦ трајање (слободан модел)
  • 500 знакова по генерацији
  • 10 слободних токова/дана по анонимном кориснику
  • Подсекунда прва аудио латенција
  • ССЕ пренос преко ХТТС‐ а
Најпопуларнији
слободни налог
  • 15.000 знакова на пријави.
  • 5.000 знакова по току
  • АПИ кључ за програмски приступ
  • историјат генерације
  • Нема дневног поклопца тока
Слободно се пријави
Проф.
  • МОСС‐ ТТС‐ реално време (када је уживо)
  • 100.000 знакова по току
  • Приоритетан ГПУ редослед
  • Гласовни агент + Твилио интеграција
  • Виша ограничења стопа
Надогради

Често постављана питања

Реално време потоци звука од текста до говора као што су генерисани, уместо да чекате да се цела реченица заврши. Први аудио узорак стиже испод секунде, чинећи га пригодним за живе гласне агенте, дублирања и интерактивне програме где је латентност важна.

Регуларни ТТС генерише пуни аудио фајл пре него што вратите било шта — сачекате, затим чујете читаву реченицу одједном. Реално време ТТС користи ~@ ¦Сервер- Сент¦SSE¦ за трајање кратких аудио парчића док их модел ствара. Корисник чује почетак реченице скоро одмах, чак и на дугим улазима.

Кокоро је подразум› ијевана позадина — ствара звук отприлике 100× брже од реалног времена на модерном ГПУ. Интегришемо МОСС- ТТС‐ реалтиме као алтернативу вишег квалитета; корисници ће моћи да бирају по захт› јеву када бродови буду бирали.

Типично првоаудио латенција на Кокору је 300- 800м преко јавне везе. Мрежна трка доминира након тога. Страница површи уживо измерена од времена до првог у УИ‐ у тако да можете видети тачно колико је трајало сваком захтеву.

Гласовни агенти који одговарају разговорно, живи дублинг за струјање медијума, интерактивне игре НПЦС, читаоци приступачности који почињу да говоре чим корисник кликне, и сваки програм где чекање две или три секунде за аудио ће се осећати слабо.

Да. ПОСТ на https://api. tts.ai/v1/ tts/ stream/ са истим телом као и регуларни / v1/ tts/ крајњи крајњи крај. Одговор је ССЕ ток базе64- кодираних WAV парчића. Слободни низ подржава 10 генерација дневно по анонимном кориснику; аутентификовани корисници добијају пуну дозволу за знак по рачуну.

Кокоро користи унапред обучене гласове и не клонира. МОСС- ТТС- реалтиме (када је интегрисан) подржава клонирање гласа од 3 секунде. За пуно клонирање гласа данас, користите редовни / text- to- speech/ page са чаттербоксом или GPT- SoVITS — они не могу да се стрејмирају, већ произведу посебне гласове.

Исти трошкови знака као и обични ТТС крајњи крај. Кокоро је бесплатан (1x цена). МОСС- ТТС‐ реалтиме ће се покренути по стандардном нивоу (2x цена) када је укључено. Протокол тока не додаје никакву надопуну цене.

Да — упарите исходну исходну тачку тока са Твилио гласним веб- куглама да бисте пребацили уживо аудио у телефонски позив. Наша платформа за гласовни агент већ ово ради за ИВР и излазеће позиве. Крајње- до- крајње латенције на телефонском позиву је обично 1-2 секунде, укључујући СТТ и ЛЛМ одговор.

Ако ваша мрежа испусти део у транзиту, пуштач ће прескочити унапред, а не одуговлачити. За програме који не могу да толеришу празнине, вратите се у редовну исходну тачку без преноса, или бафер 500м звука пре почетка пуштања.
5.0/5 (1)

Твоја повратна реакција нам помаже да решимо проблеме.

токови говора у реалном времену

Бесплатно за првих 10 генерација дневно. Пријавите се да откључате пун додатак за карактер и приступ АПИ‐ у.