TTS en temps real

S' està creant text a veu amb les aplicacions sub-segones de primera mà. Es construeix per als agents de veu i en directe.

Nosaltres no Ven la vostra veu

Text

Corrent de dades
0/5,000 caràcters ~0.3s primer àudio

& Arranjament de la veu

Només models manejables de corrent de dades.

Live LayCity name (optional, probably does not need a translation)

Feu clic sobre el corrent de dades per mesurar la primera iuda

Sortida

Els trossos d'àudio jugaran aquí com si s'hagués disparat.

0:00
Primer tros:
Nombre total de trossos: 0
Temps total:

Com funciona el corrent de dades TTS

1. Envia text

Text POST a / v1/ tts/stream/ com a sol· licitud d' esdeveniment del servidor.

2. Model Genera

Kokoro fragmenta el text i genera mostres d'àudio a la GPU.

3, trossos de corrent de dades

Els trossos base64-code WAV arriben sobre SSE i comencen a jugar immediatament.

4. Escolta en directe

L' usuari escolta l' inici de la frase en menys d' un segon, fins i tot en llargues entrades.

Casos d' ús

A on s'obrin noves experiències en sub-segon.

Agents de veu

Els robots conversals que responen tan ràpid com un humà.

En directe de Dubbing

Traduïu i du un flux en temps real sense pausa per a la memòria intermèdia.

Jocs

Diàleg NPC que reacciona a les opcions del jugador instantàniament, sense pre-gresed VO.

Accessibilitat

Els lectors de pantalla i eines ajudants que comencen a parlar en el moment en que un usuari fa clic.

Plans TTS realName

Inicia lliure, actualització quan necessiteu més

Lliure
  • Kokoro Ratch ( model lliure)
  • 500 caràcters per generació
  • 10 fluxos lliures/ dia per usuari anònim
  • Sub-segon primer-audio tardency
  • SSE el flux sobre HTTPS
El més popular
Compte lliure
  • 15.000 caràcters a signar
  • 5000 caràcters per flux
  • Clau API per a l' accés temàtic
  • Historial de generació
  • No hi ha cap barret diari
Signa lliure
Pro
  • MOS- TTS- Temps (quan viu)
  • 100.000 caràcters per flux
  • Cua de la GPU de prioritat
  • Agent de veu + Twilio integració
  • Límits de taxa superior
Actualitza

Preguntes més freqüents

Els trossos d' àudio en temps real de text a veu ja que es generen, en comptes d' esperar que tota la sentència acabi. La primera mostra d' àudio arriba en un segon, fent que sigui adequada per als agents de veu en directe, dubbing, i aplicacions interactius on importa el retard.

L' ordre TTS genera el fitxer d' àudio complet abans de tornar qualsevol cosa que espereu, llavors escolteu tota la frase. El TTS en temps real usa esdeveniments del servidor (SSE) per filtrar trossos d' àudio curts com el model els produeix. L' usuari escolta l' inici de la frase gairebé immediatament, fins i tot en les entrades llargues.

Kokoro és el dorsal per omissió que genera àudio aproximadament 100x més ràpid que el temps real en una GPU moderna. Estem integrant l' hora MOSS- TTS com una alternativa de major qualitat; els usuaris podran escollir per petició una vegada que els vaixells.

Típic de primera i tardeta a Kokoro és 300-800mms sobre una connexió pública. La xarxa envolta les dominades després d' això. Les superfícies de pàgina es mesuraven en temps real a primer a l' UI per tal que pugueu veure exactament quant de temps s' ha pres cada petició.

Els agents de veu que responen de manera directa, viuen dubant per als mitjans de comunicació sortints, lectors interactius, que comencen a parlar en el moment en què un usuari fa clic, i qualsevol aplicació on esperar dos o tres segons per a l'àudio es sentiria descurada.

Sí. POST a https://api. tats.ai/v1/ttts/stream / amb el mateix cos que el normal / v1/tts/ endpoints. La resposta és un flux SSE de trossos WAV- de base64. El addent lliure permet 10 generacions per usuari anònim; els usuaris autenticats reben l' assignació total de caràcters.

Kokoro utilitza veus pre- entrenades i no clonades. L' MOSSST- TTS- TTS- Temps (quan està integrat) implementa la clonació de veu zero- e- fons d' una referència de 3 segons. Per a fer còpies de veu completa avui, useu la pàgina normal / text a veu/ pàgina amb caixa de xat o GPTT- STITS, les que no es poden introduir, però produeixen veus personalitzades.

El mateix cost de caràcters que el punt d' acabament TTS normal. Kokoro és més lliure (1x cost). L' hora MOSS- TTS- TTS s' executarà al cost estàndard del tier (2x) quan està habilitat. El protocol de flux no afegeix cap càrrega de fixació de preus.

La nostra plataforma agent de veu ja fa això per a trucar i sortir-se'n. La resposta final a una trucada és normalment 1-2 segons incloent ST i LLM.

Si la vostra xarxa cau un tros en el trànsit, el reproductor de flux saltarà més endavant que el lloc de lloc. Per a aplicacions que no puguin tolerar llocs buits, cauen al punt normal de final, o 500mms d' àudio abans d' iniciar la reproducció.
5.0/5 (1)

Les teves reaccions ens ajuden a solucionar problemes.

Pronunciació del corrent de dades en temps real

Lliure per a les primeres 10 generacions al dia. S' està preparant per a desbloquejar l' ús d' assignació de caràcters i l' API complet.