Informa d' errors / Petició de característiques

TTS en temps real

S' està creant text a veu amb les aplicacions sub-segones de primera mà. Es construeix per als agents de veu i en directe.

Signa lliure

Nosaltres no Ven la vostra veu

Text

Corrent de dades

0/5,000 caràcters ~0.3s primer àudio

& Arranjament de la veu

Model Només models manejables de corrent de dades.

Veu

Velocitat 1.0x

Live LayCity name (optional, probably does not need a translation)

—

Feu clic sobre el corrent de dades per mesurar la primera iuda

Sortida

Els trossos d'àudio jugaran aquí com si s'hagués disparat.

Com funciona el corrent de dades TTS

1. Envia text

Text POST a / v1/ tts/stream/ com a sol· licitud d' esdeveniment del servidor.

2. Model Genera

Kokoro fragmenta el text i genera mostres d'àudio a la GPU.

3, trossos de corrent de dades

Els trossos base64-code WAV arriben sobre SSE i comencen a jugar immediatament.

4. Escolta en directe

L' usuari escolta l' inici de la frase en menys d' un segon, fins i tot en llargues entrades.

Casos d' ús

A on s'obrin noves experiències en sub-segon.

Agents de veu

Els robots conversals que responen tan ràpid com un humà.

En directe de Dubbing

Traduïu i du un flux en temps real sense pausa per a la memòria intermèdia.

Jocs

Diàleg NPC que reacciona a les opcions del jugador instantàniament, sense pre-gresed VO.

Accessibilitat

Els lectors de pantalla i eines ajudants que comencen a parlar en el moment en que un usuari fa clic.

Plans TTS realName

Inicia lliure, actualització quan necessiteu més

Lliure

Kokoro Ratch ( model lliure)
500 caràcters per generació
10 fluxos lliures/ dia per usuari anònim
Sub-segon primer-audio tardency
SSE el flux sobre HTTPS

El més popular

Compte lliure

15.000 caràcters a signar
5000 caràcters per flux
Clau API per a l' accés temàtic
Historial de generació
No hi ha cap barret diari

Signa lliure

Pro

MOS- TTS- Temps (quan viu)
100.000 caràcters per flux
Cua de la GPU de prioritat
Agent de veu + Twilio integració
Límits de taxa superior

Actualitza

Preguntes més freqüents

Els trossos d' àudio en temps real de text a veu ja que es generen, en comptes d' esperar que tota la sentència acabi. La primera mostra d' àudio arriba en un segon, fent que sigui adequada per als agents de veu en directe, dubbing, i aplicacions interactius on importa el retard.

L' ordre TTS genera el fitxer d' àudio complet abans de tornar qualsevol cosa que espereu, llavors escolteu tota la frase. El TTS en temps real usa esdeveniments del servidor (SSE) per filtrar trossos d' àudio curts com el model els produeix. L' usuari escolta l' inici de la frase gairebé immediatament, fins i tot en les entrades llargues.

Kokoro és el dorsal per omissió que genera àudio aproximadament 100x més ràpid que el temps real en una GPU moderna. Estem integrant l' hora MOSS- TTS com una alternativa de major qualitat; els usuaris podran escollir per petició una vegada que els vaixells.

Típic de primera i tardeta a Kokoro és 300-800mms sobre una connexió pública. La xarxa envolta les dominades després d' això. Les superfícies de pàgina es mesuraven en temps real a primer a l' UI per tal que pugueu veure exactament quant de temps s' ha pres cada petició.

Els agents de veu que responen de manera directa, viuen dubant per als mitjans de comunicació sortints, lectors interactius, que comencen a parlar en el moment en què un usuari fa clic, i qualsevol aplicació on esperar dos o tres segons per a l'àudio es sentiria descurada.

Sí. POST a https://api. tats.ai/v1/ttts/stream / amb el mateix cos que el normal / v1/tts/ endpoints. La resposta és un flux SSE de trossos WAV- de base64. El addent lliure permet 10 generacions per usuari anònim; els usuaris autenticats reben l' assignació total de caràcters.

Kokoro utilitza veus pre- entrenades i no clonades. L' MOSSST- TTS- TTS- Temps (quan està integrat) implementa la clonació de veu zero- e- fons d' una referència de 3 segons. Per a fer còpies de veu completa avui, useu la pàgina normal / text a veu/ pàgina amb caixa de xat o GPTT- STITS, les que no es poden introduir, però produeixen veus personalitzades.

El mateix cost de caràcters que el punt d' acabament TTS normal. Kokoro és més lliure (1x cost). L' hora MOSS- TTS- TTS s' executarà al cost estàndard del tier (2x) quan està habilitat. El protocol de flux no afegeix cap càrrega de fixació de preus.

La nostra plataforma agent de veu ja fa això per a trucar i sortir-se'n. La resposta final a una trucada és normalment 1-2 segons incloent ST i LLM.

Si la vostra xarxa cau un tros en el trànsit, el reproductor de flux saltarà més endavant que el lloc de lloc. Per a aplicacions que no puguin tolerar llocs buits, cauen al punt normal de final, o 500mms d' àudio abans d' iniciar la reproducció.

5.0/5 (1)

Pronunciació del corrent de dades en temps real

Lliure per a les primeres 10 generacions al dia. S' està preparant per a desbloquejar l' ús d' assignació de caràcters i l' API complet.

Signa lliure Visualitza Pricing

TTS en temps real

Text

& Arranjament de la veu

Live LayCity name (optional, probably does not need a translation)

Sortida

Com funciona el corrent de dades TTS

1. Envia text

2. Model Genera

3, trossos de corrent de dades

4. Escolta en directe

Casos d' ús

Agents de veu

En directe de Dubbing

Jocs

Accessibilitat

Plans TTS realName

Preguntes més freqüents

Què és TTS en temps real?

Com és el TTS en temps real diferent a TTS?

Quin model porta la pàgina en temps real?

Com de ràpid és el primer retard?

Què puc construir amb TTS en temps real?

Hi ha una API per TTS en temps real?

Té suport a la clonació de veu?

¿Quant costa el TTS en temps real?

Puc utilitzar-la per telèfon?

Per què l'àudio es talla de vegades a meitat de paraula?

Pronunciació del corrent de dades en temps real