Tekst-al-vorta API por programistojName

Konstruu voĉajn aplikaĵojn per nia REST API. Aldonu naturan tekst-al-parolon, voĉan klonadon, voĉon-al-tekston, kaj aŭdan prilaboradon al viaj aplikaĵoj, babilrobotoj, voĉaj asistantoj, kaj SaaS-produktoj. OpenAI-kompatibla formato, pli ol 24 modeloj, simpla integriĝo.

REST API Babilrobotoj Voĉaj aplikaĵojName SaaS- produktoj Aŭtomate

Provu nun

0/500
Libera kun Kokoro, Piper, VITS, MeloTTS
Your generated audio will appear here
Generita
0:00 0:00
Elŝuti
Kiel TTS.ai? Diru al viaj amikoj!

API- ebloj por programistoj

Ĉio, kion vi bezonas por konstrui voĉajn aplikaĵojnName

Simpla REST API

Unu POST-peto por generi parolon. JSON-peto, aŭda respondo. Laboras kun iu ajn programlingvo, kiu subtenas HTTP.

OpenAI- kongrua

Enŝovita anstataŭaĵo por OpenAI TTS API. Ŝanĝu vian base_url kaj API ŝlosilon - ekzistanta kodo funkcias tuj.

24+ disponeblaj modeloj

Aliri ĉiun modelon tra ununura API. Ŝanĝi modelojn per ŝanĝo de unu parametro. Komparu kvaliton, rapidecon kaj koston.

Subsekunda prokrasto

Kokoro generas sonon en malpli ol 1 sekundo. Perfekta por realtempaj babilrobotoj, voĉaj asistantoj, kaj interagaj aplikaĵoj.

API por voĉklonado

Kloni iun ajn voĉon el mallonga sona specimeno per la API. Uzi klonitajn voĉojn por ĉiuj postaj generacioj.

Pluraj formatoj

Eligo kiel WAV, MP3, OGG, aŭ FLAC. Elektu specimenadon kaj bitprofundecon. Subteno por fluanta sono por realtempaj aplikaĵoj.

Plej bonaj modeloj por integriĝo de programistoj

Elektu la ĝustan modelon por via aplikaĵo

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Plej bona por: Plej rapida modelo — sub-sekunda latenteco, ideala por realtempaj aplikaĵoj kaj babilrobotoj

Provu Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Voĉa klonado

Plej bona por: Fluigo de TTS kun voĉ-klonado por voĉ-asistentaj aplikaĵoj

Provu CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Plej bona por: Konversacia AI kun natura tempomezuro por babilroboto kaj asistanta voĉo

Provu Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Plej bona por: Libera, nur CPU-modelo por altvolumaj aplikaĵoj kun nulaj kreditkostoj

Provu Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Plej bona por: Songenerado kun sonaj efektoj por kreivaj kaj distraj aplikaĵoj

Provu Bark

Kiel integri la TTS API

De aliĝo al la unua API-voko en malpli ol 5 minutoj

1

Elŝuti vian API- ŝlosilon

Registriĝu senpage kaj kreu API-ŝlosilon el via konto-kontrolpanelo. 50 kreditoj inkluditaj.

2

@ info: status

POST al /v1/tts kun teksto, modelo, kaj voĉo. Ricevu sonajn bajtojn. Sub 5 linioj de kodo.

3

Elektu vian modelon

Testu diversajn modelojn por via uzokazo. Komparu rapidecon, kvaliton kaj koston por ĉiu generacio.

4

Sendi al Produktado

Skali per pagendaj kreditoj. Neniu tarifa limigo sur pagitaj planoj. Kontrolu uzadon en via stirtabulo.

Rapidstartaj kodoekzemploj

Integri TTS.ai en iu ajn lingvo kun nia REST API

Python Populara
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universala
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
OpenAI- kongrua formato Drop- in
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Kion programistoj konstruas per TTS.ai

Komunaj integraj ŝablonoj kaj aplikaĵoj

AI- babilejoj kaj helpantojName

Aldonu voĉan eligon al via babilroboto aŭ AI-helpanto. Fluigu LLM-respondojn tra TTS por voĉaj interfacoj. Kokoro liveras sub-sekundan latencon por realtempaj konversacioj. Sesame CSM generas konversacian paroladon kun natura tempo.

  • LLM-respondo al parolkondukilo
  • Subsekunda prokrasto kun Kokoro
  • Konversacia parolado kun Sesame CSM
  • Fluanta aŭda eligo

Poŝtelefonaj kaj voĉaj aplikaĵojName

Konstruu voĉajn poŝtelefonajn aplikaĵojn, alireblecajn ilojn, legaparatojn kaj platformojn por lingvolernado. Nia REST API funkcias kun iu ajn poŝtelefona kadro. Elŝutu sonajn dosierojn aŭ fluigu rekte al la kliento.

  • React Native, Flutter, Swift, Kotlin
  • Alireblecaj kaj legadaj aplikaĵoj
  • Lingvolernaj platformoj
  • Generado de aŭda enhavo

SaaS- produktoj

Blank-etikedaj voĉaj kapabloj en via SaaS-produkto. Aldonu TTS, STT, voĉan klonadon, kaj aŭdan prilaboradon kiel funkciojn en via platformo. Uzu nian API kiel voĉan internon sen administri GPU-infrastrukturon.

  • Blank-etikedaj voĉaj ecoj
  • Ne necesas GPU-infrastrukturo
  • Pago laŭ uzado
  • 24+ modeloj por proponi al viaj uzantoj

Aŭtomataj kanaloj

Integri voĉan generadon en CI/CD-kanalojn, enhavo-aŭtomatigon, kaj batprocesajn laborfluojn. Generi milojn da sondosieroj el kalkultabelaj datumoj, aŭtomatigi podkastan produktadon, aŭ konstrui enhavo-lokigajn kanalojn.

  • Bataj prilaboradoj per API
  • Konektiloj por lokalizado de enhavo
  • CI/CD-integriĝo
  • Tabelkalkulilo por aŭda aŭtomatigo

API Specifoj

Konstruita por produktado de aplikaĵoj

24+

TTS- modeloj

100+

Voĉoj

30+

Lingvoj

<1s

Latenco (Kokoro)

Oftaj demandoj

Komunaj demandoj pri la TTS.ai programisto API

Jes. Nia API sekvas la OpenAI aŭdparolan formaton. Se vi uzas la OpenAI Piton aŭ Ĝavoskriptan klientbibliotekon, vi povas ŝanĝi al TTS.ai ŝanĝante la parametrojn base_url kaj api_key. Via ekzistanta kodo funkcias sen modifo.

Kokoro generas sonon en malpli ol 1 sekundo por tipaj frazoj. CosyVoice 2 subtenas fluan eligon por eĉ pli malalta perceptata latenteco. Por babilrobotoj kaj voĉaj asistantoj, la totala vojaĝtempo estas tipe 1-3 sekundoj depende de la tekstolongo kaj modeloelekto.

Senpagaj modeloj (Kokoro, Piper, VITS, MeloTTS) kostas nulon da kreditoj. Normalaj modeloj kostas 2 kreditojn por 1000 signoj. Premium-modeloj kostas 4 kreditojn por 1000 signoj. Registriĝu senpage kun 50 kreditoj. Planoj komenciĝas je $9/monate por 500 kreditoj.

Jes. Alŝutu referencan sonspecimenon (5-30 sekundoj) al la voĉklona finopunkto, tiam uzu la klonitan voĉan identigilon en postaj TTS-petoj. Modeloj kiuj subtenas klonadon inkluzivas CosyVoice 2, Chatterbox, Fish Speech, kaj GPT-SoVITS.

La senpaga nivelo havas bazan limigon de rapideco (3 petoj po horo sen konto). La pagaj planoj havas grandajn limigojn de rapideco taŭgaj por produktaj aplikaĵoj. Kontaktu nin por entreprennivelaj bezonoj pri rapideco.

WAV (nekunpremita, plej alta kvalito), MP3 (kunpremita, pli malgrandaj dosieroj), OGG (malferma formato), kaj FLAC (senperda kunpremado). Donu la formaton en via peto. Defaŭlte estas WAV je la nacia specimena ofteco de la modelo.

Jes. Kombinu nian TTS API kun parol-al-teksta modelo kaj LLM por konstrui kompletan voĉ-asistentan kanalon. Kokoro provizas sub-sekundan latencon idealan por realtempa konversacio. CosyVoice 2 subtenas fluan eligon por eĉ pli malaltaj perceptataj respondtempoj.

CosyVoice 2 kaj Kokoro subtenas fluantan aŭdan eligon kie aŭdaj partoj estas liverataj dum ili estas generataj. Tio reduktas la tempon ĝis la unua bito por realtempaj aplikaĵoj kiel voĉaj asistantoj kaj interagaj spertoj.

La API redonas normalajn HTTP- statajn kodojn. Realigu eksponentan malantaŭeniĝon por 5xx- eraroj kaj rapidlimajn respondojn. Por misi- kritikaj aplikaĵoj, aldonu vicon kun reprovlogiko. Nia API havas altan funkcidaŭron, sed rezistema erarotraktado estas ĉiam rekomendata.

Jes. La finpunktoj /v1/voices kaj /v1/models redonas JSON-listojn de ĉiuj disponeblaj voĉoj kaj modeloj kun iliaj metadatumoj (lingva subteno, kvalito-rangigoj, rapido-rangigoj, kaj preznivelo). Uzu tiujn por konstrui dinamikajn modelelektilojn en via aplikaĵo.

Free models (Kokoro, Piper, VITS, MeloTTS) serve as an effective sandbox since they cost zero credits. Test your integration with free models, then switch to premium models in production by changing the model parameter. No separate test environment is needed.

Plej multaj el niaj modeloj estas malfermkodaj kaj povas esti mem-gastigataj. Tamen, mem-gastigado postulas signifajn GPU-risurcojn (ni uzas 4x NVIDIA Tesla P40 kun 96GB VRAM entute). La API provizas kostan alternativon sen infrastrukturadministrado.
5.0/5 (1)

Ĉu vi pretas konstrui per voĉa AI?

Prenu vian senpagan API-ŝlosilon kaj komencu konstrui. 50 kreditoj je aliĝo, disponeblaj senpagaj modeloj, ampleksa dokumentaro.