Ledig AI Tekst til tale

31+ modeller med åpen kildekode, 231+ stemmer, 34+ språk. Ingen konto påkrevd.

8K+
utviklere
30K+
generasjoner
31+
AI-modeller
231+
stemmer
Elsker TTS.ai? Fortell vennene dine!

31+ AI- stemmemodeller

Den mest omfattende samlingen av TTS-modeller med åpen kildekode på én plattform

KokoroKokoro Free

Kokoro er en 82 millioner parameter tekst- til- tale- modell som slår godt over vektklassen. Til tross for sin lille størrelse produserer den en utrolig naturlig og ekspressiv tale. Kokoro støtter flere språk som engelsk, japansk, kinesisk og koreansk med en rekke ekspressive stemmer. Den kjører utrolig fort – den lager lyd nesten 100x raskere enn sanntid på en GPU.

Best for: TTS av høy kvalitet med minimal latenstid og strømanvendelser

Prøv ledig

PiperPiper Free

Piper er en lettvekts tekst- til- tale- motor utviklet av Rhasspy som bruker VITS og strupearkitekturer. Den kjører helt på CPU, noe som gjør den ideell for kantenheter, hjemmeautomatisering og programmer som krever TTS frakoblet. Med over 100 stemmer på 30+ språk sender Piper naturlig hørende tale med sanntid, selv på en Raspberry Pi 4.

Best for: Rask forhåndsvisning, tilgjengelighet og innebygde programmer

Prøv ledig

VITSVITS Free

VITS (Variational Inference with antagonistial learning for end- to- end Text- to- Speech) er en parallell ende- til- slutt TTS- metode som genererer mer naturlig lydlyd enn gjeldende to- trinns modeller. Den bruker variasjonelle konklusjoner utvidet med normalisering av flyt og en antagonistisk treningsprosess, slik at det oppnås en betydelig forbedring i naturligheten.

Best for: Generelt tekst-til-tale med naturlig prosodi

Prøv ledig

MeloTTSMeloTTS Free

MeloTTS av MyShell.ai er et flerspråklig TTS-bibliotek som støtter engelsk (amerikansk, britisk, indisk, australsk), spansk, fransk, kinesisk, japansk og koreansk. Det er ekstremt raskt og behandler tekst i nær sanntid på CPU alene. MeloTTS er laget for produksjonsbruk og støtter både CPU og GPU konklusjoner.

Best for: Produksjonsprogrammer som trenger raske, flerspråklige TTS

Prøv ledig

OuteTTSOuteTTS Free

Outetts utvider store språkmodeller med muligheter for tekst til tale samtidig som den opprinnelige arkitekturen bevares. Den støtter flere bakgrunnsmotorer, bl. a. llama.cpp (CPU/ GPU), Hugging Face Transformers, ExLlamaV2, VLLM, og til og med nettleserinterferenser via Transformers. js. Har null-shot stemmekloning gjennom høyttalerprofiler lagret som JSON.

Best for: Kantutbygging, nettleserbasert TTS, lavressursmiljøer

Prøv ledig

Pocket TTSPocket TTS Free

Pocket TTS av Kyutai (kreftere av Moshi) er en kompakt 100M parameter tekst- til- tale modell som slår godt over vekta. Den kjører effektivt på CPU, støtter null- skudd- stemme kloning fra ett enkelt lydutvalg, og produserer naturlig hørende tale. Den lille modellstørrelsen gjør den ideel for kantutbygging og lav- ressursmiljøer.

Best for: Lettdreven innføring, miljøer med bare CPU, rask talekloning

Prøv ledig

Kitten TTSKitten TTS Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Best for: Fast lightweight TTS, edge deployment, low-latency applications

Prøv ledig

BarkBark Standard

Transformer-basert tekst-til-lyd-modell som genererer realistisk tale, musikk og lydeffekter.

Utvikler: Suno · Lisens: MIT

Prøv det

Bark SmallBark Small Standard

Lysere versjon av Bark med raskere unøyaktighet og lavere minnebruk.

Utvikler: Suno · Lisens: MIT

Prøv det

CosyVoice 2CosyVoice 2 Standard

Alibaba skalerbare streaming TTS med menneskelig-paritet naturlighet og nær-null latency.

Utvikler: Alibaba (Tongyi Lab) · Lisens: Apache 2.0

Prøv det

Dia TTSDia TTS Standard

Generasjonsmodell med flere høyttalere som skaper naturlige samtaler mellom høyttalere.

Utvikler: Nari Labs · Lisens: Apache 2.0

Prøv det

Parler TTSParler TTS Standard

Beskriv stemmen du vil ha i naturlig språk, og Parler genererer tilsvarende tale.

Utvikler: Hugging Face · Lisens: Apache 2.0

Prøv det

GLM-TTSGLM-TTS Standard

Oppnår den laveste tegnfeilraten blant TTS-modeller med åpen kildekode.

Utvikler: Zhipu AI · Lisens: GLM-4 License

Prøv det

IndexTTS-2IndexTTS-2 Standard

TTS uten skudd med finkornet følelseskontroll og høy ekspressivitet.

Utvikler: Index Team · Lisens: Bilibili Model License

Prøv det

Spark TTSSpark TTS Standard

Stemmekloning TTS med styrbare følelser og talestil via spørsmål.

Utvikler: SparkAudio · Lisens: CC BY-NC-SA 4.0

Prøv det

GPT-SoVITSGPT-SoVITS Standard

Få skuddsstemme kloning TTS som replikerer enhver stemme fra bare 5 sekunders lyd.

Utvikler: RVC-Boss · Lisens: MIT

Prøv det

OrpheusOrpheus Standard

Emosjonell TTS-modell på menneskenivå, opplært på 100 K timers taledata.

Utvikler: Canopy Labs · Lisens: Llama 3.2 Community

Prøv det

Qwen3 TTSQwen3 TTS Standard

Alibabas flerspråklige TTS med stemmekloning, forhåndsinnstilte stemmer og stemmedesign fra tekst.

Utvikler: Alibaba (Qwen) · Lisens: Apache 2.0

Prøv det

Chatterbox TurboChatterbox Turbo Standard

Raskere Chatterbox med sub-200ms latency og paralinguistiske tagger for latter, hoster, og mer.

Utvikler: Resemble AI · Lisens: MIT

Prøv det

Dia 2Dia 2 Standard

Streaming-first conversational TTS med dialog med flere høyttalere og paralinguistiske referanser.

Utvikler: Nari Labs · Lisens: Apache 2.0

Prøv det

VoxCPMVoxCPM Standard

Tokenizer-fri TTS som produserer 44,1 kHz lyd med punktkonsistens med hensyn til kontekst.

Utvikler: OpenBMB · Lisens: Apache 2.0

Prøv det

TADATADA Standard

Nullhallucinasjon TTS med tekstakustisk dobbelt innstilling, 5x raskere enn sammenlignbar LLM TTS.

Utvikler: Hume AI · Lisens: MIT

Prøv det

VibeVoiceVibeVoice Standard

Microsoft-modell for langformet flertalerinnhold som podkaster og lydbøker.

Utvikler: Microsoft · Lisens: MIT

Prøv det

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Utvikler: Alibaba (FunAudioLLM) · Lisens: Apache 2.0

Prøv det

ChatterboxChatterbox Premium

Det nåværende utviklingstrinn i teknikken «null-skudds-tale kloning» med følelseskontroll fra AI-enheten som kan gjenopprettes.

Kvalitet:

Prøv det

Tortoise TTSTortoise TTS Premium

Tekst til tale med flere tale, med fokus på kvalitet med autoregressiv arkitektur.

Kvalitet:

Prøv det

StyleTTS 2StyleTTS 2 Premium

Tekst-til-tale på menneskenivå gjennom style diffusion og antagonistisk opplæring.

Kvalitet:

Prøv det

OpenVoiceOpenVoice Premium

Øyeblikkelig stemmekloning med granulert styring av stil, følelser og aksent.

Kvalitet:

Prøv det

Sesame CSMSesame CSM Premium

Samtalebasert talemodell som skaper naturlig dialog med passende tidspunkter og følelser.

Kvalitet:

Prøv det

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Kvalitet:

Prøv det

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Kvalitet:

Prøv det

CosyVoice 2CosyVoice 2

Alibaba skalerbare streaming TTS med menneskelig-paritet naturlighet og nær-null latency.

Språk: en, zh, ja, ko, fr, de, it, es

Klone stemme

GLM-TTSGLM-TTS

Oppnår den laveste tegnfeilraten blant TTS-modeller med åpen kildekode.

Språk: en, zh

Klone stemme

IndexTTS-2IndexTTS-2

TTS uten skudd med finkornet følelseskontroll og høy ekspressivitet.

Språk: en, zh

Klone stemme

Spark TTSSpark TTS

Stemmekloning TTS med styrbare følelser og talestil via spørsmål.

Språk: en, zh

Klone stemme

GPT-SoVITSGPT-SoVITS

Få skuddsstemme kloning TTS som replikerer enhver stemme fra bare 5 sekunders lyd.

Språk: en, zh, ja, ko

Klone stemme

ChatterboxChatterbox

Det nåværende utviklingstrinn i teknikken «null-skudds-tale kloning» med følelseskontroll fra AI-enheten som kan gjenopprettes.

Språk: en

Klone stemme

Tortoise TTSTortoise TTS

Tekst til tale med flere tale, med fokus på kvalitet med autoregressiv arkitektur.

Språk: en

Klone stemme

OpenVoiceOpenVoice

Øyeblikkelig stemmekloning med granulert styring av stil, følelser og aksent.

Språk: en, zh, ja, ko, fr, de, es, it

Klone stemme

Qwen3 TTSQwen3 TTS

Alibabas flerspråklige TTS med stemmekloning, forhåndsinnstilte stemmer og stemmedesign fra tekst.

Språk: en, zh, ja, ko, de, fr, ru, pt, es, it

Klone stemme

Chatterbox TurboChatterbox Turbo

Raskere Chatterbox med sub-200ms latency og paralinguistiske tagger for latter, hoster, og mer.

Språk: en

Klone stemme

VoxCPMVoxCPM

Tokenizer-fri TTS som produserer 44,1 kHz lyd med punktkonsistens med hensyn til kontekst.

Språk: en, zh

Klone stemme

OuteTTSOuteTTS

LLM-basert TTS som kjører på CPU, GPU eller nettleser via llama.cpp og Transformers.js.

Språk: en

Klone stemme

Pocket TTSPocket TTS

Lettvekts-parametermodell på 100 M av Kyutai med talekloning fra én enkelt prøve.

Språk: en, fr

Klone stemme

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Språk: en, zh, ja, ko, de, es, fr, it, ru

Klone stemme

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Språk: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Klone stemme

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Språk: en, zh

Klone stemme

Utvikler- første API

OpenAI- kompatibel REST API. Ett endepunkt, 22+ modeller. Støtte for streaming av sanntidsapplikasjoner.

  • OpenAI-kompatibelt format
  • Strømmer TTS for sanntidsapper
  • Mengdevis behandling for store jobber
  • Netthook- varslingerName
Vis API- dokser
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Enkel og gjennomsiktig prissetting

Begynn fri, skaler etter hvert som du vokser.

Ledig

$0

15 kreditter

  • Kokoro, Piper, VITS, MeloTTS
  • 500 tegngrense
  • 3 gen/time (ingen konto)
Registrer deg gratis

Starter

$9/moMouse Cursor Shape

500 kreditter per måned

  • Alle 22+ modeller
  • 100.000 tegn per generasjon
  • Stemmekloning
Kom i gang
Mest populære

Pro

$29/moMouse Cursor Shape

2 000 kreditter per måned

  • Alt i starten
  • API- tilgang
  • Prioritetsbehandling
Hent Pro

Forretning

$99/moMouse Cursor Shape

10 000 kreditter/måned

  • Alt i Pro
  • Bulk API
  • Prioritetskø
Hent virksomhet

Vis alle planer medregnet tegnpakker →

Ofte stilte spørsmål

TTS.ai er den mest omfattende AI taleplattformen, som tilbyr 22+ tekst- til- tale modeller, stemmekloning, tale- til- tekst og lyd- verktøy. Alle modeller er åpen kildekode uten innlåsing fra leverandør.

Ja! TTS.ai tilbyr gratis tekst- til- tale med Kokoro, Piper, VITS og MeloTTS modeller. Ingen konto trengs. Registrer deg for å få 15 000 gratistegn og få tilgang til alle modeller. Betalte planer starter på $9/ måned.

For fart, bruk Kokoro eller Piper. For kvalitet, forsøk CosyVoice 2 eller StyleTTS 2. For talekloning, bruk Chatterbox eller GPT- SoVITS. For dialogvinduer, bruk Dia TTS. Prøv flere modeller på samme tekst for å sammenlikne.

Ja. OpenAI-kompatible REST API for TTS, STT, stemmekloning og lydverktøy. Tilgjengelig på Pro ($29/mo) og Enterprise ($99/mo) planer. Se dokumentasjon på tts. ai/ai /.

Stemmekvaliteten varierer etter modell. Premiummodeller som CosyVoice 2, StyleTTS 2 og Chatterbox produserer nesten menneskelig kvalitetstale med naturlig intonasjon og følelser. Gratis modeller som Kokoro tilbyr fremragende kvalitet for de fleste tilfeller.

TTS.ai støtter 30+ språk på tvers av sitt modellbibliotek. Engelsk har bredest modellstøtte, men modeller som CosyVoice 2 dekker kinesisk, japansk og koreansk; GPT- SOVITS håndterer kinesisk, japansk, koreansk og engelsk; og MeloTTS støtter engelsk, spansk, fransk, kinesisk, japansk og koreansk.

Ja. All behandling skjer på våre dedikerte GPU- tjenere. Vi lagrer ikke tekst- inndata eller generert lyd etter levering. Opplastede taleprøver til kloning brukes bare til gjeldende økt og blir ikke lagret. Vi deler aldri dine data med tredjeparter eller bruker dem til å trene modeller.

Ja. All lyd generert på TTS.ai er din å bruke kommersielt, også for YouTube- videoer, podkaster, lydbøker, apps, annonser og produkter. Våre modeller er åpen kildekode under ettergivende lisenser (MIT, Apache 2. 0). Ingen royalties eller tileigning kreves.

TTS.ai lager lyd i WAV- format som standard for maksimal kvalitet. Du kan konvertere til MP3, FLAC, OGG eller M4A med vårt frie Audio Converter- verktøy. API støtter å oppgi hvilket utdataformat du foretrekker direkte i forespørselen.

Last opp en kort lydprøve (så lite som 5 sekunder) av stemmen du vil klone, og skriv så inn tekst for å lage tale i den stemmen. Modeller som Chatterbox, GPT- SoVITS og CosyVoice 2 støtter stemmekloning. Den klonede stemmen fanger opp tone, aksent og talestil.

Frie modeller (Kokoro, Piper, VITS, MeloTTS) krever ingen konto og koster nulltegn. Standardmodeller (2000 tegn/1K inndata) inkluderer Bark, CosyVoice 2, F5- TTS og Dia. Premium- modeller (4 000 tegn/1K inndata) inkluderer OpenVoice, Chatterbox, StyleTTS 2 og Tortoise. Betalingsmodeller tilbyr vanligvis høyere kvalitet, flere stemmer og andre funksjoner som stemmekloning.

Ja. API støtter satsvis behandling for å konvertere store volumer tekst til tale. Send inn flere forespørsler og hent resultater asynkront ved hjelp av job UUID- er. Firmaplaner ($99/mo) inkluderer prioritert køtilgang for raskere satsvis behandling. Ideelt for produksjon av lydbøker, kursinnhold og store taleoverprosjekter.
4.1/5 (21)

Hva kan vi forbedre? din tilbakemelding hjelper oss med å løse problemer.

Start å bruke AI- stemme i dag

Bli med i utviklere, utviklere og virksomheter med TTS.ai