Ledig AI Tekst til tale

33+ modeller med åpen kildekode, 273+ stemmer, 33+ språk. Ingen konto påkrevd.

17K+
utviklere
70K+
generasjoner
33+
AI-modeller
273+
stemmer
Elsker TTS.ai? Fortell vennene dine!

33+ AI- stemmemodeller

Den mest omfattende samlingen av TTS-modeller med åpen kildekode på én plattform

KokoroKokoro Ledig

Kokoro er en 82 millioner parameter tekst- til- tale- modell som slår godt over vektklassen. Til tross for sin lille størrelse produserer den en utrolig naturlig og ekspressiv tale. Kokoro støtter flere språk som engelsk, japansk, kinesisk og koreansk med en rekke ekspressive stemmer. Den kjører utrolig fort – den lager lyd nesten 100x raskere enn sanntid på en GPU.

Best for: TTS av høy kvalitet med minimal latenstid og strømanvendelser

Prøv ledig

PiperPiper Ledig

Piper er en lettvekts tekst- til- tale- motor utviklet av Rhasspy som bruker VITS og strupearkitekturer. Den kjører helt på CPU, noe som gjør den ideell for kantenheter, hjemmeautomatisering og programmer som krever TTS frakoblet. Med over 100 stemmer på 30+ språk sender Piper naturlig hørende tale med sanntid, selv på en Raspberry Pi 4.

Best for: Rask forhåndsvisning, tilgjengelighet og innebygde programmer

Prøv ledig

VITSVITS Ledig

VITS (Variational Inference with antagonistial learning for end- to- end Text- to- Speech) er en parallell ende- til- slutt TTS- metode som genererer mer naturlig lydlyd enn gjeldende to- trinns modeller. Den bruker variasjonelle konklusjoner utvidet med normalisering av flyt og en antagonistisk treningsprosess, slik at det oppnås en betydelig forbedring i naturligheten.

Best for: Generelt tekst-til-tale med naturlig prosodi

Prøv ledig

MeloTTSMeloTTS Ledig

MeloTTS av MyShell.ai er et flerspråklig TTS-bibliotek som støtter engelsk (amerikansk, britisk, indisk, australsk), spansk, fransk, kinesisk, japansk og koreansk. Det er ekstremt raskt og behandler tekst i nær sanntid på CPU alene. MeloTTS er laget for produksjonsbruk og støtter både CPU og GPU konklusjoner.

Best for: Produksjonsprogrammer som trenger raske, flerspråklige TTS

Prøv ledig

Kani TTS 2Kani TTS 2 Ledig

Kani- TTS-2 av NineNineSix er en ultra- lettvekts 400M parametermodell bygget på en flytende AI LFM2 ryggrad med NVIDIA NanoCodec. Den kjører på bare 3GB VRAM og gir ~ 10 sekunders tale på ~ 2 sekunder på en A100 (RTF 0. 2). Nåværende offentlige utgivelsesskip har en kontrollpost som bare er engelsk « kani-tts-2- en » og utsetter ikke høyttaler- innebygget krok som trengs for talekloning – bruk Chatterbox / IndexTTS2 / F5- TTS for kloning, eller Kokoro / MeloTTS for ikke- engelsk.

Best for: Rask engelsk generering av lite VRAM-maskinvare, rask forhåndsvisning

Prøv ledig

OuteTTSOuteTTS Ledig

Outetts utvider store språkmodeller med muligheter for tekst til tale samtidig som den opprinnelige arkitekturen bevares. Den støtter flere bakgrunnsmotorer, bl. a. llama.cpp (CPU/ GPU), Hugging Face Transformers, ExLlamaV2, VLLM, og til og med nettleserinterferenser via Transformers. js. Har null-shot stemmekloning gjennom høyttalerprofiler lagret som JSON.

Best for: Kantutbygging, nettleserbasert TTS, lavressursmiljøer

Prøv ledig

Pocket TTSPocket TTS Ledig

Pocket TTS av Kyutai (kreftere av Moshi) er en kompakt 100M parameter tekst- til- tale modell som slår godt over vekta. Den kjører effektivt på CPU, støtter null- skudd- stemme kloning fra ett enkelt lydutvalg, og produserer naturlig hørende tale. Den lille modellstørrelsen gjør den ideel for kantutbygging og lav- ressursmiljøer.

Best for: Lettdreven innføring, miljøer med bare CPU, rask talekloning

Prøv ledig

Kitten TTSKitten TTS Ledig

Kitten TTS av KittenML er en svært lettvekts tekst- til- tale- modell bygget på ONNX. Med varianter fra 15M til 80M- parametre (25- 80 MB på disken) leverer den høykvalitets talesyntese på CPU uten å trenge en GPU. Har 8 innebygde stemmer, justerbar talehastighet og innebygd tekstforbehandling for tall, valutaer og enheter. Ideelt for kantutbygging og lav latens- programmer.

Best for: Rask og lettvekts TTS, utbygging av kanter, anvendelser med lav latensgrad

Prøv ledig

Ming-Omni TTSMing-Omni TTS Ledig

Ming-omni-tts- 0. 5B ved inkluderingAI er en kompakt talemodell med alle transportsystemer bygget på BailingMM- tett ryggrad med en Patch- for- lapp- strømnings som passer med lyddekoderen. Gir 44,1 kHz utdata (nær CD- kvalitet), støtter null- skudd- stemmekloning fra en 3+ sekund- referanse, og inkluderer innebygde følelser / dialekt / BGM- styring via JSON- instruksjoner. Fremragende stabilitet – 0,83% WER på kinesiske referanseverdier.

Best for: Tospråklig fortelling med høy troverdighet, talerekreasjon med sterke følelser, kinesisk lydbokinnhold

Prøv ledig

MOSS-TTS NanoMOSS-TTS Nano Ledig

MOSS- TTS- Nano- 100M er OpenMOSSs kompakte 100M- parametervariant av MOSS- familien, som deler delay- transformer- arkitekturen. Behandler 8B- modellens høyeste kvalitet for ~ 80x mindre vekter og dramatisk lavere VRAM for hver forespørsel, slik at den passer for innføringer på fritt nivå og høyt nivå. Samme 20- språks rekkevidde.

Best for: Frittgående TTS, produksjon i stort volum, interaktiv bruk i lav latensgrad

Prøv ledig

BarkBark Standard

Transformer-basert tekst-til-lyd-modell som genererer realistisk tale, musikk og lydeffekter.

Utvikler: Suno · Lisens: MIT

Prøv det

Bark SmallBark Small Standard

Lysere versjon av Bark med raskere unøyaktighet og lavere minnebruk.

Utvikler: Suno · Lisens: MIT

Prøv det

CosyVoice 2CosyVoice 2 Standard

Alibaba skalerbare streaming TTS med menneskelig-paritet naturlighet og nær-null latency.

Utvikler: Alibaba (Tongyi Lab) · Lisens: Apache 2.0

Prøv det

Dia TTSDia TTS Standard

Generasjonsmodell med flere høyttalere som skaper naturlige samtaler mellom høyttalere.

Utvikler: Nari Labs · Lisens: Apache 2.0

Prøv det

Parler TTSParler TTS Standard

Beskriv stemmen du vil ha i naturlig språk, og Parler genererer tilsvarende tale.

Utvikler: Hugging Face · Lisens: Apache 2.0

Prøv det

IndexTTS-2IndexTTS-2 Standard

TTS uten skudd med finkornet følelseskontroll og høy ekspressivitet.

Utvikler: Index Team · Lisens: Bilibili Model License

Prøv det

Spark TTSSpark TTS Standard

Stemmekloning TTS med styrbare følelser og talestil via spørsmål.

Utvikler: SparkAudio · Lisens: CC BY-NC-SA 4.0

Prøv det

GPT-SoVITSGPT-SoVITS Standard

Få skuddsstemme kloning TTS som replikerer enhver stemme fra bare 5 sekunders lyd.

Utvikler: RVC-Boss · Lisens: MIT

Prøv det

OrpheusOrpheus Standard

Emosjonell TTS-modell på menneskenivå, opplært på 100 K timers taledata.

Utvikler: Canopy Labs · Lisens: Llama 3.2 Community

Prøv det

Qwen3 TTSQwen3 TTS Standard

Alibabas flerspråklige TTS med forhåndsinnstilte stemmer og stemmedesign fra tekst.

Utvikler: Alibaba (Qwen) · Lisens: Apache 2.0

Prøv det

VieNeu-TTS-v2VieNeu-TTS-v2 Standard

Vietnamesisk + engelsk kodeskifting TTS med 7 forhåndsinnstilte stemmer og null- skudds stemmekloning. CPU- bare, trenger ikke GPU.

Utvikler: Phạm Nguyễn Ngọc Bảo · Lisens: Apache 2.0

Prøv det

Chatterbox TurboChatterbox Turbo Standard

Raskere Chatterbox med sub-200ms latency og paralinguistiske tagger for latter, hoster, og mer.

Utvikler: Resemble AI · Lisens: MIT

Prøv det

VoxCPMVoxCPM Standard

Tokenizer-fri TTS som produserer 44,1 kHz lyd med punktkonsistens med hensyn til kontekst.

Utvikler: OpenBMB · Lisens: Apache 2.0

Prøv det

VibeVoiceVibeVoice Standard

Microsoft-modell for langformet flertalerinnhold som podkaster og lydbøker.

Utvikler: Microsoft · Lisens: MIT

Prøv det

CosyVoice3CosyVoice3 Standard

Neste generasjons flerspråklige TTS med to-strømmers kontroll, følelseskontroll og null-skudds-talekloning.

Utvikler: Alibaba (FunAudioLLM) · Lisens: Apache 2.0

Prøv det

NAMAA Saudi TTSNAMAA Saudi TTS Standard

Første åpne Saudi- Arabiske TTS. Native Saudi- dialekt med talekloning av Chatterbox- kvalitet.

Utvikler: NAMAA Space · Lisens: MIT

Prøv det

Darwin TTSDarwin TTS Standard

Tverrmodal Qwen3-TTS-variant med FFN-vekter blandet fra Qwen3-1,7B-språkmodellen for skarpere flerspråklig kloning.

Utvikler: FINAL-Bench · Lisens: Apache 2.0

Prøv det

MOSS-TTSDMOSS-TTSD Standard

Fortsatt dialog med flere høyttalere – lag podkastsamtaler med opptil 5 høyttalere og 60 minutter sammenhengende lyd.

Utvikler: OpenMOSS · Lisens: Apache 2.0

Prøv det

ChatterboxChatterbox Premie

Det nåværende utviklingstrinn i teknikken «null-skudds-tale kloning» med følelseskontroll fra AI-enheten som kan gjenopprettes.

Kvalitet:

Prøv det

Tortoise TTSTortoise TTS Premie

Tekst til tale med flere tale, med fokus på kvalitet med autoregressiv arkitektur.

Kvalitet:

Prøv det

StyleTTS 2StyleTTS 2 Premie

Tekst-til-tale på menneskenivå gjennom style diffusion og antagonistisk opplæring.

Kvalitet:

Prøv det

OpenVoiceOpenVoice Premie

Øyeblikkelig stemmekloning med granulert styring av stil, følelser og aksent.

Kvalitet:

Prøv det

Sesame CSMSesame CSM Premie

Samtalebasert talemodell som skaper naturlig dialog med passende tidspunkter og følelser.

Kvalitet:

Prøv det

CosyVoice 2CosyVoice 2

Alibaba skalerbare streaming TTS med menneskelig-paritet naturlighet og nær-null latency.

Språk: en, zh, ja, ko, fr, de, it, es

Klone stemme

IndexTTS-2IndexTTS-2

TTS uten skudd med finkornet følelseskontroll og høy ekspressivitet.

Språk: en, zh

Klone stemme

Spark TTSSpark TTS

Stemmekloning TTS med styrbare følelser og talestil via spørsmål.

Språk: en, zh

Klone stemme

GPT-SoVITSGPT-SoVITS

Få skuddsstemme kloning TTS som replikerer enhver stemme fra bare 5 sekunders lyd.

Språk: en, zh, ja, ko

Klone stemme

ChatterboxChatterbox

Det nåværende utviklingstrinn i teknikken «null-skudds-tale kloning» med følelseskontroll fra AI-enheten som kan gjenopprettes.

Språk: en

Klone stemme

Tortoise TTSTortoise TTS

Tekst til tale med flere tale, med fokus på kvalitet med autoregressiv arkitektur.

Språk: en

Klone stemme

OpenVoiceOpenVoice

Øyeblikkelig stemmekloning med granulert styring av stil, følelser og aksent.

Språk: en, zh, ja, ko, fr, es

Klone stemme

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnamesisk + engelsk kodeskifting TTS med 7 forhåndsinnstilte stemmer og null- skudds stemmekloning. CPU- bare, trenger ikke GPU.

Språk: vi, en

Klone stemme

Chatterbox TurboChatterbox Turbo

Raskere Chatterbox med sub-200ms latency og paralinguistiske tagger for latter, hoster, og mer.

Språk: en

Klone stemme

VoxCPMVoxCPM

Tokenizer-fri TTS som produserer 44,1 kHz lyd med punktkonsistens med hensyn til kontekst.

Språk: en, zh

Klone stemme

OuteTTSOuteTTS

LLM-basert TTS som kjører på CPU, GPU eller nettleser via llama.cpp og Transformers.js.

Språk: en

Klone stemme

Pocket TTSPocket TTS

Lettvekts-parametermodell på 100 M av Kyutai med talekloning fra én enkelt prøve.

Språk: en, fr

Klone stemme

CosyVoice3CosyVoice3

Neste generasjons flerspråklige TTS med to-strømmers kontroll, følelseskontroll og null-skudds-talekloning.

Språk: en, zh, ja, ko, de, es, fr, it, ru

Klone stemme

NAMAA Saudi TTSNAMAA Saudi TTS

Første åpne Saudi- Arabiske TTS. Native Saudi- dialekt med talekloning av Chatterbox- kvalitet.

Språk: ar

Klone stemme

Darwin TTSDarwin TTS

Tverrmodal Qwen3-TTS-variant med FFN-vekter blandet fra Qwen3-1,7B-språkmodellen for skarpere flerspråklig kloning.

Språk: en, ko, ja, zh

Klone stemme

MOSS-TTSDMOSS-TTSD

Fortsatt dialog med flere høyttalere – lag podkastsamtaler med opptil 5 høyttalere og 60 minutter sammenhengende lyd.

Språk: en, zh

Klone stemme

Ming-Omni TTSMing-Omni TTS

Kompakt 0.5B talemodell med alle transportsystemer fra inkluderingAI med høy troverdighet på 44,1 kHz og null-shot-talekloning.

Språk: en, zh

Klone stemme

MOSS-TTS NanoMOSS-TTS Nano

Liten 100M M MOSS-TTS-variant — samme arkitektur, 80 x mindre latens på fritt nivå.

Språk: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Klone stemme

Utvikler- første API

OpenAI- kompatibel REST API. Ett endepunkt, 22+ modeller. Støtte for streaming av sanntidsapplikasjoner.

  • OpenAI-kompatibelt format
  • Strømmer TTS for sanntidsapper
  • Mengdevis behandling for store jobber
  • Netthook- varslingerName
Vis API- dokser
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Enkel og gjennomsiktig prissetting

Begynn fri, skaler etter hvert som du vokser.

Ledig

$0

15.000 tegn + 5.000 per dag

  • 7 frie modeller, herunder Kokoro
  • 5000 tegn per generasjon
  • API-tilgang inkludert
Registrer deg gratis

Starter

$9/moMouse Cursor Shape

500 kreditter per måned

  • Alle 22+ modeller
  • 100.000 tegn per generasjon
  • Stemmekloning
Kom i gang
Mest populære

Pro

$29/moMouse Cursor Shape

2 000 kreditter per måned

  • Alt i starten
  • API- tilgang
  • Prioritetsbehandling
Hent Pro

Forretning

$99/moMouse Cursor Shape

10 000 kreditter/måned

  • Alt i Pro
  • Bulk API
  • Prioritetskø
Hent virksomhet

Vis alle planer medregnet tegnpakker →

Ofte stilte spørsmål

TTS.ai er den mest omfattende AI taleplattformen, som tilbyr 22+ tekst- til- tale modeller, stemmekloning, tale- til- tekst og lyd- verktøy. Alle modeller er åpen kildekode uten innlåsing fra leverandør.

Ja! TTS.ai tilbyr gratis tekst- til- tale med Kokoro, Piper, VITS og MeloTTS modeller. Ingen konto trengs. Registrer deg for å få 15 000 gratistegn og få tilgang til alle modeller. Betalte planer starter på $9/ måned.

For fart, bruk Kokoro eller Piper. For kvalitet, forsøk CosyVoice 2 eller StyleTTS 2. For talekloning, bruk Chatterbox eller GPT- SoVITS. For dialogvinduer, bruk Dia TTS. Prøv flere modeller på samme tekst for å sammenlikne.

Ja. OpenAI- kompatibel REST API for TTS, STT, stemmekloning og lydverktøy. Inkludert i hver plan som inkluderer gratis, med frekvensgrenser som skalerer etter nivå (Free: 10 req/ min, Lite: 20, Starter: 30, Pro: 60, Business: 300). Se dokumentasjon på tts. ai/ api/.

Stemmekvaliteten varierer etter modell. Premiummodeller som CosyVoice 2, StyleTTS 2 og Chatterbox produserer nesten menneskelig kvalitetstale med naturlig intonasjon og følelser. Gratis modeller som Kokoro tilbyr fremragende kvalitet for de fleste tilfeller.

TTS.ai støtter 30+ språk på tvers av sitt modellbibliotek. Engelsk har bredest modellstøtte, men modeller som CosyVoice 2 dekker kinesisk, japansk og koreansk; GPT- SOVITS håndterer kinesisk, japansk, koreansk og engelsk; og MeloTTS støtter engelsk, spansk, fransk, kinesisk, japansk og koreansk.

Ja. All behandling skjer på våre dedikerte GPU- tjenere. Vi lagrer ikke tekst- inndata eller generert lyd etter levering. Opplastede taleprøver til kloning brukes bare til gjeldende økt og blir ikke lagret. Vi deler aldri dine data med tredjeparter eller bruker dem til å trene modeller.

Ja. All lyd generert på TTS.ai er din å bruke kommersielt, også for YouTube- videoer, podkaster, lydbøker, apps, annonser og produkter. Våre modeller er åpen kildekode under ettergivende lisenser (MIT, Apache 2. 0). Ingen royalties eller tileigning kreves.

TTS.ai lager lyd i WAV- format som standard for maksimal kvalitet. Du kan konvertere til MP3, FLAC, OGG eller M4A med vårt frie Audio Converter- verktøy. API støtter å oppgi hvilket utdataformat du foretrekker direkte i forespørselen.

Last opp en kort lydprøve (så lite som 5 sekunder) av stemmen du vil klone, og skriv så inn tekst for å lage tale i den stemmen. Modeller som Chatterbox, GPT- SoVITS og CosyVoice 2 støtter stemmekloning. Den klonede stemmen fanger opp tone, aksent og talestil.

Frie modeller (Kokoro, Piper, VITS, MeloTTS) krever ingen konto og koster nulltegn. Standardmodeller (2000 tegn/1K inndata) inkluderer Bark, CosyVoice 2, F5- TTS og Dia. Premium- modeller (4 000 tegn/1K inndata) inkluderer OpenVoice, Chatterbox, StyleTTS 2 og Tortoise. Betalingsmodeller tilbyr vanligvis høyere kvalitet, flere stemmer og andre funksjoner som stemmekloning.

Ja. API støtter satsvis behandling for å konvertere store tekstmengder til tale. Send inn flere forespørsler og hent resultater asynkront ved hjelp av jobb-UUID- er. Business- planen ($99/mo) og høyere inkluderer prioritetskøtilgang for raskere satsvis behandling. Ideelt for produksjon av lydbøker, kursinnhold og store taleoverprosjekter.
4.1/5 (42)

Hva kan vi forbedre? din tilbakemelding hjelper oss med å løse problemer.

Start å bruke AI- stemme i dag

Bli med i utviklere, utviklere og virksomheter med TTS.ai