Ledig AI Tekst til tale
33+ modeller med åpen kildekode, 273+ stemmer, 33+ språk. Ingen konto påkrevd.
Alt du trenger for tale- AI
30+ verktøy som drives av AI-modeller med åpen kildekode
33+ AI- stemmemodeller
Den mest omfattende samlingen av TTS-modeller med åpen kildekode på én plattform
Kokoro Ledig
Kokoro er en 82 millioner parameter tekst- til- tale- modell som slår godt over vektklassen. Til tross for sin lille størrelse produserer den en utrolig naturlig og ekspressiv tale. Kokoro støtter flere språk som engelsk, japansk, kinesisk og koreansk med en rekke ekspressive stemmer. Den kjører utrolig fort – den lager lyd nesten 100x raskere enn sanntid på en GPU.
Best for: TTS av høy kvalitet med minimal latenstid og strømanvendelser
Prøv ledig
Piper Ledig
Piper er en lettvekts tekst- til- tale- motor utviklet av Rhasspy som bruker VITS og strupearkitekturer. Den kjører helt på CPU, noe som gjør den ideell for kantenheter, hjemmeautomatisering og programmer som krever TTS frakoblet. Med over 100 stemmer på 30+ språk sender Piper naturlig hørende tale med sanntid, selv på en Raspberry Pi 4.
Best for: Rask forhåndsvisning, tilgjengelighet og innebygde programmer
Prøv ledig
VITS Ledig
VITS (Variational Inference with antagonistial learning for end- to- end Text- to- Speech) er en parallell ende- til- slutt TTS- metode som genererer mer naturlig lydlyd enn gjeldende to- trinns modeller. Den bruker variasjonelle konklusjoner utvidet med normalisering av flyt og en antagonistisk treningsprosess, slik at det oppnås en betydelig forbedring i naturligheten.
Best for: Generelt tekst-til-tale med naturlig prosodi
Prøv ledig
MeloTTS Ledig
MeloTTS av MyShell.ai er et flerspråklig TTS-bibliotek som støtter engelsk (amerikansk, britisk, indisk, australsk), spansk, fransk, kinesisk, japansk og koreansk. Det er ekstremt raskt og behandler tekst i nær sanntid på CPU alene. MeloTTS er laget for produksjonsbruk og støtter både CPU og GPU konklusjoner.
Best for: Produksjonsprogrammer som trenger raske, flerspråklige TTS
Prøv ledig
Kani TTS 2 Ledig
Kani- TTS-2 av NineNineSix er en ultra- lettvekts 400M parametermodell bygget på en flytende AI LFM2 ryggrad med NVIDIA NanoCodec. Den kjører på bare 3GB VRAM og gir ~ 10 sekunders tale på ~ 2 sekunder på en A100 (RTF 0. 2). Nåværende offentlige utgivelsesskip har en kontrollpost som bare er engelsk « kani-tts-2- en » og utsetter ikke høyttaler- innebygget krok som trengs for talekloning – bruk Chatterbox / IndexTTS2 / F5- TTS for kloning, eller Kokoro / MeloTTS for ikke- engelsk.
Best for: Rask engelsk generering av lite VRAM-maskinvare, rask forhåndsvisning
Prøv ledig
OuteTTS Ledig
Outetts utvider store språkmodeller med muligheter for tekst til tale samtidig som den opprinnelige arkitekturen bevares. Den støtter flere bakgrunnsmotorer, bl. a. llama.cpp (CPU/ GPU), Hugging Face Transformers, ExLlamaV2, VLLM, og til og med nettleserinterferenser via Transformers. js. Har null-shot stemmekloning gjennom høyttalerprofiler lagret som JSON.
Best for: Kantutbygging, nettleserbasert TTS, lavressursmiljøer
Prøv ledig
Pocket TTS Ledig
Pocket TTS av Kyutai (kreftere av Moshi) er en kompakt 100M parameter tekst- til- tale modell som slår godt over vekta. Den kjører effektivt på CPU, støtter null- skudd- stemme kloning fra ett enkelt lydutvalg, og produserer naturlig hørende tale. Den lille modellstørrelsen gjør den ideel for kantutbygging og lav- ressursmiljøer.
Best for: Lettdreven innføring, miljøer med bare CPU, rask talekloning
Prøv ledig
Kitten TTS Ledig
Kitten TTS av KittenML er en svært lettvekts tekst- til- tale- modell bygget på ONNX. Med varianter fra 15M til 80M- parametre (25- 80 MB på disken) leverer den høykvalitets talesyntese på CPU uten å trenge en GPU. Har 8 innebygde stemmer, justerbar talehastighet og innebygd tekstforbehandling for tall, valutaer og enheter. Ideelt for kantutbygging og lav latens- programmer.
Best for: Rask og lettvekts TTS, utbygging av kanter, anvendelser med lav latensgrad
Prøv ledig
Ming-Omni TTS Ledig
Ming-omni-tts- 0. 5B ved inkluderingAI er en kompakt talemodell med alle transportsystemer bygget på BailingMM- tett ryggrad med en Patch- for- lapp- strømnings som passer med lyddekoderen. Gir 44,1 kHz utdata (nær CD- kvalitet), støtter null- skudd- stemmekloning fra en 3+ sekund- referanse, og inkluderer innebygde følelser / dialekt / BGM- styring via JSON- instruksjoner. Fremragende stabilitet – 0,83% WER på kinesiske referanseverdier.
Best for: Tospråklig fortelling med høy troverdighet, talerekreasjon med sterke følelser, kinesisk lydbokinnhold
Prøv ledig
MOSS-TTS Nano Ledig
MOSS- TTS- Nano- 100M er OpenMOSSs kompakte 100M- parametervariant av MOSS- familien, som deler delay- transformer- arkitekturen. Behandler 8B- modellens høyeste kvalitet for ~ 80x mindre vekter og dramatisk lavere VRAM for hver forespørsel, slik at den passer for innføringer på fritt nivå og høyt nivå. Samme 20- språks rekkevidde.
Best for: Frittgående TTS, produksjon i stort volum, interaktiv bruk i lav latensgrad
Prøv ledig
Bark Standard
Transformer-basert tekst-til-lyd-modell som genererer realistisk tale, musikk og lydeffekter.
Utvikler: Suno · Lisens: MIT
Prøv det
Bark Small Standard
Lysere versjon av Bark med raskere unøyaktighet og lavere minnebruk.
Utvikler: Suno · Lisens: MIT
Prøv det
CosyVoice 2 Standard
Alibaba skalerbare streaming TTS med menneskelig-paritet naturlighet og nær-null latency.
Utvikler: Alibaba (Tongyi Lab) · Lisens: Apache 2.0
Prøv det
Dia TTS Standard
Generasjonsmodell med flere høyttalere som skaper naturlige samtaler mellom høyttalere.
Utvikler: Nari Labs · Lisens: Apache 2.0
Prøv det
Parler TTS Standard
Beskriv stemmen du vil ha i naturlig språk, og Parler genererer tilsvarende tale.
Utvikler: Hugging Face · Lisens: Apache 2.0
Prøv det
IndexTTS-2 Standard
TTS uten skudd med finkornet følelseskontroll og høy ekspressivitet.
Utvikler: Index Team · Lisens: Bilibili Model License
Prøv det
Spark TTS Standard
Stemmekloning TTS med styrbare følelser og talestil via spørsmål.
Utvikler: SparkAudio · Lisens: CC BY-NC-SA 4.0
Prøv det
GPT-SoVITS Standard
Få skuddsstemme kloning TTS som replikerer enhver stemme fra bare 5 sekunders lyd.
Utvikler: RVC-Boss · Lisens: MIT
Prøv det
Orpheus Standard
Emosjonell TTS-modell på menneskenivå, opplært på 100 K timers taledata.
Utvikler: Canopy Labs · Lisens: Llama 3.2 Community
Prøv det
Qwen3 TTS Standard
Alibabas flerspråklige TTS med forhåndsinnstilte stemmer og stemmedesign fra tekst.
Utvikler: Alibaba (Qwen) · Lisens: Apache 2.0
Prøv det
VieNeu-TTS-v2 Standard
Vietnamesisk + engelsk kodeskifting TTS med 7 forhåndsinnstilte stemmer og null- skudds stemmekloning. CPU- bare, trenger ikke GPU.
Utvikler: Phạm Nguyễn Ngọc Bảo · Lisens: Apache 2.0
Prøv det
Chatterbox Turbo Standard
Raskere Chatterbox med sub-200ms latency og paralinguistiske tagger for latter, hoster, og mer.
Utvikler: Resemble AI · Lisens: MIT
Prøv det
VoxCPM Standard
Tokenizer-fri TTS som produserer 44,1 kHz lyd med punktkonsistens med hensyn til kontekst.
Utvikler: OpenBMB · Lisens: Apache 2.0
Prøv det
VibeVoice Standard
Microsoft-modell for langformet flertalerinnhold som podkaster og lydbøker.
Utvikler: Microsoft · Lisens: MIT
Prøv det
CosyVoice3 Standard
Neste generasjons flerspråklige TTS med to-strømmers kontroll, følelseskontroll og null-skudds-talekloning.
Utvikler: Alibaba (FunAudioLLM) · Lisens: Apache 2.0
Prøv det
NAMAA Saudi TTS Standard
Første åpne Saudi- Arabiske TTS. Native Saudi- dialekt med talekloning av Chatterbox- kvalitet.
Utvikler: NAMAA Space · Lisens: MIT
Prøv det
Darwin TTS Standard
Tverrmodal Qwen3-TTS-variant med FFN-vekter blandet fra Qwen3-1,7B-språkmodellen for skarpere flerspråklig kloning.
Utvikler: FINAL-Bench · Lisens: Apache 2.0
Prøv det
MOSS-TTSD Standard
Fortsatt dialog med flere høyttalere – lag podkastsamtaler med opptil 5 høyttalere og 60 minutter sammenhengende lyd.
Utvikler: OpenMOSS · Lisens: Apache 2.0
Prøv det
CosyVoice 2
Alibaba skalerbare streaming TTS med menneskelig-paritet naturlighet og nær-null latency.
Språk: en, zh, ja, ko, fr, de, it, es
Klone stemme
IndexTTS-2
TTS uten skudd med finkornet følelseskontroll og høy ekspressivitet.
Språk: en, zh
Klone stemme
Spark TTS
Stemmekloning TTS med styrbare følelser og talestil via spørsmål.
Språk: en, zh
Klone stemme
GPT-SoVITS
Få skuddsstemme kloning TTS som replikerer enhver stemme fra bare 5 sekunders lyd.
Språk: en, zh, ja, ko
Klone stemme
Chatterbox
Det nåværende utviklingstrinn i teknikken «null-skudds-tale kloning» med følelseskontroll fra AI-enheten som kan gjenopprettes.
Språk: en
Klone stemme
Tortoise TTS
Tekst til tale med flere tale, med fokus på kvalitet med autoregressiv arkitektur.
Språk: en
Klone stemme
OpenVoice
Øyeblikkelig stemmekloning med granulert styring av stil, følelser og aksent.
Språk: en, zh, ja, ko, fr, es
Klone stemme
VieNeu-TTS-v2
Vietnamesisk + engelsk kodeskifting TTS med 7 forhåndsinnstilte stemmer og null- skudds stemmekloning. CPU- bare, trenger ikke GPU.
Språk: vi, en
Klone stemme
Chatterbox Turbo
Raskere Chatterbox med sub-200ms latency og paralinguistiske tagger for latter, hoster, og mer.
Språk: en
Klone stemme
VoxCPM
Tokenizer-fri TTS som produserer 44,1 kHz lyd med punktkonsistens med hensyn til kontekst.
Språk: en, zh
Klone stemme
OuteTTS
LLM-basert TTS som kjører på CPU, GPU eller nettleser via llama.cpp og Transformers.js.
Språk: en
Klone stemme
Pocket TTS
Lettvekts-parametermodell på 100 M av Kyutai med talekloning fra én enkelt prøve.
Språk: en, fr
Klone stemme
CosyVoice3
Neste generasjons flerspråklige TTS med to-strømmers kontroll, følelseskontroll og null-skudds-talekloning.
Språk: en, zh, ja, ko, de, es, fr, it, ru
Klone stemme
NAMAA Saudi TTS
Første åpne Saudi- Arabiske TTS. Native Saudi- dialekt med talekloning av Chatterbox- kvalitet.
Språk: ar
Klone stemme
Darwin TTS
Tverrmodal Qwen3-TTS-variant med FFN-vekter blandet fra Qwen3-1,7B-språkmodellen for skarpere flerspråklig kloning.
Språk: en, ko, ja, zh
Klone stemme
MOSS-TTSD
Fortsatt dialog med flere høyttalere – lag podkastsamtaler med opptil 5 høyttalere og 60 minutter sammenhengende lyd.
Språk: en, zh
Klone stemme
Ming-Omni TTS
Kompakt 0.5B talemodell med alle transportsystemer fra inkluderingAI med høy troverdighet på 44,1 kHz og null-shot-talekloning.
Språk: en, zh
Klone stemme
MOSS-TTS Nano
Liten 100M M MOSS-TTS-variant — samme arkitektur, 80 x mindre latens på fritt nivå.
Språk: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Klone stemmeUtvikler- første API
OpenAI- kompatibel REST API. Ett endepunkt, 22+ modeller. Støtte for streaming av sanntidsapplikasjoner.
- OpenAI-kompatibelt format
- Strømmer TTS for sanntidsapper
- Mengdevis behandling for store jobber
- Netthook- varslingerName
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Enkel og gjennomsiktig prissetting
Begynn fri, skaler etter hvert som du vokser.
Ledig
15.000 tegn + 5.000 per dag
- 7 frie modeller, herunder Kokoro
- 5000 tegn per generasjon
- API-tilgang inkludert
Starter
500 kreditter per måned
- Alle 22+ modeller
- 100.000 tegn per generasjon
- Stemmekloning
Pro
2 000 kreditter per måned
- Alt i starten
- API- tilgang
- Prioritetsbehandling
Forretning
10 000 kreditter/måned
- Alt i Pro
- Bulk API
- Prioritetskø
Ofte stilte spørsmål
Hva kan vi forbedre? din tilbakemelding hjelper oss med å løse problemer.
Start å bruke AI- stemme i dag
Bli med i utviklere, utviklere og virksomheter med TTS.ai