Fri AI Tekst til tale

33+ open source-modeller 273+ stemmer 33+ sprog. Ingen konto påkrævet.

17K+
skabere
70K+
generationer
33+
AI-modeller
273+
stemmer
Elsker TTS.ai? Fortæl dine venner!

33+ AI-stemmemodeller

Den mest omfattende samling af open source TTS-modeller i én platform

KokoroKokoro Fri

Kokoro er en 82 millioner parameter tekst-til-tale model, der punches langt over sin vægtklasse. På trods af sin lille størrelse, det producerer bemærkelsesværdigt naturlig og udtryksfuld tale. Kokoro understøtter flere sprog, herunder engelsk, japansk, kinesisk og koreansk med en række udtryksfulde stemmer. Det kører utrolig hurtigt ~ genererer lyd næsten 100x hurtigere end realtid på en GPU.

Bedst til: Høj kvalitet TTS med minimal latenstid, streaming applikationer

Prøv gratis

PiperPiper Fri

Piper er en letvægts tekst-til-tale motor udviklet af Rhasspy, der bruger VITS og larynx arkitekturer. Det kører udelukkende på CPU, hvilket gør den ideel til kant enheder, hjem automatisering, og applikationer, der kræver offline TTS. Med over 100 stemmer på tværs af 30 + sprog, Piper leverer naturlig klingende tale ved real-time hastigheder selv på en Raspberry Pi 4.

Bedst til: Hurtige forhåndsvisninger, tilgængelighed og indlejrede applikationer

Prøv gratis

VITSVITS Fri

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) er en parallel end-to-end TTS metode, der genererer mere naturlig klingende lyd end nuværende to-trins modeller. Det vedtager variational inferens augmented med normaliserende flows og en adversarial uddannelsesproces, at opnå en betydelig forbedring i naturlighed.

Bedst til: Generelle formål tekst-til-tale med naturlig prosody

Prøv gratis

MeloTTSMeloTTS Fri

MeloTTS af MyShell.ai er et flersproget TTS-bibliotek, der understøtter engelsk (amerikansk, britisk, indisk, australsk), spansk, fransk, kinesisk, japansk og koreansk. Det er ekstremt hurtigt, behandling tekst på nær real-time hastighed på CPU alene. MeloTTS er designet til produktion brug og understøtter både CPU og GPU inferens.

Bedst til: Produktionsapplikationer, der kræver hurtige, flersprogede TTS

Prøv gratis

Kani TTS 2Kani TTS 2 Fri

Kani-TTS-2 af NineNineSix er en ultra-letvægts 400M parameter model bygget på en flydende AI LFM2 rygrad med NVIDIA NanoCodec. Det kører i kun 3GB VRAM og producerer ~ 10 sekunders tale på ~ 2 sekunder på en A100 (RTF 0.2). Den nuværende offentlige udgivelse skibe en engelsk-kun •kani-tts-2-en • checkpoint og ikke udsætte højttaler-embedding krog nødvendig for voice kloning • bruge Chatterbox / IndexTTS2 / F5-TTS til kloning, eller Kokoro / MeloTTS til ikke-engelsk.

Bedst til: Hurtig engelsk generation på lav-VRAM hardware, hurtig forhåndsvisning

Prøv gratis

OuteTTSOuteTTS Fri

OutetTS udvider store sprogmodeller med tekst-til-tale kapaciteter samtidig bevare den oprindelige arkitektur. Det understøtter flere backends, herunder lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, og endda browser inferens via Transformers.js. Funktioner nul-shot stemme kloning gennem højttalerprofiler gemt som JSON.

Bedst til: Kant implementering, browser-baserede TTS, lav-ressource miljøer

Prøv gratis

Pocket TTSPocket TTS Fri

Pocket TTS af Kyutai (skabere af Moshi) er en kompakt 100M parameter tekst-til-tale model, der punch langt over sin vægt. Det kører effektivt på CPU, understøtter nul-shot stemme kloning fra en enkelt lydprøve, og producerer naturlig klingende tale. Den lille model størrelse gør den ideel til kant implementering og lav-ressource miljøer.

Bedst til: Letvægts implementering, CPU-beskyttede miljøer, hurtig stemmekloning

Prøv gratis

Kitten TTSKitten TTS Fri

Kitten TTS by KittenML er en ultra-let tekst-til-tale model bygget på ONNX. Med varianter fra 15M til 80M parametre (25-80 MB på disk), det leverer høj kvalitet stemmesyntese på CPU uden at kræve en GPU. Funktioner 8 indbyggede stemmer, justerbar talehastighed og indbygget tekstforbehandling for tal, valutaer og enheder. Ideel til kant implementering og lav latenstid applikationer.

Bedst til: Hurtig letvægts TTS, kant implementering, lav latenstid applikationer

Prøv gratis

Ming-Omni TTSMing-Omni TTS Fri

Ming-omni-tts-0.5B ved inklusionAI er en kompakt omni-modal talemodel bygget på BailingMM tætte rygrad med en Patch-by-Patch flow-matching audio dekoder. Leverer 44,1kHz output (nær CD-kvalitet), understøtter nul-shot stemme kloning fra en 3 + anden reference, og omfatter indbygget følelse / dialekt / BGM control via JSON instruktioner. Fremragende stabilitet! 0,83% WER på kinesiske benchmarks.

Bedst til: Høj troskab tosproget fortælling, følelsesmæssigt kontrolleret stemme skuespil, kinesisk lydbog indhold

Prøv gratis

MOSS-TTS NanoMOSS-TTS Nano Fri

MOSS-TTS-Nano-100M er OpenMOSS's kompakte 100M-parameter variant af MOSS-TTS-familien, der deler delay-transformer-arkitekturen. Handler 8B-modellens topkvalitet for ~80x mindre vægte og dramatisk lavere per-anmodning VRAM, hvilket gør den velegnet til free-tier og high-throughput implementeringer. Samme 20-sprog rækkevidde.

Bedst til: Free-tier TTS, høj-volumen produktion, lav latenstid interaktiv brug

Prøv gratis

BarkBark Standard

Transformer-baseret tekst-til-audio model, der genererer realistisk tale, musik og lydeffekter.

Udvikler: Suno · Licens: MIT

Prøv det.

Bark SmallBark Small Standard

Lettere version af Bark med hurtigere inferens og lavere hukommelsesforbrug.

Udvikler: Suno · Licens: MIT

Prøv det.

CosyVoice 2CosyVoice 2 Standard

Alibaba skalerbar streaming TTS med menneskelig-paritet naturlighed og nær-nul latency.

Udvikler: Alibaba (Tongyi Lab) · Licens: Apache 2.0

Prøv det.

Dia TTSDia TTS Standard

Multi-højttaler dialog generation model, der skaber naturlige samtaler mellem højttalere.

Udvikler: Nari Labs · Licens: Apache 2.0

Prøv det.

Parler TTSParler TTS Standard

Beskriv den stemme, du ønsker i naturligt sprog og Parler genererer matchende tale.

Udvikler: Hugging Face · Licens: Apache 2.0

Prøv det.

IndexTTS-2IndexTTS-2 Standard

Zero-shot TTS med finkornet følelsesmæssig kontrol og høj ekspressivitet.

Udvikler: Index Team · Licens: Bilibili Model License

Prøv det.

Spark TTSSpark TTS Standard

Stemmekloning TTS med styrbar følelse og talestil via prompter.

Udvikler: SparkAudio · Licens: CC BY-NC-SA 4.0

Prøv det.

GPT-SoVITSGPT-SoVITS Standard

Få-shot stemme kloning TTS, der replikerer enhver stemme fra kun 5 sekunder af lyd.

Udvikler: RVC-Boss · Licens: MIT

Prøv det.

OrpheusOrpheus Standard

Human-level emotionel TTS model trænet på 100K timers taledata.

Udvikler: Canopy Labs · Licens: Llama 3.2 Community

Prøv det.

Qwen3 TTSQwen3 TTS Standard

Alibaba's flersprogede TTS med forudindstillede stemmer og stemmedesign fra tekst.

Udvikler: Alibaba (Qwen) · Licens: Apache 2.0

Prøv det.

VieNeu-TTS-v2VieNeu-TTS-v2 Standard

Vietnamesisk + engelsk kode-switching TTS med 7 forudindstillede stemmer og nul-shot stemme kloning. CPU-kun, ingen GPU kræves.

Udvikler: Phạm Nguyễn Ngọc Bảo · Licens: Apache 2.0

Prøv det.

Chatterbox TurboChatterbox Turbo Standard

Hurtigere Chatterbox med sub-200ms latency og paralsprog tags til grin, hoste og meget mere.

Udvikler: Resemble AI · Licens: MIT

Prøv det.

VoxCPMVoxCPM Standard

Tokenizer-fri TTS producerer 44,1kHz lyd med kontekst-aware afsnit konsistens.

Udvikler: OpenBMB · Licens: Apache 2.0

Prøv det.

VibeVoiceVibeVoice Standard

Microsoft model til lang-form multi-højttaler indhold som podcasts og lydbøger.

Udvikler: Microsoft · Licens: MIT

Prøv det.

CosyVoice3CosyVoice3 Standard

Næste generations flersprogede TTS med bi-streaming, følelsesmæssig kontrol og nul-shot stemme kloning.

Udvikler: Alibaba (FunAudioLLM) · Licens: Apache 2.0

Prøv det.

NAMAA Saudi TTSNAMAA Saudi TTS Standard

Første åbne Saudi-arabiske TTS. Native Saudi dialekt med Chatterbox-kvalitet stemme kloning.

Udvikler: NAMAA Space · Licens: MIT

Prøv det.

Darwin TTSDarwin TTS Standard

Cross-modal Qwen3-TTS variant med FFN vægte blandet fra Qwen3-1.7B sprogmodel for skarpere flersproget kloning.

Udvikler: FINAL-Bench · Licens: Apache 2.0

Prøv det.

MOSS-TTSDMOSS-TTSD Standard

Multi-højttaler dialog continuation model generere podcast-stil samtaler med op til 5 højttalere og 60 minutters sammenhængende lyd.

Udvikler: OpenMOSS · Licens: Apache 2.0

Prøv det.

ChatterboxChatterbox Præmie

Den nyeste nul-shot stemmekloning med følelsesmæssig kontrol fra Resemble AI.

Kvalitet:

Prøv det.

Tortoise TTSTortoise TTS Præmie

Multi-stemme tekst-til-tale fokuseret på kvalitet med autoregressiv arkitektur.

Kvalitet:

Prøv det.

StyleTTS 2StyleTTS 2 Præmie

Menneske-niveau tekst-til-tale gennem stil diffusion og adversarial uddannelse.

Kvalitet:

Prøv det.

OpenVoiceOpenVoice Præmie

Øjeblikkelig stemmekloning med granuleret kontrol over stil, følelser og accent.

Kvalitet:

Prøv det.

Sesame CSMSesame CSM Præmie

Konversationel talemodel skaber naturlig dialog med passende timing og følelser.

Kvalitet:

Prøv det.

CosyVoice 2CosyVoice 2

Alibaba skalerbar streaming TTS med menneskelig-paritet naturlighed og nær-nul latency.

Sprog: en, zh, ja, ko, fr, de, it, es

Klonstemme

IndexTTS-2IndexTTS-2

Zero-shot TTS med finkornet følelsesmæssig kontrol og høj ekspressivitet.

Sprog: en, zh

Klonstemme

Spark TTSSpark TTS

Stemmekloning TTS med styrbar følelse og talestil via prompter.

Sprog: en, zh

Klonstemme

GPT-SoVITSGPT-SoVITS

Få-shot stemme kloning TTS, der replikerer enhver stemme fra kun 5 sekunder af lyd.

Sprog: en, zh, ja, ko

Klonstemme

ChatterboxChatterbox

Den nyeste nul-shot stemmekloning med følelsesmæssig kontrol fra Resemble AI.

Sprog: en

Klonstemme

Tortoise TTSTortoise TTS

Multi-stemme tekst-til-tale fokuseret på kvalitet med autoregressiv arkitektur.

Sprog: en

Klonstemme

OpenVoiceOpenVoice

Øjeblikkelig stemmekloning med granuleret kontrol over stil, følelser og accent.

Sprog: en, zh, ja, ko, fr, es

Klonstemme

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnamesisk + engelsk kode-switching TTS med 7 forudindstillede stemmer og nul-shot stemme kloning. CPU-kun, ingen GPU kræves.

Sprog: vi, en

Klonstemme

Chatterbox TurboChatterbox Turbo

Hurtigere Chatterbox med sub-200ms latency og paralsprog tags til grin, hoste og meget mere.

Sprog: en

Klonstemme

VoxCPMVoxCPM

Tokenizer-fri TTS producerer 44,1kHz lyd med kontekst-aware afsnit konsistens.

Sprog: en, zh

Klonstemme

OuteTTSOuteTTS

LLM-baserede TTS, der kører på CPU, GPU, eller browser via lama.cpp og Transformers.js.

Sprog: en

Klonstemme

Pocket TTSPocket TTS

Letvægts 100M parametermodel af Kyutai med stemmekloning fra en enkelt prøve.

Sprog: en, fr

Klonstemme

CosyVoice3CosyVoice3

Næste generations flersprogede TTS med bi-streaming, følelsesmæssig kontrol og nul-shot stemme kloning.

Sprog: en, zh, ja, ko, de, es, fr, it, ru

Klonstemme

NAMAA Saudi TTSNAMAA Saudi TTS

Første åbne Saudi-arabiske TTS. Native Saudi dialekt med Chatterbox-kvalitet stemme kloning.

Sprog: ar

Klonstemme

Darwin TTSDarwin TTS

Cross-modal Qwen3-TTS variant med FFN vægte blandet fra Qwen3-1.7B sprogmodel for skarpere flersproget kloning.

Sprog: en, ko, ja, zh

Klonstemme

MOSS-TTSDMOSS-TTSD

Multi-højttaler dialog continuation model generere podcast-stil samtaler med op til 5 højttalere og 60 minutters sammenhængende lyd.

Sprog: en, zh

Klonstemme

Ming-Omni TTSMing-Omni TTS

Kompakt 0.5B omni-modal talemodel fra inklusionAI med high-fidelity 44.1kHz output og nul-shot stemme kloning.

Sprog: en, zh

Klonstemme

MOSS-TTS NanoMOSS-TTS Nano

Tiny 100M MOSS-TTS variant ~ samme arkitektur, 80x mindre, free-tier latency.

Sprog: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Klonstemme

Udvikler- første API

OpenAI-kompatibel REST API. Et endpoint, 22 + modeller. Streaming støtte til real-time applikationer.

  • OpenAI- kompatibelt format
  • Streaming af TTS til real-time apps
  • Batchforarbejdning til store job
  • Webhook- meddelelserName
Vis API Docs
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Enkel, gennemsigtig prissætning

Start gratis. Skalér som du vokser.

Fri

$0

15.000 tegn + 5.000 om dagen

  • 7 gratis modeller, herunder Kokoro
  • 5.000 tegn pr. generation
  • API- adgang inkluderet
Tilmeld dig gratis

Starter

$9/m

500 kreditter/måned

  • Alle 22+ modeller
  • 100.000 tegn pr. generation
  • Stemmekløvning
Kom i gang
Mest populære

Pro

$29/m

2.000 kreditter/måned

  • Alt i starten
  • API- adgang
  • Prioriteret behandling
Hent Pro

Forretninger

$99/m

10. 000 tegn/måned

  • Alt i Pro
  • Bulk API
  • Prioriteret kø
Få forretning

Se alle planer, herunder tegnpakker →

Ofte stillede spørgsmål

TTS.ai er den mest omfattende AI stemme platform, der tilbyder 22 + tekst-til-tale modeller, stemme kloning, tale-til-tekst, og audio værktøjer. Alle modeller er open source uden leverandør lås-in.

Ja! TTS.ai tilbyder gratis tekst-til-tale med Kokoro, Piper, VITS, og MeloTTS modeller. Ingen konto påkrævet. Tilmeld dig for at få 15.000 gratis tegn og få adgang til alle modeller. Betalte planer starter på $9/måned.

For hastighed, brug Kokoro eller Piper. For kvalitet, prøv CosyVoice 2 eller StyletTS 2. For stemmekloning, brug Chatterbox eller GPT-SoVITS. For dialog, bruge Dia TTS. Prøv flere modeller på den samme tekst til at sammenligne.

Ja. OpenAI-kompatible REST API til TTS, STT, stemmekloning og audio værktøjer. Inkluderet på hver plan, herunder gratis, med satsgrænser, skala efter niveau (gratis: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Forretning: 300). Se dokumentation på tts.ai/api /.

Stemmekvalitet varierer efter model. Premium modeller som CosyVoice 2, StylettTS 2, og Chatterbox producerer næsten menneskelig kvalitet tale med naturlig intonation og følelser. Gratis modeller som Kokoro tilbyder fremragende kvalitet til de fleste use cases.

TTS.ai understøtter 30+ sprog på tværs af sit modelbibliotek. Engelsk har den bredeste modelstøtte, men modeller som CosyVoice 2 dækker kinesisk, japansk og koreansk; GPT-SoVITS håndterer kinesisk, japansk, koreansk og engelsk; og MeloTTS understøtter engelsk, spansk, fransk, kinesisk, japansk og koreansk.

Ja. Al behandling sker på vores dedikerede GPU-servere. Vi gemmer ikke dit tekstinput eller genererede lyd efter levering. Uploadede stemmeprøver til kloning bruges kun til den aktuelle session og opbevares ikke. Vi deler aldrig dine data med tredjeparter eller bruger dem til at træne modeller.

Ja. Al lyd genereret på TTS.ai er din til at bruge kommercielt, herunder for YouTube videoer, podcasts, lydbøger, apps, reklamer og produkter. Vores modeller er open source under permissive licenser (MIT, Apache 2.0). Ingen royalties eller tildeling kræves.

TTS.ai genererer lyd i WAV- format som standard for maksimal kvalitet. Du kan konvertere til MP3, FLAC, OGG, eller M4A ved hjælp af vores gratis Audio Converter værktøj. API understøtter angive din foretrukne output-format direkte i anmodningen.

Upload en kort lydprøve (så lidt som 5 sekunder) af den stemme, du ønsker at klone, og skriv derefter en hvilken som helst tekst til at generere tale i denne stemme. Modeller som Chatterbox, GPT-SoVITS og CosyVoice 2 understøtter stemmekloning. Den klonede stemme fanger tone, accent og talestil.

Gratis modeller (Kokoro, Piper, VITS, MeloTTS) kræver ingen konto og koster nul tegn. Standardmodeller (2.000 tegn/1K input) omfatter Bark, CosyVoice 2, F5-TTS og Dia. Premium modeller (4.000 tegn/1K input) omfatter OpenVoice, Chatterbox, StyletTS 2, og Tortoise. Betalt modeller generelt tilbyder højere kvalitet, flere stemmer, og yderligere funktioner som stemme kloning.

Ja. API understøtter batchbehandling til konvertering af store mængder tekst til tale. Indsend flere anmodninger og hente resultater asynkront ved hjælp af job UUIDS. Forretningsplanen ($99/mo) og højere omfatter prioriteret køadgang til hurtigere batchbehandling. Ideel til lydbogsproduktion, kursusindhold og store voiceover projekter.
4.1/5 (42)

Hvad kan vi forbedre? Din feedback hjælper os med at løse problemer.

Begynd at bruge AI stemme i dag

Deltag skabere, udviklere og virksomheder ved hjælp af TTS.ai