Rapportér fejl / funktionsanmodning

AI- tekst til tale

Konverter tekst til naturlig klingende tale med open source AI-modeller. Gratis at bruge, ingen konto kræves.

Tilmeld dig gratis

Tekst
Filer

0/500 tegn · Tilmeld dig 5.000 pr. generation →

Tilmeld dig for 5.000 tegngrænse

SSML- tilstand (Talesyntese Markup Sprog til fin kontrol)

Wrap din tekst i SSML tags for præcis kontrol:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Emotion / Style Tags

Tilføj følelsesmæssige markører for at påvirke levering (model support varierer):

Udtale ordbog

Definer brugerdefinerede udtaler (ord = udtale):

Stenkulstjærebeg og anden mineraltjærebeg 0

-12 +12

AI-model

Stemme

Sprog

Outputformat

Hastighed 1.0x

0.5x 2.0x

Gratis med Piper, VITS, MeloTTS

Din genererede lyd vises her. Vælg en model, indtast tekst, og klik på Generér.

Modeloplysninger

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Udvikler:	KittenML
Licens:	Apache 2.0
Hastighed	Fast
Kvalitet:
sprog	1 sprog
VRAM	0GB
Stemmekløvning	Ikke understøttet

Funktioner:

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

Bedst til:: Fast lightweight TTS, edge deployment, low-latency applications

Tips til bedre resultater

Brug passende tegnsætning til naturlige pauser og intonation
Udpeg tal og forkortelser for klarere udtale
Tilføj kommaer til at oprette korte pauser mellem sætninger
Brug ellipse (...) til længere dramatiske pauser
Prøv Kokoro eller CosyVoice 2 for de mest naturlige resultater
Brug Dia til dialog med flere højttalere og indhold af podcast

Tegnbrug

Metodetrin	Omkostning pr. 1K chars
Fri	0 kreditter (ubegrænset)
Standard	2x tegn
Præmie	4x tegn

Få flere tegn

Hvordan AI tekst til tale virker

Generer professionel kvalitet voiceovers i tre enkle trin. Ingen teknisk viden kræves.

Trin 1

Indtast din tekst

Skriv, indsæt eller upload den tekst du vil konvertere til tale. Understøtter op til 5.000 tegn pr generation for loggede brugere. Brug almindelig tekst eller tilføj SSML- tags til avanceret kontrol over udtale, pauser og vægt.

Trin 2

Vælg model og stemme

Vælg mellem 20 + AI-modeller på tværs af tre niveauer. Vælg en stemme, der matcher dit indhold, vælg dit målsprog, juster afspilningshastigheden fra 0,5x til 2.0x, og vælg dit foretrukne outputformat (MP3, WAV, OGG eller FLAC).

Trin 3

Generér & download

Klik på Generer og din lyd er klar på få sekunder. Eksempel med den indbyggede afspiller, download i dit valgte format, eller kopiere et deleligt link. Brug API til batchbehandling og integration i din arbejdsgang.

Tekst til talebrugssager

AI-drevet tekst-til-tale er at omdanne, hvordan folk opretter, forbruge og interagere med lydindhold på tværs af snesevis af industrier.

Lydbøger

Konverter hele bøger i naturlige klingende lydbøger med studie-kvalitet fortælling. Multi-højttaler støtte med Dia for karakterdialog.

Video Voiceovers

Opret professionelle voiceovers til YouTube, TikTok, Instagram Reels og Shorts. 100 + stemmer eller klon din egen.

Podcasts

Generer podcast episoder fra scripts med flere AI stemmer. Brug Dia til naturlige to-højttaler samtaler.

Spil

AI stemme handler for indie spil, visuelle romaner, og interaktiv fiktion. NPC dialog, cutcene stemmer, 30 + sprog.

E-Learning

Konverter kursusmaterialer, foredrag og træningsindhold til lyd. Multi-language support til globale platforme.

Tilgængelighed

Gør hjemmesider, dokumenter og apps tilgængelige. Skærmlæser API integration og artikel-til-audio konvertering.

IVR- og telefonsystemer

Power IVR-systemer, telefonmenuer og kundeservice med naturlige AI-stemmer. Low-latency streaming til call-centre.

Sociale medier

TikTok fortæller, Instagram Reels, Twitter/X kommentar, YouTube Shorts. Hurtig generation med gratis modeller.

Streaming

Twitch TTS alarmer, chat-to-voice, AI co-hosts, og Discord bots. Lav latenstid, 100 + stemmer, StreamElements kompatibel.

Markedsføring

Ad voiceovers, explainer videoer, produktdemoer, og salg præsentationer. Skaler lydindhold produktion på tværs af kampagner.

Døbning og lokalisering

Oversæt og dub video til 30 + sprog med stemme-matchede AI. Auto-transcription og højttaler afsløring.

Meditation og wellness

Guidede meditationer, søvnhistorier, vejrtrækningsøvelser og bekræftelser med rolige, beroligende AI stemmer.

Vis alle brugskasser og - værktøjer

Al tekst til talemodeller

Detaljerede specifikationer for hver AI model til rådighed på TTS.ai. Sammenlign kvalitet, hastighed, sprogstøtte og funktioner til at finde den perfekte model til dit projekt.

Kokoro

Free

Kokoro er en 82 millioner parameter tekst-til-tale model, der punches langt over sin vægtklasse. På trods af sin lille størrelse, det producerer bemærkelsesværdigt naturlig og udtryksfuld tale. Kokoro understøtter flere sprog, herunder engelsk, japansk, kinesisk og koreansk med en række udtryksfulde stemmer. Det kører utrolig hurtigt ~ genererer lyd næsten 100x hurtigere end realtid på en GPU.

Udvikler::
Hexgrad

Licens::
Apache 2.0

Hastighed:
Fast

Kvalitet::

sprog:
en, ja, zh, fr, it, pt, es, hi

VRAM:
1.5GB

Stemmekløvning:
Nej

Omkostning pr. 1K chars:
Fri

82M parametre Ultrahurtig Udtryksstemmer Flersproget Streaming- understøttelse

Bedst til:: Høj kvalitet TTS med minimal latenstid, streaming applikationer

Prøv Kokoro

Piper

Free

Piper er en letvægts tekst-til-tale motor udviklet af Rhasspy, der bruger VITS og larynx arkitekturer. Det kører udelukkende på CPU, hvilket gør den ideel til kant enheder, hjem automatisering, og applikationer, der kræver offline TTS. Med over 100 stemmer på tværs af 30 + sprog, Piper leverer naturlig klingende tale ved real-time hastigheder selv på en Raspberry Pi 4.

Udvikler::
Rhasspy

Licens::
MIT

Hastighed:
Fast

Kvalitet::

sprog:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

Stemmekløvning:
Nej

Omkostning pr. 1K chars:
Fri

CPU-venlig Offline i stand til 100+ stemmer 30+ sprog SSML-støtte

Bedst til:: Hurtige forhåndsvisninger, tilgængelighed og indlejrede applikationer

Prøv Piper

VITS

Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) er en parallel end-to-end TTS metode, der genererer mere naturlig klingende lyd end nuværende to-trins modeller. Det vedtager variational inferens augmented med normaliserende flows og en adversarial uddannelsesproces, at opnå en betydelig forbedring i naturlighed.

Udvikler::
Jaehyeon Kim et al.

Licens::
MIT

Hastighed:
Fast

Kvalitet::

sprog:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

VRAM:
1GB

Stemmekløvning:
Nej

Omkostning pr. 1K chars:
Fri

Slut- til- slut- syntese Naturlig prosody Hurtig inferens Flere højttalere

Bedst til:: Generelle formål tekst-til-tale med naturlig prosody

Prøv VITS

MeloTTS

Free

MeloTTS af MyShell.ai er et flersproget TTS-bibliotek, der understøtter engelsk (amerikansk, britisk, indisk, australsk), spansk, fransk, kinesisk, japansk og koreansk. Det er ekstremt hurtigt, behandling tekst på nær real-time hastighed på CPU alene. MeloTTS er designet til produktion brug og understøtter både CPU og GPU inferens.

Udvikler::
MyShell.ai

Licens::
MIT

Hastighed:
Fast

Kvalitet::

sprog:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

Stemmekløvning:
Nej

Omkostning pr. 1K chars:
Fri

CPU- optimeret Flersproget Flere accenter Produktionsklar Lav latenstid

Bedst til:: Produktionsapplikationer, der kræver hurtige, flersprogede TTS

Prøv MeloTTS

Bark

Standard

Bark by Suno er en transformer-baseret tekst-til-audio model, der kan generere meget realistisk, flersproget tale samt andre lyd som musik, baggrundsstøj og lydeffekter. Det kan producere nonverbal kommunikation som griner, sukker og græder. Bark understøtter over 100 højttaler forudindstillinger og 13 + sprog.

Udvikler::
Suno

Licens::
MIT

Hastighed:
Slow

Kvalitet::

sprog:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

Stemmekløvning:
Nej

Omkostning pr. 1K chars:
2x

Lydeffekter Latter/suk Musikproduktion 100+ højttalere Flersproget

Bedst til:: Kreativt lydindhold, lydbøger med følelser, lydeffekter

Prøv Bark

Bark Small

Standard

Bark Small er en destilleret version af Bark-modellen, der handler med noget lydkvalitet for betydeligt hurtigere inferenshastigheder og lavere hukommelseskrav. Den bevarer Barks evne til at generere tale med følelser, latter og flere sprog.

Udvikler::
Suno

Licens::
MIT

Hastighed:
Medium

Kvalitet::

sprog:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

Stemmekløvning:
Nej

Omkostning pr. 1K chars:
2x

Letvægt Hurtigere end fuld Bark Følelsesmæssig tale Flersproget

Bedst til:: Hurtig kreativ lyd når fuld Bark er for langsom

Prøv Bark Small

CosyVoice 2

Standard

CosyVoice 2 af Alibaba's Tongyi Lab opnår menneskelig-sammenlignelig talekvalitet med ekstremt lav latenstid, hvilket gør den ideel til real-time applikationer. Det bruger en finite scalar kvantisering tilgang til streaming syntese og understøtter nul-shot stemme kloning, tværsproget syntese, og finkornet følelsesmæssig kontrol. Det overgår mange kommercielle TTS-systemer i subjektive evalueringer.

Udvikler::
Alibaba (Tongyi Lab)

Licens::
Apache 2.0

Hastighed:
Medium

Kvalitet::

sprog:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
2x

Streaming Nulskudskloning Tværsproget Følelseskontrol Menneskers ligeværdighed

Bedst til:: Real-time applikationer, streaming TTS, stemmeassistenter

Prøv CosyVoice 2

Dia TTS

Standard

Dia by Nari Labs er en 1.6B parameter tekst-til-tale model designet specielt til at generere multi-højttaler dialog. Det kan producere naturligt klingende samtaler mellem to højttalere med passende turn-taking, prosody og følelsesmæssige udtryk. Dia er perfekt til at skabe podcast-stil indhold, audiobook dialoger og interaktive samtale AI.

Udvikler::
Nari Labs

Licens::
Apache 2.0

Hastighed:
Medium

Kvalitet::

sprog:
en

VRAM:
4GB

Stemmekløvning:
Nej

Omkostning pr. 1K chars:
2x

Flerhøjttaler Dialoggenerering Naturlig turnus Følelsesmæssigt udtryk 1.6B-parametre

Bedst til:: Podcasts, audiobook dialoger, samtaleindhold

Prøv Dia TTS

Parler TTS

Standard

Parler TTS er en tekst- til- tale model, der bruger naturlige sprogstemmebeskrivelser til at styre den genererede tale. I stedet for at vælge fra forudindstillede stemmer, du beskriver den stemme, du ønsker (f.eks "en varm kvindelig stemme med en lille britisk accent, taler langsomt og klart") og Parler genererer tale, der matcher denne beskrivelse. Dette gør det unikt fleksibelt for kreative applikationer.

Udvikler::
Hugging Face

Licens::
Apache 2.0

Hastighed:
Medium

Kvalitet::

sprog:
en

VRAM:
4GB

Stemmekløvning:
Nej

Omkostning pr. 1K chars:
2x

Stemmebeskrivelse Naturlig sprogkontrol Fleksibelt taleskabelse Ingen forudindstillede stemmer nødvendig

Bedst til:: Kreative applikationer, hvor du har brug for brugerdefinerede taleegenskaber

Prøv Parler TTS

GLM-TTS

Standard

GLM-TTS af Zhipu AI er et tekst-til-tale system bygget på Llama arkitektur med flow matching. Det opnår den laveste karakter fejlrate blandt open-source TTS modeller, hvilket betyder det producerer den mest nøjagtige udtale. GLM-TTS understøtter engelsk og kinesisk med stemme kloning fra 3-10 sekunders lydprøver.

Udvikler::
Zhipu AI

Licens::
GLM-4 License

Hastighed:
Medium

Kvalitet::

sprog:
en, zh

VRAM:
4GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
2x

Laveste fejlprocent Stemmekloning Flowmatching Naturlig prosody

Bedst til:: Ansøgninger, der kræver maksimal udtalenøjagtighed

Prøv GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 er et avanceret tekst-til-tale system, der udmærker sig ved nul-shot stemmesyntese med finkornet følelsesmæssig kontrol. Det kan generere tale med specifikke følelsesmæssige toner som glade, triste, vrede eller frygtsomme uden at kræve følelsesmæssige specifikke træningsdata. Modellen bruger emotionelle vektorer til præcist at styre det emotionelle udtryk for genereret tale.

Udvikler::
Index Team

Licens::
Bilibili Model License

Hastighed:
Medium

Kvalitet::

sprog:
en, zh

VRAM:
4GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
2x

Følelseskontrol Nulskud Følelsesvektorer udtryksfuld tale Finkornet kontrol

Bedst til:: Følelsesmæssigt udtryksfuldt indhold, lydbøger, virtuelle assistenter

Prøv IndexTTS-2

Spark TTS

Standard

Spark TTS by SparkAudio er en tekst-til-tale model, der kombinerer voice kloning med styrbar følelse og talestil. Ved hjælp af blot 5 sekunders reference audio, kan det klone en stemme og derefter generere tale med forskellige følelser, hastigheder og stilarter, samtidig med at den klonede stemme identitet. Spark TTS bruger et prompt-baseret kontrolsystem.

Udvikler::
SparkAudio

Licens::
CC BY-NC-SA 4.0

Hastighed:
Medium

Kvalitet::

sprog:
en, zh

VRAM:
4GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
2x

Stemmekloning Følelseskontrol Stilstyring Promptbaseret 5-sekunders kloning

Bedst til:: Tilfredsskabelse med klonede stemmer og følelsesmæssig kontrol

Prøv Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS kombinerer GPT-stil sprog modellering med SoVITS (Singing Voice Inference via Oversættelse og Synthesis) for kraftige få-shot stemme kloning. Med så lidt som 5 sekunders reference audio, kan det præcist klone en stemme og generere ny tale samtidig bevare højttalerens unikke egenskaber. Det excellerer på både taler og sang stemmesyntese.

Udvikler::
RVC-Boss

Licens::
MIT

Hastighed:
Slow

Kvalitet::

sprog:
en, zh, ja, ko

VRAM:
6GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
2x

5-sekunders kloning Syngende stemme Få-shot læring Høj troskab Tværsproget

Bedst til:: Stemme kloning, syngende syntese, indhold skaberen stemme replikation

Prøv GPT-SoVITS

Orpheus

Standard

Orpheus er en storstilet tekst-til-tale model, der opnår menneskelige-niveau emotionelle udtryk. Trænet på mere end 100.000 timers forskellige taledata, det udmærker sig ved at generere tale med naturlige følelser, vægt og tale stilarter. Orpheus kan producere tale, der er næsten ikke skelnes fra menneskelige optagelser.

Udvikler::
Canopy Labs

Licens::
Llama 3.2 Community

Hastighed:
Medium

Kvalitet::

sprog:
en

VRAM:
4GB

Stemmekløvning:
Nej

Omkostning pr. 1K chars:
2x

Menneskelige følelser 100K timers træning Naturlig vægt udtryksfuld tale

Bedst til:: Højkvalitets emotionel tale, lydbøger, stemme skuespil

Prøv Orpheus

Chatterbox

Premium

Chatterbox by Resemble AI er en banebrydende zero-shot stemme kloning model. Det kan kopiere enhver stemme fra en enkelt lydprøve med bemærkelsesværdig nøjagtighed, fange ikke kun klangfarven, men også den talende stil og følelsesmæssige nuancer. Chatterbox er også udstyret med finkornet følelseskontrol, så du kan justere den følelsesmæssige tone i den genererede tale uafhængigt af stemmen identitet.

Udvikler::
Resemble AI

Licens::
MIT

Hastighed:
Medium

Kvalitet::

sprog:
en

VRAM:
4GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
4x

Nulskudskloning Følelseskontrol Høj troskab Stiloverførsel Enkeltprøvekloning

Bedst til:: Professionel stemme kloning med følelsesmæssig kontrol, indhold skabelse

Prøv Chatterbox

Tortoise TTS

Premium

Tortoise TTS er en automatisk regressiv multi-stemme tekst-til-tale system, der prioriterer lydkvalitet over hastighed. Det bruger DALL-E-inspireret arkitektur til at generere meget naturlig tale med fremragende prosody og højttaler lighed. Mens langsommere end mange alternativer, Tortoise producerer nogle af de mest realistiske syntetiske tale til rådighed i open source økosystem.

Udvikler::
James Betker

Licens::
Apache 2.0

Hastighed:
Slow

Kvalitet::

sprog:
en

VRAM:
8GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
4x

Højeste kvalitet Flerfaktura DALL-E arkitektur Stemmekloning Autoregressiv

Bedst til:: Lydbøger, førsteklasses indhold, førsteklasses applikationer

Prøv Tortoise TTS

StyleTTS 2

Premium

StyleTTS 2 opnår TTS-syntese på det menneskelige niveau ved at kombinere stilspredning med adversatorisk træning ved hjælp af store talesprogsmodeller. Det genererer den mest naturlige klingende tale blandt enkelthøjttalermodeller, der konkurrerer med menneskelige optagelser. StylettTS 2 bruger diffusionsbaseret stilmodellering til at fange hele spektret af menneskelig talevariation.

Udvikler::
Columbia University

Licens::
MIT

Hastighed:
Medium

Kvalitet::

sprog:
en

VRAM:
4GB

Stemmekløvning:
Nej

Omkostning pr. 1K chars:
4x

Menneskeligt niveau Stildiffusion Advokatuddannelse Naturlig variation Høj troskab

Bedst til:: Studio-kvalitet single-højttaler syntese, professionel fortælling

Prøv StyleTTS 2

OpenVoice

Premium

OpenVoice af MyShell.ai muliggør øjeblikkelig stemmekloning med granuleret kontrol over stemmestil, følelser, accent, rytme, pauser og intonation. Det kan klone en stemme fra et kort lydklip og generere tale på flere sprog samtidig med at højttaler identitet. OpenVoice fungerer også som en stemme konverter, så real-time stemme transformation.

Udvikler::
MyShell.ai / MIT

Licens::
MIT

Hastighed:
Medium

Kvalitet::

sprog:
en, zh, ja, ko, fr, es

VRAM:
4GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
4x

Øjeblikkelig kloning Stemmekonvertering Følelseskontrol Accentkontrol Flersproget

Bedst til:: Stemme kloning med finkornet stil kontrol, stemme konvertering

Prøv OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS er en 1,7 milliarder parameter tekst-til-tale model fra Alibaba's Qwen team. Det understøtter tre tilstande: forudindstillede stemmer med emotion control (9 højttalere), stemme kloning fra kun 3 sekunder af lyd, og en unik stemme design mode, hvor du beskriver den stemme, du ønsker i naturligt sprog. Det dækker 10 sprog med høj ekspressivitet og naturlig prosody.

Udvikler::
Alibaba (Qwen)

Licens::
Apache 2.0

Hastighed:
Medium

Kvalitet::

sprog:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
2x

Stemmekloning 9 forudindstillede stemmer Stemmedesign fra tekst Følelseskontrol 10 sprog

Bedst til:: Flersproget indhold med stemmekloning eller brugerdefineret stemmedesign

Prøv Qwen3 TTS

Sesame CSM

Premium

Sesam CSM (Conversational Speech Model) er en 1 milliard parameter model designet specielt til at generere samtaletale. Det modellerer de naturlige mønstre af menneskelig samtale, herunder turn-taking timing, backchannel reaktioner, følelsesmæssige reaktioner og samtalestrøm. CSM genererer lyd, der lyder som en naturlig menneskelig samtale snarere end syntetisk tale.

Udvikler::
Sesame

Licens::
Apache 2.0

Hastighed:
Slow

Kvalitet::

sprog:
en

VRAM:
8GB

Stemmekløvning:
Nej

Omkostning pr. 1K chars:
4x

Samtale Naturlig timing Drejeomdrejning BackkanalName 1B-parametre

Bedst til:: AI assistenter, chatbotter, samtale AI-applikationer

Prøv Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo by Resemble AI er en 350M parameter opgradering til Chatterbox, levere op til 6x real-time hastighed med sub-200ms latency. Det understøtter paralsproglige tags som [laugh], [hoste], og [chuckle] direkte i tekst. Inkluderer Perth vandmærkning på alle genererede lyd for herkomst tracking.

Udvikler::
Resemble AI

Licens::
MIT

Hastighed:
Fast

Kvalitet::

sprog:
en

VRAM:
2GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
2x

Under 200ms latency Paralingvistisk tags 6x realtid Stemmekloning Vandmærkning

Bedst til:: Real-time voice agenter, udtryksfuld tale med naturlige lyde

Prøv Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1.5 af OpenBMB er en ny tokenizer-fri TTS model, der opererer i kontinuerlig plads i stedet for diskrete tokens. Det producerer high-fidelity 44.1kHz lyd, understøtter nul-shot stemme kloning fra 3-10 sekunder, og fastholder konsistens på tværs af afsnit. Cross-language kloning kan du anvende en engelsk stemme til kinesisk tale og omvendt.

Udvikler::
OpenBMB

Licens::
Apache 2.0

Hastighed:
Fast

Kvalitet::

sprog:
en, zh

VRAM:
4GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
2x

44,1kHz lyd Tokenizer-fri Flersproget kloning Kontekstbevidst@ info: whatsthis LoRA finjustering

Bedst til:: High-fidelity lyd, lydbøger, lang-form indhold med stemme konsistens

Prøv VoxCPM

Kani TTS 2

Free

Kani-TTS-2 af NineNineSix er en ultra-letvægts 400M parameter model bygget på en flydende AI LFM2 rygrad med NVIDIA NanoCodec. Det kører i kun 3GB VRAM og producerer ~ 10 sekunders tale på ~ 2 sekunder på en A100 (RTF 0.2). Den nuværende offentlige udgivelse skibe en engelsk-kun •kani-tts-2-en • checkpoint og ikke udsætte højttaler-embedding krog nødvendig for voice kloning • bruge Chatterbox / IndexTTS2 / F5-TTS til kloning, eller Kokoro / MeloTTS til ikke-engelsk.

Udvikler::
NineNineSix

Licens::
Apache 2.0

Hastighed:
Fast

Kvalitet::

sprog:
en

VRAM:
3GB

Stemmekløvning:
Nej

Omkostning pr. 1K chars:
Fri

3GB VRAM Ultrahurtig Letvægt NanoCodec Fri

Bedst til:: Hurtig engelsk generation på lav-VRAM hardware, hurtig forhåndsvisning

Prøv Kani TTS 2

OuteTTS

Free

OutetTS udvider store sprogmodeller med tekst-til-tale kapaciteter samtidig bevare den oprindelige arkitektur. Det understøtter flere backends, herunder lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, og endda browser inferens via Transformers.js. Funktioner nul-shot stemme kloning gennem højttalerprofiler gemt som JSON.

Udvikler::
OuteAI

Licens::
Apache 2.0

Hastighed:
Fast

Kvalitet::

sprog:
en

VRAM:
2GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
Fri

CPU- inferens Browser- inferens Stemmekloning Flere backends Højttalerprofiler

Bedst til:: Kant implementering, browser-baserede TTS, lav-ressource miljøer

Prøv OuteTTS

VibeVoice

Standard

VibeVoice fra Microsoft kommer i to varianter: en 1.5B model for lang-form indhold (op til 90 minutter, 4 højttalere) og en Realtime 0.5B model for streaming med ~ 200ms første audio latency. 1.5B variant excellerer på podcasts og lydbøger med højttaler konsistens over lange passager. Bemærk: Microsoft fjernet TTS-kode fra lageret og genereret lyd indeholder hørbare AI ansvarsfraskrivelser.

Udvikler::
Microsoft

Licens::
MIT

Hastighed:
Fast

Kvalitet::

sprog:
en, zh

VRAM:
4GB

Stemmekløvning:
Nej

Omkostning pr. 1K chars:
2x

Flerhøjttaler Op til 90 min. Produktion af podcast Højttalerkonsistens 200ms streaming

Bedst til:: Podcasts, lydbøger, højttalerindhold i langform

Prøv VibeVoice

Pocket TTS

Free

Pocket TTS af Kyutai (skabere af Moshi) er en kompakt 100M parameter tekst-til-tale model, der punch langt over sin vægt. Det kører effektivt på CPU, understøtter nul-shot stemme kloning fra en enkelt lydprøve, og producerer naturlig klingende tale. Den lille model størrelse gør den ideel til kant implementering og lav-ressource miljøer.

Udvikler::
Kyutai

Licens::
MIT

Hastighed:
Fast

Kvalitet::

sprog:
en, fr

VRAM:
1GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
Fri

100M parametre CPU- inferens Stemmekloning Kloning af enkeltprøver Kant- klar

Bedst til:: Letvægts implementering, CPU-beskyttede miljøer, hurtig stemmekloning

Prøv Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML er en ultra-let tekst-til-tale model bygget på ONNX. Med varianter fra 15M til 80M parametre (25-80 MB på disk), det leverer høj kvalitet stemmesyntese på CPU uden at kræve en GPU. Funktioner 8 indbyggede stemmer, justerbar talehastighed og indbygget tekstforbehandling for tal, valutaer og enheder. Ideel til kant implementering og lav latenstid applikationer.

Udvikler::
KittenML

Licens::
Apache 2.0

Hastighed:
Fast

Kvalitet::

sprog:
en

VRAM:
0GB

Stemmekløvning:
Nej

Omkostning pr. 1K chars:
Fri

CPU- kun- inferens Under 80MB modelstørrelse 8 indbyggede stemmer Hastighedskontrol ONNX-baseret 24kHz output

Bedst til:: Hurtig letvægts TTS, kant implementering, lav latenstid applikationer

Prøv Kitten TTS

CosyVoice3

Standard

CosyVoice3 er den nyeste evolution fra Alibaba FunAudioLLM team. Den er udstyret med bi-streaming inferens med ~ 150ms latenstid, instruktion-baseret kontrol for følelser / hastighed / volumen, og forbedret højttaler lighed for nul-shot kloning. Understøtter 9 sprog plus 18 kinesiske dialekter. RL-tuned variant leverer state-of-the-art prosody.

Udvikler::
Alibaba (FunAudioLLM)

Licens::
Apache 2.0

Hastighed:
Fast

Kvalitet::

sprog:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
2x

Bistreaming Følelseskontrol Stemmekloning Hastigheds-/volumenregulering Instruktion efter

Bedst til:: Flersproget produktion TTS, real-time applikationer, stemme kloning

Prøv CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS er en saudiarabisk fintune af Resemble AI's ChatterboxMultilingual. Trænet af NAMAA Space på autentisk Saudi-dialekt tale, det producerer naturlig Moderne Standard Arabisk og Saudi kollokvial udtale, at generiske flersprogede modeller ikke kan matche. Arver Chatterbox nul-shot stemme kloning og følelsesmæssig kontrol via reference audio prompter. De første open-weights arabiske TTS indsat på TTS.ai.

Udvikler::
NAMAA Space

Licens::
MIT

Hastighed:
Medium

Kvalitet::

sprog:
ar

VRAM:
6GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
2x

saudiarabisk dialekt Moderne Standard Arabic Nul-shot stemme kloning Følelseskontrol Native udtale

Bedst til:: Arabisk indhold til Saudi-arabere, MSA-fortælling, Khaleeji-dialekt voice agenter, Arabiske lydbøger

Prøv NAMAA Saudi TTS

Darwin TTS

Standard

Darwin-TTS-1.7B-Cross by FINAL-Bench er en forskningsvariant af Qwen3-TTS-1.7B, hvor 84 oplæser-FFN tensors (8.6%) blandes på α=3% med de matchende tensors fra Qwen3-1.7B-Base. Blandingen er bygget uden omskoling og producerer mærkbart skarpere tværsproget stemmekloning på tværs af koreansk, engelsk, japansk og kinesisk. Opererer i zero-shot voice-clone mode (3 sekunder reference audio).

Udvikler::
FINAL-Bench

Licens::
Apache 2.0

Hastighed:
Medium

Kvalitet::

sprog:
en, ko, ja, zh

VRAM:
7GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
2x

Stemmekloning Tværsproget FFN-benede 4 kernesprog Qwen3 rygrad

Bedst til:: Tværsproget stemme kloning mellem engelsk / koreansk / japansk / kinesisk med en enkelt reference stemme

Prøv Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 fra OpenMOSS er en 7B dialog tekst-til-tale model, der fortsætter samtaler fra en kort lydprompt. Understøtter op til 5 samtidige højttalere via [S1] / [S2] tags, nul-shot voice kloning fra 3-10s reference audio, og op til 60 minutters sammenhængende multi-turn dialog på tværs af 20 sprog.

Udvikler::
OpenMOSS

Licens::
Apache 2.0

Hastighed:
Medium

Kvalitet::

sprog:
en, zh

VRAM:
12GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
2x

Dialog mellem flere højttalere Op til 5 højttalere 60min sammenhængende lyd Stemmekloning Podcastoptimeret

Bedst til:: Podcasts, lydbøger, døbt dialog, samtaleindhold med flere stemmer

Prøv MOSS-TTSD

Ming-Omni TTS

Free

Ming-omni-tts-0.5B ved inklusionAI er en kompakt omni-modal talemodel bygget på BailingMM tætte rygrad med en Patch-by-Patch flow-matching audio dekoder. Leverer 44,1kHz output (nær CD-kvalitet), understøtter nul-shot stemme kloning fra en 3 + anden reference, og omfatter indbygget følelse / dialekt / BGM control via JSON instruktioner. Fremragende stabilitet! 0,83% WER på kinesiske benchmarks.

Udvikler::
inclusionAI

Licens::
Apache 2.0

Hastighed:
Medium

Kvalitet::

sprog:
en, zh

VRAM:
3GB

Stemmekløvning:
Ja

Omkostning pr. 1K chars:
Fri

44,1kHz output Stemmekloning Følelseskontrol Dialect-kontrol MGM-produktion Kompakt 0, 5B

Bedst til:: Høj troskab tosproget fortælling, følelsesmæssigt kontrolleret stemme skuespil, kinesisk lydbog indhold

Prøv Ming-Omni TTS

Kokoro

Fri

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Udvikler::
Hexgrad

Licens::
Apache 2.0

Hastighed:
Fast

Kvalitet::

sprog: en, ja, zh, fr, it, pt, es, hi

Bedst til:: High-quality TTS with minimal latency, streaming applications

Prøv gratis

Piper

Fri

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Udvikler::
Rhasspy

Licens::
MIT

Hastighed:
Fast

Kvalitet::

sprog: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

Bedst til:: Quick previews, accessibility, and embedded applications

Prøv gratis

VITS

Fri

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Udvikler::
Jaehyeon Kim et al.

Licens::
MIT

Hastighed:
Fast

Kvalitet::

sprog: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

Bedst til:: General-purpose text-to-speech with natural prosody

Prøv gratis

MeloTTS

Fri

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Udvikler::
MyShell.ai

Licens::
MIT

Hastighed:
Fast

Kvalitet::

sprog: en, es, fr, zh, ja, ko

Bedst til:: Production applications needing fast, multilingual TTS

Prøv gratis

Kani TTS 2

Fri

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

Udvikler::
NineNineSix

Licens::
Apache 2.0

Hastighed:
Fast

Kvalitet::

sprog: en

Bedst til:: Fast English generation on low-VRAM hardware, quick previews

Prøv gratis

OuteTTS

Fri

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Udvikler::
OuteAI

Licens::
Apache 2.0

Hastighed:
Fast

Kvalitet::

sprog: en

Bedst til:: Edge deployment, browser-based TTS, low-resource environments

Prøv gratis

Pocket TTS

Fri

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

Udvikler::
Kyutai

Licens::
MIT

Hastighed:
Fast

Kvalitet::

sprog: en, fr

Bedst til:: Lightweight deployment, CPU-only environments, quick voice cloning

Prøv gratis

Kitten TTS

Fri

Udvikler::
KittenML

Licens::
Apache 2.0

Hastighed:
Fast

Kvalitet::

sprog: en

Bedst til:: Fast lightweight TTS, edge deployment, low-latency applications

Model	Udvikler:	Metodetrin	Hastighed	sprog	VRAM	Licens:	kreditter
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	Fri	Anvendelse
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	Fri	Anvendelse
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	Fri	Anvendelse
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Fri	Anvendelse
Bark	Suno	Standard	Slow	13	5GB	MIT	2	Anvendelse
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Anvendelse
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Anvendelse
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Anvendelse
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Anvendelse
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	Anvendelse
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Anvendelse
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Anvendelse
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	Anvendelse
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Anvendelse
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Anvendelse
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	Anvendelse
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Anvendelse
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	Anvendelse
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Anvendelse
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	Anvendelse
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	Anvendelse
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	Anvendelse
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	Fri	Anvendelse
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Fri	Anvendelse
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	Anvendelse
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Fri	Anvendelse
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Fri	Anvendelse
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	Anvendelse
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	Anvendelse
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	Anvendelse
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	Anvendelse
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	Fri	Anvendelse

Den mest omfattende AI tekst til tale platform

Hvorfor vælge TTS.ai for tekst til tale?

TTS.ai samler verdens bedste open source tekst-til-tale modeller i en enkelt, nem at bruge platform. I modsætning til proprietære tjenester, der låser dig ind i en enkelt stemme motor, TTS.ai giver dig adgang til 20 + modeller fra førende forskningslaboratorier, herunder Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University, og meget mere.

Hver model er open source under MIT, Apache 2.0, eller lignende permissive licenser, sikrer, at du har fuld kommercielle rettigheder til at bruge den genererede lyd i dine projekter. Uanset om du har brug for hurtig, let syntese til real-time applikationer eller luksus studio-kvalitet output til lydbøger og podcasts, TTS.ai har den rigtige model til hver brug kasse.

Gratis modeller, ingen konto påkrævet

Kom i gang med det samme med tre gratis TTS-modeller: Piper (ultra-hurtig, let), VITS (højkvalitets neural syntese) og MeloTTS (multi-sprog support). Ingen tilmelding, intet kreditkort, ingen grænser for generationer. Gratis modeller understøtter engelsk og flere andre sprog med naturligt klingende output egnet til de fleste applikationer.

GPU-accelereret behandling

Alle TTS-modeller kører på dedikerede NVIDIA GPU'er til hurtige, konsekvente generationstider. Gratis modeller genererer typisk lyd på under 2 sekunder. Standardmodeller som Kokoro, CosyVoice 2, og Bark gennemsnit 3-5 sekunder. Premium modeller med den højeste kvalitet, såsom Tortoise og Chatterbox, proces i 5-15 sekunder afhængigt af tekstlængde.

30+ Understøttede sprog

Generer tale på over 30 sprog, herunder engelsk, spansk, fransk, tysk, italiensk, portugisisk, kinesisk, japansk, koreansk, arabisk, hindi, russisk, og mange flere. Flere modeller understøtter tværsproget syntese, hvilket betyder, at du kan generere tale på et sprog den oprindelige stemme blev aldrig trænet på. CosyVoice 2 og GPT-SoVITS excel på tværs af sproget stemme kloning.

Udvikler-Ready API

Integrer TTS.ai i dine applikationer med vores OpenAI-kompatible REST API. Et slutpunkt for alle 20+ modeller. Python, JavaScript, cURL og Go SDKs. Streaming support til real-time applikationer. Batchbehandling til storstilet indhold generation. Webhooks til async meddelelser. API adgang inkluderet på hver plan, herunder gratis.

Ofte stillede spørgsmål

Tekst til tale (TTS) er en AI-teknologi, der konverterer skriftlig tekst til naturlig-klingende talte lyd. Moderne neurale TTS-modeller som Kokoro, Chatterbox og CosyVoice 2 bruger dyb læring til at producere tale, der lyder bemærkelsesværdigt menneskelig, med naturlig prosody, følelse og rytme.

Det afhænger af dine behov. For hurtige forhåndsvisninger, brug Piper eller MeloTTS (gratis, hurtig). For høj kvalitet, prøv Kokoro eller CosyVoice 2 (standard tier). For stemmekloning, brug Chatterbox eller GPT-SoVITS (premium). For dialog / podcast indhold, prøv Dia TTS. Hver model har forskellige styrker ~ eksperimentere for at finde den bedste pasform.

Ja! TTS.ai tilbyder gratis tekst-til-tale med Kokoro, Piper, VITS og MeloTTS modeller. Ingen konto kræves for op til 500 tegn og 3 generationer i timen. Tilmeld dig en gratis konto for at få 15.000 tegn og få adgang til alle modeller.

Vores TTS modeller understøtter tilsammen 30+ sprog, herunder engelsk, spansk, fransk, tysk, italiensk, portugisisk, kinesisk, japansk, koreansk, arabisk, russisk, hindi og mange flere. Sprogtilgængelighed varierer efter model.

Ja, lyd genereret gennem TTS.ai kan bruges kommercielt. Alle vores modeller bruger open source-licenser (MIT, Apache 2.0). Tjek individuelle modellicenser for specifikke vilkår. Vi anbefaler at gennemgå licensen for den specifikke model, du bruger til dit projekt.

TTS.ai understøtter MP3, WAV, OGG, og FLAC output formater. MP3 er standard for webafspilning. WAV anbefales til yderligere lydbehandling. Du kan konvertere mellem formater ved hjælp af vores Audio Converter værktøj.

Stemmekloning bruger AI til at replikere en specifik stemme fra en kort lydprøve (typisk 5-30 sekunder). Upload en klar optagelse af målet stemme, og modeller som Chatterbox, GPT-SoVITS, eller OpenVoice vil generere ny tale i denne stemme. Kvaliteten forbedrer med renere, længere reference lyd.

Gratis brugere kan generere op til 500 tegn pr anmodning. Registrerede brugere får op til 5.000 tegn pr anmodning. For længere tekster genereres lyden i stykker og sys sammen automatisk. API-brugere kan behandle op til 10.000 tegn pr anmodning.

SSML (Speech Synthesis Markup Language) støtte varierer efter model. Piper og nogle andre modeller understøtter grundlæggende SSML tags til pauser, vægt og udtale kontrol. For modeller uden native SSML støtte, kan du bruge naturlige tegnsætning og linje pauser til at påvirke prosody.

Ja, de fleste modeller understøtter hastighedsjustering fra 0,5x til 2.0x. Nogle modeller som Bark og Parler tillader også pitch og stil control. Du kan indstille hastighedsparametre i det avancerede indstillingspanel eller via API hastighedsparameteren.

Ja, batchbehandling er tilgængelig via vores API. Du kan indsende flere tekstsegmenter i et enkelt API-opkald eller script, og hver vil blive behandlet og returneret som separate lydfiler. Dette er ideelt til audiobook kapitler, e-learning moduler eller spildialog scripts.

Generer en API nøgle fra din konto dashboard, og send derefter POST anmodninger til vores REST API endpoint med din tekst, model, og stemme parametre. Vi giver kode eksempler i Python, JavaScript, og cURL. API er OpenAI-kompatibel, så eksisterende integrationer arbejde med minimale ændringer.

5.0/5 (4)

Begynd at konvertere tekst til tale nu

Tilmeld dig tusindvis af skabere ved hjælp af TTS.ai. Få 15.000 gratis tegn med en ny konto. Gratis modeller til rådighed uden tilmelding.

Tilmeld dig gratis Vis priser

AI- tekst til tale

Elsker TTS.ai? Fortæl dine venner!

Modeloplysninger

Kitten TTS

Tips til bedre resultater

Tegnbrug

Hvordan AI tekst til tale virker

Indtast din tekst

Vælg model og stemme

Generér & download

Tekst til talebrugssager

Lydbøger

Video Voiceovers

Podcasts

Spil

E-Learning

Tilgængelighed

IVR- og telefonsystemer

Sociale medier

Streaming

Markedsføring

Døbning og lokalisering

Meditation og wellness

Al tekst til talemodeller

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3