Fri AI Tekst til tale

31+ open source-modeller 231+ stemmer 34+ sprog. Ingen konto påkrævet.

8K+
skabere
30K+
generationer
31+
AI-modeller
231+
stemmer
Elsker TTS.ai? Fortæl dine venner!

31+ AI-stemmemodeller

Den mest omfattende samling af open source TTS-modeller i én platform

KokoroKokoro Fri

Kokoro er en 82 millioner parameter tekst-til-tale model, der punches langt over sin vægtklasse. På trods af sin lille størrelse, det producerer bemærkelsesværdigt naturlig og udtryksfuld tale. Kokoro understøtter flere sprog, herunder engelsk, japansk, kinesisk og koreansk med en række udtryksfulde stemmer. Det kører utrolig hurtigt ~ genererer lyd næsten 100x hurtigere end realtid på en GPU.

Bedst til: Høj kvalitet TTS med minimal latenstid, streaming applikationer

Prøv gratis

PiperPiper Fri

Piper er en letvægts tekst-til-tale motor udviklet af Rhasspy, der bruger VITS og larynx arkitekturer. Det kører udelukkende på CPU, hvilket gør den ideel til kant enheder, hjem automatisering, og applikationer, der kræver offline TTS. Med over 100 stemmer på tværs af 30 + sprog, Piper leverer naturlig klingende tale ved real-time hastigheder selv på en Raspberry Pi 4.

Bedst til: Hurtige forhåndsvisninger, tilgængelighed og indlejrede applikationer

Prøv gratis

VITSVITS Fri

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) er en parallel end-to-end TTS metode, der genererer mere naturlig klingende lyd end nuværende to-trins modeller. Det vedtager variational inferens augmented med normaliserende flows og en adversarial uddannelsesproces, at opnå en betydelig forbedring i naturlighed.

Bedst til: Generelle formål tekst-til-tale med naturlig prosody

Prøv gratis

MeloTTSMeloTTS Fri

MeloTTS af MyShell.ai er et flersproget TTS-bibliotek, der understøtter engelsk (amerikansk, britisk, indisk, australsk), spansk, fransk, kinesisk, japansk og koreansk. Det er ekstremt hurtigt, behandling tekst på nær real-time hastighed på CPU alene. MeloTTS er designet til produktion brug og understøtter både CPU og GPU inferens.

Bedst til: Produktionsapplikationer, der kræver hurtige, flersprogede TTS

Prøv gratis

OuteTTSOuteTTS Fri

OutetTS udvider store sprogmodeller med tekst-til-tale kapaciteter samtidig bevare den oprindelige arkitektur. Det understøtter flere backends, herunder lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, og endda browser inferens via Transformers.js. Funktioner nul-shot stemme kloning gennem højttalerprofiler gemt som JSON.

Bedst til: Kant implementering, browser-baserede TTS, lav-ressource miljøer

Prøv gratis

Pocket TTSPocket TTS Fri

Pocket TTS af Kyutai (skabere af Moshi) er en kompakt 100M parameter tekst-til-tale model, der punch langt over sin vægt. Det kører effektivt på CPU, understøtter nul-shot stemme kloning fra en enkelt lydprøve, og producerer naturlig klingende tale. Den lille model størrelse gør den ideel til kant implementering og lav-ressource miljøer.

Bedst til: Letvægts implementering, CPU-beskyttede miljøer, hurtig stemmekloning

Prøv gratis

Kitten TTSKitten TTS Fri

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Bedst til: Fast lightweight TTS, edge deployment, low-latency applications

Prøv gratis

BarkBark Standard

Transformer-baseret tekst-til-audio model, der genererer realistisk tale, musik og lydeffekter.

Udvikler: Suno · Licens: MIT

Prøv det.

Bark SmallBark Small Standard

Lettere version af Bark med hurtigere inferens og lavere hukommelsesforbrug.

Udvikler: Suno · Licens: MIT

Prøv det.

CosyVoice 2CosyVoice 2 Standard

Alibaba skalerbar streaming TTS med menneskelig-paritet naturlighed og nær-nul latency.

Udvikler: Alibaba (Tongyi Lab) · Licens: Apache 2.0

Prøv det.

Dia TTSDia TTS Standard

Multi-højttaler dialog generation model, der skaber naturlige samtaler mellem højttalere.

Udvikler: Nari Labs · Licens: Apache 2.0

Prøv det.

Parler TTSParler TTS Standard

Beskriv den stemme, du ønsker i naturligt sprog og Parler genererer matchende tale.

Udvikler: Hugging Face · Licens: Apache 2.0

Prøv det.

GLM-TTSGLM-TTS Standard

Opnår den laveste karakterfejlrate blandt open source TTS-modeller.

Udvikler: Zhipu AI · Licens: GLM-4 License

Prøv det.

IndexTTS-2IndexTTS-2 Standard

Zero-shot TTS med finkornet følelsesmæssig kontrol og høj ekspressivitet.

Udvikler: Index Team · Licens: Bilibili Model License

Prøv det.

Spark TTSSpark TTS Standard

Stemmekloning TTS med styrbar følelse og talestil via prompter.

Udvikler: SparkAudio · Licens: CC BY-NC-SA 4.0

Prøv det.

GPT-SoVITSGPT-SoVITS Standard

Få-shot stemme kloning TTS, der replikerer enhver stemme fra kun 5 sekunder af lyd.

Udvikler: RVC-Boss · Licens: MIT

Prøv det.

OrpheusOrpheus Standard

Human-level emotionel TTS model trænet på 100K timers taledata.

Udvikler: Canopy Labs · Licens: Llama 3.2 Community

Prøv det.

Qwen3 TTSQwen3 TTS Standard

Alibabas flersprogede TTS med stemmekloning, forudindstillede stemmer og stemmedesign fra tekst.

Udvikler: Alibaba (Qwen) · Licens: Apache 2.0

Prøv det.

Chatterbox TurboChatterbox Turbo Standard

Hurtigere Chatterbox med sub-200ms latency og paralsprog tags til grin, hoste og meget mere.

Udvikler: Resemble AI · Licens: MIT

Prøv det.

Dia 2Dia 2 Standard

Streaming-første samtale TTS med multi-højttaler dialog og paralsprog stikord.

Udvikler: Nari Labs · Licens: Apache 2.0

Prøv det.

VoxCPMVoxCPM Standard

Tokenizer-fri TTS producerer 44,1kHz lyd med kontekst-aware afsnit konsistens.

Udvikler: OpenBMB · Licens: Apache 2.0

Prøv det.

TADATADA Standard

Nul-hallucination TTS med tekst-akustisk dobbelt justering, 5x hurtigere end sammenlignelige LLM TTS.

Udvikler: Hume AI · Licens: MIT

Prøv det.

VibeVoiceVibeVoice Standard

Microsoft model til lang-form multi-højttaler indhold som podcasts og lydbøger.

Udvikler: Microsoft · Licens: MIT

Prøv det.

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Udvikler: Alibaba (FunAudioLLM) · Licens: Apache 2.0

Prøv det.

ChatterboxChatterbox Præmie

Den nyeste nul-shot stemmekloning med følelsesmæssig kontrol fra Resemble AI.

Kvalitet:

Prøv det.

Tortoise TTSTortoise TTS Præmie

Multi-stemme tekst-til-tale fokuseret på kvalitet med autoregressiv arkitektur.

Kvalitet:

Prøv det.

StyleTTS 2StyleTTS 2 Præmie

Menneske-niveau tekst-til-tale gennem stil diffusion og adversarial uddannelse.

Kvalitet:

Prøv det.

OpenVoiceOpenVoice Præmie

Øjeblikkelig stemmekloning med granuleret kontrol over stil, følelser og accent.

Kvalitet:

Prøv det.

Sesame CSMSesame CSM Præmie

Konversationel talemodel skaber naturlig dialog med passende timing og følelser.

Kvalitet:

Prøv det.

MOSS-TTSMOSS-TTS Præmie

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Kvalitet:

Prøv det.

MegaTTS3MegaTTS3 Præmie

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Kvalitet:

Prøv det.

CosyVoice 2CosyVoice 2

Alibaba skalerbar streaming TTS med menneskelig-paritet naturlighed og nær-nul latency.

Sprog: en, zh, ja, ko, fr, de, it, es

Klonstemme

GLM-TTSGLM-TTS

Opnår den laveste karakterfejlrate blandt open source TTS-modeller.

Sprog: en, zh

Klonstemme

IndexTTS-2IndexTTS-2

Zero-shot TTS med finkornet følelsesmæssig kontrol og høj ekspressivitet.

Sprog: en, zh

Klonstemme

Spark TTSSpark TTS

Stemmekloning TTS med styrbar følelse og talestil via prompter.

Sprog: en, zh

Klonstemme

GPT-SoVITSGPT-SoVITS

Få-shot stemme kloning TTS, der replikerer enhver stemme fra kun 5 sekunder af lyd.

Sprog: en, zh, ja, ko

Klonstemme

ChatterboxChatterbox

Den nyeste nul-shot stemmekloning med følelsesmæssig kontrol fra Resemble AI.

Sprog: en

Klonstemme

Tortoise TTSTortoise TTS

Multi-stemme tekst-til-tale fokuseret på kvalitet med autoregressiv arkitektur.

Sprog: en

Klonstemme

OpenVoiceOpenVoice

Øjeblikkelig stemmekloning med granuleret kontrol over stil, følelser og accent.

Sprog: en, zh, ja, ko, fr, de, es, it

Klonstemme

Qwen3 TTSQwen3 TTS

Alibabas flersprogede TTS med stemmekloning, forudindstillede stemmer og stemmedesign fra tekst.

Sprog: en, zh, ja, ko, de, fr, ru, pt, es, it

Klonstemme

Chatterbox TurboChatterbox Turbo

Hurtigere Chatterbox med sub-200ms latency og paralsprog tags til grin, hoste og meget mere.

Sprog: en

Klonstemme

VoxCPMVoxCPM

Tokenizer-fri TTS producerer 44,1kHz lyd med kontekst-aware afsnit konsistens.

Sprog: en, zh

Klonstemme

OuteTTSOuteTTS

LLM-baserede TTS, der kører på CPU, GPU, eller browser via lama.cpp og Transformers.js.

Sprog: en

Klonstemme

Pocket TTSPocket TTS

Letvægts 100M parametermodel af Kyutai med stemmekloning fra en enkelt prøve.

Sprog: en, fr

Klonstemme

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Sprog: en, zh, ja, ko, de, es, fr, it, ru

Klonstemme

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Sprog: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Klonstemme

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Sprog: en, zh

Klonstemme

Udvikler- første API

OpenAI-kompatibel REST API. Et endpoint, 22 + modeller. Streaming støtte til real-time applikationer.

  • OpenAI- kompatibelt format
  • Streaming af TTS til real-time apps
  • Batchforarbejdning til store job
  • Webhook- meddelelserName
Vis API Docs
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Enkel, gennemsigtig prissætning

Start gratis. Skalér som du vokser.

Fri

$0

15 kreditter

  • Kokoro, Piper, VITS, MeloTTS
  • 500 tegngrænse
  • 3 gen/time (ingen konto)
Tilmeld dig gratis

Starter

$9/m

500 kreditter/måned

  • Alle 22+ modeller
  • 100.000 tegn pr. generation
  • Stemmekløvning
Kom i gang
Mest populære

Pro

$29/m

2.000 kreditter/måned

  • Alt i starten
  • API- adgang
  • Prioriteret behandling
Hent Pro

Forretninger

$99/m

10. 000 tegn/måned

  • Alt i Pro
  • Bulk API
  • Prioriteret kø
Få forretning

Se alle planer, herunder tegnpakker →

Ofte stillede spørgsmål

TTS.ai er den mest omfattende AI stemme platform, der tilbyder 22 + tekst-til-tale modeller, stemme kloning, tale-til-tekst, og audio værktøjer. Alle modeller er open source uden leverandør lås-in.

Ja! TTS.ai tilbyder gratis tekst-til-tale med Kokoro, Piper, VITS, og MeloTTS modeller. Ingen konto påkrævet. Tilmeld dig for at få 15.000 gratis tegn og få adgang til alle modeller. Betalte planer starter på $9/måned.

For hastighed, brug Kokoro eller Piper. For kvalitet, prøv CosyVoice 2 eller StyletTS 2. For stemmekloning, brug Chatterbox eller GPT-SoVITS. For dialog, bruge Dia TTS. Prøv flere modeller på den samme tekst til at sammenligne.

Ja. OpenAI-kompatibel REST API til TTS, STT, stemme kloning og audio værktøjer. Tilgængelig på Pro ($29/mo) og Enterprise ($ 99/mo) planer. Se dokumentation på tts.ai/api /.

Stemmekvalitet varierer efter model. Premium modeller som CosyVoice 2, StylettTS 2, og Chatterbox producerer næsten menneskelig kvalitet tale med naturlig intonation og følelser. Gratis modeller som Kokoro tilbyder fremragende kvalitet til de fleste use cases.

TTS.ai understøtter 30+ sprog på tværs af sit modelbibliotek. Engelsk har den bredeste modelstøtte, men modeller som CosyVoice 2 dækker kinesisk, japansk og koreansk; GPT-SoVITS håndterer kinesisk, japansk, koreansk og engelsk; og MeloTTS understøtter engelsk, spansk, fransk, kinesisk, japansk og koreansk.

Ja. Al behandling sker på vores dedikerede GPU-servere. Vi gemmer ikke dit tekstinput eller genererede lyd efter levering. Uploadede stemmeprøver til kloning bruges kun til den aktuelle session og opbevares ikke. Vi deler aldrig dine data med tredjeparter eller bruger dem til at træne modeller.

Ja. Al lyd genereret på TTS.ai er din til at bruge kommercielt, herunder for YouTube videoer, podcasts, lydbøger, apps, reklamer og produkter. Vores modeller er open source under permissive licenser (MIT, Apache 2.0). Ingen royalties eller tildeling kræves.

TTS.ai genererer lyd i WAV- format som standard for maksimal kvalitet. Du kan konvertere til MP3, FLAC, OGG, eller M4A ved hjælp af vores gratis Audio Converter værktøj. API understøtter angive din foretrukne output-format direkte i anmodningen.

Upload en kort lydprøve (så lidt som 5 sekunder) af den stemme, du ønsker at klone, og skriv derefter en hvilken som helst tekst til at generere tale i denne stemme. Modeller som Chatterbox, GPT-SoVITS og CosyVoice 2 understøtter stemmekloning. Den klonede stemme fanger tone, accent og talestil.

Gratis modeller (Kokoro, Piper, VITS, MeloTTS) kræver ingen konto og koster nul tegn. Standardmodeller (2.000 tegn/1K input) omfatter Bark, CosyVoice 2, F5-TTS og Dia. Premium modeller (4.000 tegn/1K input) omfatter OpenVoice, Chatterbox, StyletTS 2, og Tortoise. Betalt modeller generelt tilbyder højere kvalitet, flere stemmer, og yderligere funktioner som stemme kloning.

Ja. API understøtter batchbehandling til konvertering af store mængder tekst til tale. Indsend flere anmodninger og hente resultater asynkront ved hjælp af job UUIDS. Enterprise planer ($ 99/mo) omfatter prioriteret kø adgang til hurtigere batch-behandling. Ideel til audiobook produktion, kursusindhold, og storstilede voiceover projekter.
4.1/5 (21)

Hvad kan vi forbedre? Din feedback hjælper os med at løse problemer.

Begynd at bruge AI stemme i dag

Deltag skabere, udviklere og virksomheder ved hjælp af TTS.ai