Fritt AI Text till tal
33+ modeller med öppen källkod, 273+ röster, 33+ Språk. Inget konto krävs.
Allt du behöver för röst AI
30+ verktyg som drivs av AI-modeller med öppen källkod
33+ AI röstmodeller
Den mest omfattande samlingen av TTS-modeller med öppen källkod i en och samma plattform
Kokoro Avgiftsfri
Kokoro är en 82 miljoner parameter text-till-tal modell som slår väl över sin viktklass. Trots sin lilla storlek, det producerar anmärkningsvärt naturligt och uttrycksfullt tal. Kokoro stöder flera språk, inklusive engelska, japanska, kinesiska och koreanska med en mängd olika uttrycksfulla röster. Den kör otroligt snabbt - generera ljud nästan 100x snabbare än realtid på en GPU.
Bäst för: Högkvalitativ TTS med minimal latens, strömmande applikationer
Försök gratis
Piper Avgiftsfri
Piper är en lättviktig text-till-tal motor utvecklad av Rhasspy som använder VITS och struphuvud arkitekturer. Den körs helt på CPU, vilket gör den idealisk för kantenheter, hemautomation och applikationer som kräver offline TTS. Med över 100 röster över 30+ språk, Piper levererar naturligt ljudande tal i realtid hastigheter även på en Raspberry Pi 4.
Bäst för: Snabb förhandsvisning, tillgänglighet och inbyggda program
Försök gratis
VITS Avgiftsfri
VITS (Variarational Inference with adversarial learning for end-to-end Text-to-Speech) är en parallell end-to-end TTS-metod som genererar mer naturligt ljud än nuvarande tvåstegsmodeller. Den antar variationell inference förstärkt med normaliserade flöden och en kontraarial träningsprocess, vilket ger en betydande förbättring i naturlighet.
Bäst för: Allmän text-till-tal med naturlig prosody
Försök gratis
MeloTTS Avgiftsfri
Melotts by MyShell.ai är ett flerspråkigt TTS-bibliotek som stöder engelska (amerikanska, brittiska, indiska, australiska), spanska, franska, kinesiska, japanska och koreanska. Det är extremt snabbt, bearbeta text i nära realtid på CPU ensam. Melotts är utformad för produktion och stöder både CPU och GPU inference.
Bäst för: Produktionstillämpningar som behöver snabba, flerspråkiga TTS
Försök gratis
Kani TTS 2 Avgiftsfri
Kani-TTS-2 by NineNineSix är en ultralätt 400M parametermodell byggd på en Liquid AI LFM2 ryggrad med NVIDIA NanoCodec. Den körs i bara 3 GB VRAM och producerar ~10 sekunder av tal i ~2 sekunder på en A100 (RTF 0.2). Den aktuella offentliga release fartyg en engelsk-endast `kani-tts-2-en" kontrollpunkt och inte exponera högtalar-bäddning krok som behövs för röst kloning — använda Chatterbox / IndexTTS2 / F5-TTS för kloning, eller Kokoro / MeloTTS för icke-engelska.
Bäst för: Snabb engelsk generation på låg-VRAM hårdvara, snabb förhandsvisning
Försök gratis
OuteTTS Avgiftsfri
Outetts utökar stora språkmodeller med text-till-tal-funktioner samtidigt som den ursprungliga arkitekturen bevaras. Den stöder flera bakgrundsprogram, inklusive lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, och även webbläsarinferens via Transformers.js. Funktioner noll-shot röst kloning genom högtalarprofiler sparade som JSON.
Bäst för: Kantutbyggnad, webbläsarbaserade TTS-miljöer med låg resursförbrukning
Försök gratis
Pocket TTS Avgiftsfri
Pocket TTS by Kyutai (skapare av Moshi) är en kompakt 100M parameter text-till-tal modell som slår väl över sin vikt. Den körs effektivt på CPU, stöder noll-shot röst kloning från ett enda ljudprov, och producerar naturligt ljudande tal. Den lilla modellstorleken gör den idealisk för kant distribution och låg-resurs miljöer.
Bäst för: Lättviktsutbyggnad, CPU-bara miljöer, snabb röstkloning
Försök gratis
Kitten TTS Avgiftsfri
Kitten TTS by KittenML är en ultralätt text-till-tal modell byggd på ONNX. Med varianter från 15M till 80M parametrar (25-80 MB på disk), ger det hög kvalitet röstsyntes på CPU utan att kräva en GPU. Funktioner 8 inbyggda röster, justerbar talhastighet, och inbyggd text förbehandling för siffror, valutor, och enheter. Idealisk för kant distribution och låg-latent program.
Bäst för: Snabb lättviktig TTS, kantutbyggnad, låg latensapplikationer
Försök gratis
Ming-Omni TTS Avgiftsfri
Ming-omni-tts-0.5B genom inclusionAI är en kompakt omni-modal talmodell byggd på BailingMM tät ryggrad med en Patch-by-Patch flöde-matchande ljudavkodare. Levererar 44,1kHz utgång (nära CD-kvalitet), stöder noll-shot röst kloning från en 3+ andra referens, och inkluderar inbyggd känsla / dialekt / BGM kontroll via JSON instruktioner. Utmärkt stabilitet - 0.83% WER på kinesiska riktmärken.
Bäst för: Högfidelitet tvåspråkig berättande, känslor-kontrollerad röst agerar, kinesisk ljudbok innehåll
Försök gratis
MOSS-TTS Nano Avgiftsfri
MOSS-TTS-Nano-100M är OpenMOSS kompakta 100M-parameter variant av MOSS-TTS familj, dela delay-transformer arkitektur. Handlar 8B modellens toppkvalitet för ~80x mindre vikter och dramatiskt lägre per begäran VRAM, vilket gör den lämplig för fri-tier och hög-genomströmning. Samma 20-språks räckvidd.
Bäst för: Frigående TTS, produktion med hög volym, interaktiv användning med låg latens
Försök gratis
Bark Standardvärde
Transformatorbaserad text-till-audio modell som genererar realistiska tal, musik och ljudeffekter.
Utvecklare: Suno · Licens: MIT
Försök.
Bark Small Standardvärde
Lättare version av Bark med snabbare slutledning och lägre minnesanvändning.
Utvecklare: Suno · Licens: MIT
Försök.
CosyVoice 2 Standardvärde
Alibaba skalbara strömmande TTS med mänsklig-paritet naturlighet och nära-noll latency.
Utvecklare: Alibaba (Tongyi Lab) · Licens: Apache 2.0
Försök.
Dia TTS Standardvärde
Flertaltalsdialogruta generation modell som skapar naturliga samtal mellan talare.
Utvecklare: Nari Labs · Licens: Apache 2.0
Försök.
Parler TTS Standardvärde
Beskriv den röst du vill ha i naturligt språk och Parler genererar matchande tal.
Utvecklare: Hugging Face · Licens: Apache 2.0
Försök.
IndexTTS-2 Standardvärde
Noll-shot TTS med finkornig känslokontroll och hög uttrycksfullhet.
Utvecklare: Index Team · Licens: Bilibili Model License
Försök.
Spark TTS Standardvärde
Röstkloning TTS med kontrollerbara känslor och talstil via samtal.
Utvecklare: SparkAudio · Licens: CC BY-NC-SA 4.0
Försök.
GPT-SoVITS Standardvärde
Få skott röst kloning TTS som replikerar någon röst från bara 5 sekunder av ljud.
Utvecklare: RVC-Boss · Licens: MIT
Försök.
Orpheus Standardvärde
Känslomässig TTS-modell tränad på 100K timmars taldata.
Utvecklare: Canopy Labs · Licens: Llama 3.2 Community
Försök.
Qwen3 TTS Standardvärde
Alibabas flerspråkiga TTS med förinställda röster och röstdesign från text.
Utvecklare: Alibaba (Qwen) · Licens: Apache 2.0
Försök.
VieNeu-TTS-v2 Standardvärde
Vietnamesiska + engelska kod-switching TTS med 7 förinställda röster och noll-shot röst kloning. CPU-enbart, ingen GPU krävs.
Utvecklare: Phạm Nguyễn Ngọc Bảo · Licens: Apache 2.0
Försök.
Chatterbox Turbo Standardvärde
Snabbare Chatterbox med sub-200ms latens och paralinguistiska taggar för skratt, hosta och mycket mer.
Utvecklare: Resemble AI · Licens: MIT
Försök.
VoxCPM Standardvärde
Tokenizer-fri TTS som producerar 44,1kHz ljud med sammanhangsmedveten styckekonsistens.
Utvecklare: OpenBMB · Licens: Apache 2.0
Försök.
VibeVoice Standardvärde
Microsoft modell för lång form multi-högtalare innehåll som podcasts och ljudböcker.
Utvecklare: Microsoft · Licens: MIT
Försök.
CosyVoice3 Standardvärde
Nästa generations flerspråkiga TTS med bi-streaming, känslokontroll, och noll-shot röst kloning.
Utvecklare: Alibaba (FunAudioLLM) · Licens: Apache 2.0
Försök.
NAMAA Saudi TTS Standardvärde
Först öppen saudiarabisk-arabisk TTS. Native saudisk dialekt med Chatterbox-kvalitet röst kloning.
Utvecklare: NAMAA Space · Licens: MIT
Försök.
Darwin TTS Standardvärde
Cross-modal Qwen3-TTS variant med FFN vikter blandas från Qwen3-1.7B språkmodell för skarpare flerspråkig kloning.
Utvecklare: FINAL-Bench · Licens: Apache 2.0
Försök.
MOSS-TTSD Standardvärde
Flerhögtalardialog fortsättning modell — generera podcast-stil samtal med upp till 5 högtalare och 60 minuter sammanhängande ljud.
Utvecklare: OpenMOSS · Licens: Apache 2.0
Försök.
CosyVoice 2
Alibaba skalbara strömmande TTS med mänsklig-paritet naturlighet och nära-noll latency.
Språk: en, zh, ja, ko, fr, de, it, es
Klonröst
IndexTTS-2
Noll-shot TTS med finkornig känslokontroll och hög uttrycksfullhet.
Språk: en, zh
Klonröst
GPT-SoVITS
Få skott röst kloning TTS som replikerar någon röst från bara 5 sekunder av ljud.
Språk: en, zh, ja, ko
Klonröst
Chatterbox
Toppmodern nollshotad röstkloning med känslokontroll från Resemble AI.
Språk: en
Klonröst
Tortoise TTS
Flera rösttext-till-tal fokuserade på kvalitet med autoregressiv arkitektur.
Språk: en
Klonröst
OpenVoice
Omedelbar röst kloning med granulär kontroll över stil, känslor och accent.
Språk: en, zh, ja, ko, fr, es
Klonröst
VieNeu-TTS-v2
Vietnamesiska + engelska kod-switching TTS med 7 förinställda röster och noll-shot röst kloning. CPU-enbart, ingen GPU krävs.
Språk: vi, en
Klonröst
Chatterbox Turbo
Snabbare Chatterbox med sub-200ms latens och paralinguistiska taggar för skratt, hosta och mycket mer.
Språk: en
Klonröst
VoxCPM
Tokenizer-fri TTS som producerar 44,1kHz ljud med sammanhangsmedveten styckekonsistens.
Språk: en, zh
Klonröst
OuteTTS
LLM-baserade TTS som körs på CPU, GPU, eller webbläsare via lama.cpp och Transformers.js.
Språk: en
Klonröst
Pocket TTS
Lätt 100M parameter modell av Kyutai med röst kloning från ett enda prov.
Språk: en, fr
Klonröst
CosyVoice3
Nästa generations flerspråkiga TTS med bi-streaming, känslokontroll, och noll-shot röst kloning.
Språk: en, zh, ja, ko, de, es, fr, it, ru
Klonröst
NAMAA Saudi TTS
Först öppen saudiarabisk-arabisk TTS. Native saudisk dialekt med Chatterbox-kvalitet röst kloning.
Språk: ar
Klonröst
Darwin TTS
Cross-modal Qwen3-TTS variant med FFN vikter blandas från Qwen3-1.7B språkmodell för skarpare flerspråkig kloning.
Språk: en, ko, ja, zh
Klonröst
MOSS-TTSD
Flerhögtalardialog fortsättning modell — generera podcast-stil samtal med upp till 5 högtalare och 60 minuter sammanhängande ljud.
Språk: en, zh
Klonröst
Ming-Omni TTS
Kompakt 0,5B omni-modal talmodell från inklusionAI med hög trohet 44,1kHz utgång och noll-shot röst kloning.
Språk: en, zh
Klonröst
MOSS-TTS Nano
Tiny 100M MOSS-TTS variant – samma arkitektur, 80x mindre, fri-tier latency.
Språk: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
KlonröstUtvecklar-första API
OpenAI-kompatibelt REST API. En endpoint, 22+ modeller. Streaming stöd för realtidsapplikationer.
- OpenAI-kompatibelt format
- Strömma TTS för realtidsappar
- Partibearbetning för stora arbetstillfällen
- Webhook-anmälningar
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Enkel, transparent prissättning
Börja gratis, skala när du växer.
Avgiftsfri
15 000 tecken + 5 000 per dag
- 7 gratis modeller inklusive Kokoro
- 5000 rödingar per generation
- API-åtkomst ingår
Uppstart
500 hp/månad
- Alla 22+ modeller
- 100 000 rödingar per generation
- Röstförslutning
För
2000 krediter/månad
- Allt i början
- API-åtkomst
- Prioriterad behandling
Vanliga frågor
Vad kan vi förbättra? Din feedback hjälper oss att lösa problem.
Börja använda AI röst idag
Gå med skapare, utvecklare och företag som använder TTS.ai