Fritt AI Text till tal

33+ modeller med öppen källkod, 273+ röster, 33+ Språk. Inget konto krävs.

17K+
skapare
70K+
generationer
33+
AI-modeller
273+
röster
0/500 tecken · Anmäl dig till 5000 per generation → Avgiftsfri
Berätta för dina vänner!

33+ AI röstmodeller

Den mest omfattande samlingen av TTS-modeller med öppen källkod i en och samma plattform

KokoroKokoro Avgiftsfri

Kokoro är en 82 miljoner parameter text-till-tal modell som slår väl över sin viktklass. Trots sin lilla storlek, det producerar anmärkningsvärt naturligt och uttrycksfullt tal. Kokoro stöder flera språk, inklusive engelska, japanska, kinesiska och koreanska med en mängd olika uttrycksfulla röster. Den kör otroligt snabbt - generera ljud nästan 100x snabbare än realtid på en GPU.

Bäst för: Högkvalitativ TTS med minimal latens, strömmande applikationer

Försök gratis

PiperPiper Avgiftsfri

Piper är en lättviktig text-till-tal motor utvecklad av Rhasspy som använder VITS och struphuvud arkitekturer. Den körs helt på CPU, vilket gör den idealisk för kantenheter, hemautomation och applikationer som kräver offline TTS. Med över 100 röster över 30+ språk, Piper levererar naturligt ljudande tal i realtid hastigheter även på en Raspberry Pi 4.

Bäst för: Snabb förhandsvisning, tillgänglighet och inbyggda program

Försök gratis

VITSVITS Avgiftsfri

VITS (Variarational Inference with adversarial learning for end-to-end Text-to-Speech) är en parallell end-to-end TTS-metod som genererar mer naturligt ljud än nuvarande tvåstegsmodeller. Den antar variationell inference förstärkt med normaliserade flöden och en kontraarial träningsprocess, vilket ger en betydande förbättring i naturlighet.

Bäst för: Allmän text-till-tal med naturlig prosody

Försök gratis

MeloTTSMeloTTS Avgiftsfri

Melotts by MyShell.ai är ett flerspråkigt TTS-bibliotek som stöder engelska (amerikanska, brittiska, indiska, australiska), spanska, franska, kinesiska, japanska och koreanska. Det är extremt snabbt, bearbeta text i nära realtid på CPU ensam. Melotts är utformad för produktion och stöder både CPU och GPU inference.

Bäst för: Produktionstillämpningar som behöver snabba, flerspråkiga TTS

Försök gratis

Kani TTS 2Kani TTS 2 Avgiftsfri

Kani-TTS-2 by NineNineSix är en ultralätt 400M parametermodell byggd på en Liquid AI LFM2 ryggrad med NVIDIA NanoCodec. Den körs i bara 3 GB VRAM och producerar ~10 sekunder av tal i ~2 sekunder på en A100 (RTF 0.2). Den aktuella offentliga release fartyg en engelsk-endast `kani-tts-2-en" kontrollpunkt och inte exponera högtalar-bäddning krok som behövs för röst kloning — använda Chatterbox / IndexTTS2 / F5-TTS för kloning, eller Kokoro / MeloTTS för icke-engelska.

Bäst för: Snabb engelsk generation på låg-VRAM hårdvara, snabb förhandsvisning

Försök gratis

OuteTTSOuteTTS Avgiftsfri

Outetts utökar stora språkmodeller med text-till-tal-funktioner samtidigt som den ursprungliga arkitekturen bevaras. Den stöder flera bakgrundsprogram, inklusive lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, och även webbläsarinferens via Transformers.js. Funktioner noll-shot röst kloning genom högtalarprofiler sparade som JSON.

Bäst för: Kantutbyggnad, webbläsarbaserade TTS-miljöer med låg resursförbrukning

Försök gratis

Pocket TTSPocket TTS Avgiftsfri

Pocket TTS by Kyutai (skapare av Moshi) är en kompakt 100M parameter text-till-tal modell som slår väl över sin vikt. Den körs effektivt på CPU, stöder noll-shot röst kloning från ett enda ljudprov, och producerar naturligt ljudande tal. Den lilla modellstorleken gör den idealisk för kant distribution och låg-resurs miljöer.

Bäst för: Lättviktsutbyggnad, CPU-bara miljöer, snabb röstkloning

Försök gratis

Kitten TTSKitten TTS Avgiftsfri

Kitten TTS by KittenML är en ultralätt text-till-tal modell byggd på ONNX. Med varianter från 15M till 80M parametrar (25-80 MB på disk), ger det hög kvalitet röstsyntes på CPU utan att kräva en GPU. Funktioner 8 inbyggda röster, justerbar talhastighet, och inbyggd text förbehandling för siffror, valutor, och enheter. Idealisk för kant distribution och låg-latent program.

Bäst för: Snabb lättviktig TTS, kantutbyggnad, låg latensapplikationer

Försök gratis

Ming-Omni TTSMing-Omni TTS Avgiftsfri

Ming-omni-tts-0.5B genom inclusionAI är en kompakt omni-modal talmodell byggd på BailingMM tät ryggrad med en Patch-by-Patch flöde-matchande ljudavkodare. Levererar 44,1kHz utgång (nära CD-kvalitet), stöder noll-shot röst kloning från en 3+ andra referens, och inkluderar inbyggd känsla / dialekt / BGM kontroll via JSON instruktioner. Utmärkt stabilitet - 0.83% WER på kinesiska riktmärken.

Bäst för: Högfidelitet tvåspråkig berättande, känslor-kontrollerad röst agerar, kinesisk ljudbok innehåll

Försök gratis

MOSS-TTS NanoMOSS-TTS Nano Avgiftsfri

MOSS-TTS-Nano-100M är OpenMOSS kompakta 100M-parameter variant av MOSS-TTS familj, dela delay-transformer arkitektur. Handlar 8B modellens toppkvalitet för ~80x mindre vikter och dramatiskt lägre per begäran VRAM, vilket gör den lämplig för fri-tier och hög-genomströmning. Samma 20-språks räckvidd.

Bäst för: Frigående TTS, produktion med hög volym, interaktiv användning med låg latens

Försök gratis

BarkBark Standardvärde

Transformatorbaserad text-till-audio modell som genererar realistiska tal, musik och ljudeffekter.

Utvecklare: Suno · Licens: MIT

Försök.

Bark SmallBark Small Standardvärde

Lättare version av Bark med snabbare slutledning och lägre minnesanvändning.

Utvecklare: Suno · Licens: MIT

Försök.

CosyVoice 2CosyVoice 2 Standardvärde

Alibaba skalbara strömmande TTS med mänsklig-paritet naturlighet och nära-noll latency.

Utvecklare: Alibaba (Tongyi Lab) · Licens: Apache 2.0

Försök.

Dia TTSDia TTS Standardvärde

Flertaltalsdialogruta generation modell som skapar naturliga samtal mellan talare.

Utvecklare: Nari Labs · Licens: Apache 2.0

Försök.

Parler TTSParler TTS Standardvärde

Beskriv den röst du vill ha i naturligt språk och Parler genererar matchande tal.

Utvecklare: Hugging Face · Licens: Apache 2.0

Försök.

IndexTTS-2IndexTTS-2 Standardvärde

Noll-shot TTS med finkornig känslokontroll och hög uttrycksfullhet.

Utvecklare: Index Team · Licens: Bilibili Model License

Försök.

Spark TTSSpark TTS Standardvärde

Röstkloning TTS med kontrollerbara känslor och talstil via samtal.

Utvecklare: SparkAudio · Licens: CC BY-NC-SA 4.0

Försök.

GPT-SoVITSGPT-SoVITS Standardvärde

Få skott röst kloning TTS som replikerar någon röst från bara 5 sekunder av ljud.

Utvecklare: RVC-Boss · Licens: MIT

Försök.

OrpheusOrpheus Standardvärde

Känslomässig TTS-modell tränad på 100K timmars taldata.

Utvecklare: Canopy Labs · Licens: Llama 3.2 Community

Försök.

Qwen3 TTSQwen3 TTS Standardvärde

Alibabas flerspråkiga TTS med förinställda röster och röstdesign från text.

Utvecklare: Alibaba (Qwen) · Licens: Apache 2.0

Försök.

VieNeu-TTS-v2VieNeu-TTS-v2 Standardvärde

Vietnamesiska + engelska kod-switching TTS med 7 förinställda röster och noll-shot röst kloning. CPU-enbart, ingen GPU krävs.

Utvecklare: Phạm Nguyễn Ngọc Bảo · Licens: Apache 2.0

Försök.

Chatterbox TurboChatterbox Turbo Standardvärde

Snabbare Chatterbox med sub-200ms latens och paralinguistiska taggar för skratt, hosta och mycket mer.

Utvecklare: Resemble AI · Licens: MIT

Försök.

VoxCPMVoxCPM Standardvärde

Tokenizer-fri TTS som producerar 44,1kHz ljud med sammanhangsmedveten styckekonsistens.

Utvecklare: OpenBMB · Licens: Apache 2.0

Försök.

VibeVoiceVibeVoice Standardvärde

Microsoft modell för lång form multi-högtalare innehåll som podcasts och ljudböcker.

Utvecklare: Microsoft · Licens: MIT

Försök.

CosyVoice3CosyVoice3 Standardvärde

Nästa generations flerspråkiga TTS med bi-streaming, känslokontroll, och noll-shot röst kloning.

Utvecklare: Alibaba (FunAudioLLM) · Licens: Apache 2.0

Försök.

NAMAA Saudi TTSNAMAA Saudi TTS Standardvärde

Först öppen saudiarabisk-arabisk TTS. Native saudisk dialekt med Chatterbox-kvalitet röst kloning.

Utvecklare: NAMAA Space · Licens: MIT

Försök.

Darwin TTSDarwin TTS Standardvärde

Cross-modal Qwen3-TTS variant med FFN vikter blandas från Qwen3-1.7B språkmodell för skarpare flerspråkig kloning.

Utvecklare: FINAL-Bench · Licens: Apache 2.0

Försök.

MOSS-TTSDMOSS-TTSD Standardvärde

Flerhögtalardialog fortsättning modell — generera podcast-stil samtal med upp till 5 högtalare och 60 minuter sammanhängande ljud.

Utvecklare: OpenMOSS · Licens: Apache 2.0

Försök.

ChatterboxChatterbox Bidrag

Toppmodern nollshotad röstkloning med känslokontroll från Resemble AI.

Kvalitet:

Försök.

Tortoise TTSTortoise TTS Bidrag

Flera rösttext-till-tal fokuserade på kvalitet med autoregressiv arkitektur.

Kvalitet:

Försök.

StyleTTS 2StyleTTS 2 Bidrag

Mänsklig nivå text-till-tal genom stilspridning och kontradiktorisk träning.

Kvalitet:

Försök.

OpenVoiceOpenVoice Bidrag

Omedelbar röst kloning med granulär kontroll över stil, känslor och accent.

Kvalitet:

Försök.

Sesame CSMSesame CSM Bidrag

Konversationstal modell som genererar naturlig dialog med lämplig timing och känslor.

Kvalitet:

Försök.

CosyVoice 2CosyVoice 2

Alibaba skalbara strömmande TTS med mänsklig-paritet naturlighet och nära-noll latency.

Språk: en, zh, ja, ko, fr, de, it, es

Klonröst

IndexTTS-2IndexTTS-2

Noll-shot TTS med finkornig känslokontroll och hög uttrycksfullhet.

Språk: en, zh

Klonröst

Spark TTSSpark TTS

Röstkloning TTS med kontrollerbara känslor och talstil via samtal.

Språk: en, zh

Klonröst

GPT-SoVITSGPT-SoVITS

Få skott röst kloning TTS som replikerar någon röst från bara 5 sekunder av ljud.

Språk: en, zh, ja, ko

Klonröst

ChatterboxChatterbox

Toppmodern nollshotad röstkloning med känslokontroll från Resemble AI.

Språk: en

Klonröst

Tortoise TTSTortoise TTS

Flera rösttext-till-tal fokuserade på kvalitet med autoregressiv arkitektur.

Språk: en

Klonröst

OpenVoiceOpenVoice

Omedelbar röst kloning med granulär kontroll över stil, känslor och accent.

Språk: en, zh, ja, ko, fr, es

Klonröst

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnamesiska + engelska kod-switching TTS med 7 förinställda röster och noll-shot röst kloning. CPU-enbart, ingen GPU krävs.

Språk: vi, en

Klonröst

Chatterbox TurboChatterbox Turbo

Snabbare Chatterbox med sub-200ms latens och paralinguistiska taggar för skratt, hosta och mycket mer.

Språk: en

Klonröst

VoxCPMVoxCPM

Tokenizer-fri TTS som producerar 44,1kHz ljud med sammanhangsmedveten styckekonsistens.

Språk: en, zh

Klonröst

OuteTTSOuteTTS

LLM-baserade TTS som körs på CPU, GPU, eller webbläsare via lama.cpp och Transformers.js.

Språk: en

Klonröst

Pocket TTSPocket TTS

Lätt 100M parameter modell av Kyutai med röst kloning från ett enda prov.

Språk: en, fr

Klonröst

CosyVoice3CosyVoice3

Nästa generations flerspråkiga TTS med bi-streaming, känslokontroll, och noll-shot röst kloning.

Språk: en, zh, ja, ko, de, es, fr, it, ru

Klonröst

NAMAA Saudi TTSNAMAA Saudi TTS

Först öppen saudiarabisk-arabisk TTS. Native saudisk dialekt med Chatterbox-kvalitet röst kloning.

Språk: ar

Klonröst

Darwin TTSDarwin TTS

Cross-modal Qwen3-TTS variant med FFN vikter blandas från Qwen3-1.7B språkmodell för skarpare flerspråkig kloning.

Språk: en, ko, ja, zh

Klonröst

MOSS-TTSDMOSS-TTSD

Flerhögtalardialog fortsättning modell — generera podcast-stil samtal med upp till 5 högtalare och 60 minuter sammanhängande ljud.

Språk: en, zh

Klonröst

Ming-Omni TTSMing-Omni TTS

Kompakt 0,5B omni-modal talmodell från inklusionAI med hög trohet 44,1kHz utgång och noll-shot röst kloning.

Språk: en, zh

Klonröst

MOSS-TTS NanoMOSS-TTS Nano

Tiny 100M MOSS-TTS variant – samma arkitektur, 80x mindre, fri-tier latency.

Språk: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Klonröst

Utvecklar-första API

OpenAI-kompatibelt REST API. En endpoint, 22+ modeller. Streaming stöd för realtidsapplikationer.

  • OpenAI-kompatibelt format
  • Strömma TTS för realtidsappar
  • Partibearbetning för stora arbetstillfällen
  • Webhook-anmälningar
Visa API- dokument
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Enkel, transparent prissättning

Börja gratis, skala när du växer.

Avgiftsfri

$0

15 000 tecken + 5 000 per dag

  • 7 gratis modeller inklusive Kokoro
  • 5000 rödingar per generation
  • API-åtkomst ingår
Registrera dig gratis

Uppstart

$9/m m m

500 hp/månad

  • Alla 22+ modeller
  • 100 000 rödingar per generation
  • Röstförslutning
Kom igång
Mest populära

För

$29/m m m

2000 krediter/månad

  • Allt i början
  • API-åtkomst
  • Prioriterad behandling
Hämta Pro

Affärer

$99/m m m

10 000 krediter/månad

  • Allt i Pro
  • Bulk API
  • Prioriterad kö
Få igång affärerna

Visa alla planer inklusive teckenpaket →

Vanliga frågor

TTS.ai är den mest omfattande AI-röstplattform som erbjuder 22+ text-till-tal-modeller, röstkloning, tal-till-text och ljudverktyg. Alla modeller är öppna källkod utan leverantörslås.

Ja! TTS.ai erbjuder gratis text-till-tal med Kokoro, Piper, VITS och Melotts modeller. Inget konto krävs. Registrera dig för att få 15 000 gratis tecken och få tillgång till alla modeller. Betalda planer börjar på $9/månad.

För hastighet, använd Kokoro eller Piper. För kvalitet, prova CosyVoice 2 eller StyleTTS 2. För röstkloning, använd Chatterbox eller GPT-Sovits. För dialog, använd Dia TTS. Prova flera modeller på samma text för att jämföra.

Ja. OpenAI-kompatibelt REST API för TTS, STT, röstkloning och ljudverktyg. Ingår i varje plan inklusive gratis, med hastighetsbegränsningar som skala efter nivå (Gratis: 10 rek/min, Lite: 20, Starter: 30, Pro: 60, Företag: 300). Visa dokumentation på tts.ai/api/.

Röstkvalitet varierar beroende på modell. Premium modeller som CosyVoice 2, StyleTTS 2, och Chatterbox producerar nästan mänskligt kvalitet tal med naturlig intonation och känslor. Gratis modeller som Kokoro erbjuder utmärkt kvalitet för de flesta användningsfall.

TTS.ai stöder 30+ språk över sitt modellbibliotek. Engelska har den bredaste modellen stöd, men modeller som CosyVoice 2 täcker kinesiska, japanska och koreanska; GPT-SovITs hanterar kinesiska, japanska, koreanska och engelska; och Melotts stöder engelska, spanska, franska, kinesiska, japanska och koreanska.

Ja. All behandling sker på våra dedikerade GPU-servrar. Vi lagrar inte din textinmatning eller genererat ljud efter leverans. Uppladdade röstprover för kloning används endast för den aktuella sessionen och behålls inte. Vi delar aldrig dina data med tredje part eller använder dem för att träna modeller.

Ja. Allt ljud som genereras på TTS.ai är ditt att använda kommersiellt, inklusive för YouTube-videor, podcasts, ljudböcker, appar, annonser och produkter. Våra modeller är öppen källkod under tillåtande licenser (MIT, Apache 2.0). Inga royalties eller tilldelning krävs.

TTS.ai genererar ljud i WAV-format som standard för maximal kvalitet. Du kan konvertera till MP3, FLAC, OGG, eller M4A med hjälp av vårt gratis Audio Converter verktyg. APIet stöder att ange önskad utdataformat direkt i begäran.

Ladda upp ett kort ljudprov (så lite som 5 sekunder) av rösten du vill klona, skriv sedan in vilken text som helst för att generera tal i den rösten. Modeller som Chatterbox, GPT-SoVITS och CosyVoice 2 stöder röstkloning. Den klonade rösten fångar ton, accent och talstil.

Gratis modeller (Kokoro, Piper, VITS, MeloTTS) kräver inget konto och kostar noll tecken. Standard modeller (2000 tecken/1K inmatning) inkluderar Bark, CosyVoice 2, F5-TTS, och Dia. Premium modeller (4.000 tecken/1K inmatning) inkluderar OpenVoice, Chatterbox, StyleTTS 2 och Tortoise. Betalda modeller erbjuder i allmänhet högre kvalitet, fler röster, och ytterligare funktioner som röst kloning.

Ja. API stöder batch bearbetning för att konvertera stora volymer text till tal. Skicka in flera förfrågningar och hämta resultat asynkront med jobb UUIDs. Affärsplanen ($99/mo) och högre inkluderar prioriterad köåtkomst för snabbare batch bearbetning. Idealisk för ljudbok produktion, kursinnehåll och storskaliga röstövergångsprojekt.
4.1/5 (42)

Vad kan vi förbättra? Din feedback hjälper oss att lösa problem.

Börja använda AI röst idag

Gå med skapare, utvecklare och företag som använder TTS.ai