Fritt AI Text till tal

31+ modeller med öppen källkod, 231+ röster, 34+ Språk. Inget konto krävs.

8K+
skapare
30K+
generationer
31+
AI-modeller
231+
röster
0/500 tecken · Sign up for 5,000 per generation → Avgiftsfri
Berätta för dina vänner!

31+ AI röstmodeller

Den mest omfattande samlingen av TTS-modeller med öppen källkod i en och samma plattform

KokoroKokoro Free

Kokoro är en 82 miljoner parameter text-till-tal modell som slår väl över sin viktklass. Trots sin lilla storlek, det producerar anmärkningsvärt naturligt och uttrycksfullt tal. Kokoro stöder flera språk, inklusive engelska, japanska, kinesiska och koreanska med en mängd olika uttrycksfulla röster. Den kör otroligt snabbt - generera ljud nästan 100x snabbare än realtid på en GPU.

Bäst för: Högkvalitativ TTS med minimal latens, strömmande applikationer

Försök gratis

PiperPiper Free

Piper är en lättviktig text-till-tal motor utvecklad av Rhasspy som använder VITS och struphuvud arkitekturer. Den körs helt på CPU, vilket gör den idealisk för kantenheter, hemautomation och applikationer som kräver offline TTS. Med över 100 röster över 30+ språk, Piper levererar naturligt ljudande tal i realtid hastigheter även på en Raspberry Pi 4.

Bäst för: Snabb förhandsvisning, tillgänglighet och inbyggda program

Försök gratis

VITSVITS Free

VITS (Variarational Inference with adversarial learning for end-to-end Text-to-Speech) är en parallell end-to-end TTS-metod som genererar mer naturligt ljud än nuvarande tvåstegsmodeller. Den antar variationell inference förstärkt med normaliserade flöden och en kontraarial träningsprocess, vilket ger en betydande förbättring i naturlighet.

Bäst för: Allmän text-till-tal med naturlig prosody

Försök gratis

MeloTTSMeloTTS Free

Melotts by MyShell.ai är ett flerspråkigt TTS-bibliotek som stöder engelska (amerikanska, brittiska, indiska, australiska), spanska, franska, kinesiska, japanska och koreanska. Det är extremt snabbt, bearbeta text i nära realtid på CPU ensam. Melotts är utformad för produktion och stöder både CPU och GPU inference.

Bäst för: Produktionstillämpningar som behöver snabba, flerspråkiga TTS

Försök gratis

OuteTTSOuteTTS Free

Outetts utökar stora språkmodeller med text-till-tal-funktioner samtidigt som den ursprungliga arkitekturen bevaras. Den stöder flera bakgrundsprogram, inklusive lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, och även webbläsarinferens via Transformers.js. Funktioner noll-shot röst kloning genom högtalarprofiler sparade som JSON.

Bäst för: Kantutbyggnad, webbläsarbaserade TTS-miljöer med låg resursförbrukning

Försök gratis

Pocket TTSPocket TTS Free

Pocket TTS by Kyutai (skapare av Moshi) är en kompakt 100M parameter text-till-tal modell som slår väl över sin vikt. Den körs effektivt på CPU, stöder noll-shot röst kloning från ett enda ljudprov, och producerar naturligt ljudande tal. Den lilla modellstorleken gör den idealisk för kant distribution och låg-resurs miljöer.

Bäst för: Lättviktsutbyggnad, CPU-bara miljöer, snabb röstkloning

Försök gratis

Kitten TTSKitten TTS Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Bäst för: Fast lightweight TTS, edge deployment, low-latency applications

Försök gratis

BarkBark Standard

Transformatorbaserad text-till-audio modell som genererar realistiska tal, musik och ljudeffekter.

Utvecklare: Suno · Licens: MIT

Försök.

Bark SmallBark Small Standard

Lättare version av Bark med snabbare slutledning och lägre minnesanvändning.

Utvecklare: Suno · Licens: MIT

Försök.

CosyVoice 2CosyVoice 2 Standard

Alibaba skalbara strömmande TTS med mänsklig-paritet naturlighet och nära-noll latency.

Utvecklare: Alibaba (Tongyi Lab) · Licens: Apache 2.0

Försök.

Dia TTSDia TTS Standard

Flertaltalsdialogruta generation modell som skapar naturliga samtal mellan talare.

Utvecklare: Nari Labs · Licens: Apache 2.0

Försök.

Parler TTSParler TTS Standard

Beskriv den röst du vill ha i naturligt språk och Parler genererar matchande tal.

Utvecklare: Hugging Face · Licens: Apache 2.0

Försök.

GLM-TTSGLM-TTS Standard

Uppnåter den lägsta felfrekvensen för tecken bland TTS-modeller med öppen källkod.

Utvecklare: Zhipu AI · Licens: GLM-4 License

Försök.

IndexTTS-2IndexTTS-2 Standard

Noll-shot TTS med finkornig känslokontroll och hög uttrycksfullhet.

Utvecklare: Index Team · Licens: Bilibili Model License

Försök.

Spark TTSSpark TTS Standard

Röstkloning TTS med kontrollerbara känslor och talstil via samtal.

Utvecklare: SparkAudio · Licens: CC BY-NC-SA 4.0

Försök.

GPT-SoVITSGPT-SoVITS Standard

Få skott röst kloning TTS som replikerar någon röst från bara 5 sekunder av ljud.

Utvecklare: RVC-Boss · Licens: MIT

Försök.

OrpheusOrpheus Standard

Känslomässig TTS-modell tränad på 100K timmars taldata.

Utvecklare: Canopy Labs · Licens: Llama 3.2 Community

Försök.

Qwen3 TTSQwen3 TTS Standard

Alibabas flerspråkiga TTS med röstkloning, förinställda röster och röstdesign från text.

Utvecklare: Alibaba (Qwen) · Licens: Apache 2.0

Försök.

Chatterbox TurboChatterbox Turbo Standard

Snabbare Chatterbox med sub-200ms latens och paralinguistiska taggar för skratt, hosta och mycket mer.

Utvecklare: Resemble AI · Licens: MIT

Försök.

Dia 2Dia 2 Standard

Strömmande-första konversations-TTS med flertalsdialog och paralinguistiska signaler.

Utvecklare: Nari Labs · Licens: Apache 2.0

Försök.

VoxCPMVoxCPM Standard

Tokenizer-fri TTS som producerar 44,1kHz ljud med sammanhangsmedveten styckekonsistens.

Utvecklare: OpenBMB · Licens: Apache 2.0

Försök.

TADATADA Standard

Noll-hallucination TTS med textakustisk dubbeljustering, 5x snabbare än jämförbara LLM TTS.

Utvecklare: Hume AI · Licens: MIT

Försök.

VibeVoiceVibeVoice Standard

Microsoft modell för lång form multi-högtalare innehåll som podcasts och ljudböcker.

Utvecklare: Microsoft · Licens: MIT

Försök.

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Utvecklare: Alibaba (FunAudioLLM) · Licens: Apache 2.0

Försök.

ChatterboxChatterbox Premium

Toppmodern nollshotad röstkloning med känslokontroll från Resemble AI.

Kvalitet:

Försök.

Tortoise TTSTortoise TTS Premium

Flera rösttext-till-tal fokuserade på kvalitet med autoregressiv arkitektur.

Kvalitet:

Försök.

StyleTTS 2StyleTTS 2 Premium

Mänsklig nivå text-till-tal genom stilspridning och kontradiktorisk träning.

Kvalitet:

Försök.

OpenVoiceOpenVoice Premium

Omedelbar röst kloning med granulär kontroll över stil, känslor och accent.

Kvalitet:

Försök.

Sesame CSMSesame CSM Premium

Konversationstal modell som genererar naturlig dialog med lämplig timing och känslor.

Kvalitet:

Försök.

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Kvalitet:

Försök.

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Kvalitet:

Försök.

CosyVoice 2CosyVoice 2

Alibaba skalbara strömmande TTS med mänsklig-paritet naturlighet och nära-noll latency.

Språk: en, zh, ja, ko, fr, de, it, es

Klonröst

GLM-TTSGLM-TTS

Uppnåter den lägsta felfrekvensen för tecken bland TTS-modeller med öppen källkod.

Språk: en, zh

Klonröst

IndexTTS-2IndexTTS-2

Noll-shot TTS med finkornig känslokontroll och hög uttrycksfullhet.

Språk: en, zh

Klonröst

Spark TTSSpark TTS

Röstkloning TTS med kontrollerbara känslor och talstil via samtal.

Språk: en, zh

Klonröst

GPT-SoVITSGPT-SoVITS

Få skott röst kloning TTS som replikerar någon röst från bara 5 sekunder av ljud.

Språk: en, zh, ja, ko

Klonröst

ChatterboxChatterbox

Toppmodern nollshotad röstkloning med känslokontroll från Resemble AI.

Språk: en

Klonröst

Tortoise TTSTortoise TTS

Flera rösttext-till-tal fokuserade på kvalitet med autoregressiv arkitektur.

Språk: en

Klonröst

OpenVoiceOpenVoice

Omedelbar röst kloning med granulär kontroll över stil, känslor och accent.

Språk: en, zh, ja, ko, fr, de, es, it

Klonröst

Qwen3 TTSQwen3 TTS

Alibabas flerspråkiga TTS med röstkloning, förinställda röster och röstdesign från text.

Språk: en, zh, ja, ko, de, fr, ru, pt, es, it

Klonröst

Chatterbox TurboChatterbox Turbo

Snabbare Chatterbox med sub-200ms latens och paralinguistiska taggar för skratt, hosta och mycket mer.

Språk: en

Klonröst

VoxCPMVoxCPM

Tokenizer-fri TTS som producerar 44,1kHz ljud med sammanhangsmedveten styckekonsistens.

Språk: en, zh

Klonröst

OuteTTSOuteTTS

LLM-baserade TTS som körs på CPU, GPU, eller webbläsare via lama.cpp och Transformers.js.

Språk: en

Klonröst

Pocket TTSPocket TTS

Lätt 100M parameter modell av Kyutai med röst kloning från ett enda prov.

Språk: en, fr

Klonröst

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Språk: en, zh, ja, ko, de, es, fr, it, ru

Klonröst

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Språk: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Klonröst

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Språk: en, zh

Klonröst

Utvecklar-första API

OpenAI-kompatibelt REST API. En endpoint, 22+ modeller. Streaming stöd för realtidsapplikationer.

  • OpenAI-kompatibelt format
  • Strömma TTS för realtidsappar
  • Partibearbetning för stora arbetstillfällen
  • Webhook-anmälningar
Visa API- dokument
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Enkel, transparent prissättning

Börja gratis, skala när du växer.

Avgiftsfri

$0

15 hp

  • Kokoro, Piper, VITS, MeloTTS
  • Gräns för 500 tecken
  • 3 gen/timme (utan konto)
Registrera dig gratis

Uppstart

$9/m m m

500 hp/månad

  • Alla 22+ modeller
  • 100 000 rödingar per generation
  • Röstförslutning
Kom igång
Mest populära

För

$29/m m m

2000 krediter/månad

  • Allt i början
  • API-åtkomst
  • Prioriterad behandling
Hämta Pro

Affärer

$99/m m m

10 000 krediter/månad

  • Allt i Pro
  • Bulk API
  • Prioriterad kö
Få igång affärerna

Visa alla planer inklusive teckenpaket →

Vanliga frågor

TTS.ai är den mest omfattande AI-röstplattform som erbjuder 22+ text-till-tal-modeller, röstkloning, tal-till-text och ljudverktyg. Alla modeller är öppna källkod utan leverantörslås.

Ja! TTS.ai erbjuder gratis text-till-tal med Kokoro, Piper, VITS och Melotts modeller. Inget konto krävs. Registrera dig för att få 15 000 gratis tecken och få tillgång till alla modeller. Betalda planer börjar på $9/månad.

För hastighet, använd Kokoro eller Piper. För kvalitet, prova CosyVoice 2 eller StyleTTS 2. För röstkloning, använd Chatterbox eller GPT-Sovits. För dialog, använd Dia TTS. Prova flera modeller på samma text för att jämföra.

Ja. OpenAI-kompatibelt REST API för TTS, STT, röstkloning och ljudverktyg. Tillgänglig på Pro ($29/mo) och Enterprise ($99/mo) planer. Visa dokumentation på tts.ai/api/.

Röstkvalitet varierar beroende på modell. Premium modeller som CosyVoice 2, StyleTTS 2, och Chatterbox producerar nästan mänskligt kvalitet tal med naturlig intonation och känslor. Gratis modeller som Kokoro erbjuder utmärkt kvalitet för de flesta användningsfall.

TTS.ai stöder 30+ språk över sitt modellbibliotek. Engelska har den bredaste modellen stöd, men modeller som CosyVoice 2 täcker kinesiska, japanska och koreanska; GPT-SovITs hanterar kinesiska, japanska, koreanska och engelska; och Melotts stöder engelska, spanska, franska, kinesiska, japanska och koreanska.

Ja. All behandling sker på våra dedikerade GPU-servrar. Vi lagrar inte din textinmatning eller genererat ljud efter leverans. Uppladdade röstprover för kloning används endast för den aktuella sessionen och behålls inte. Vi delar aldrig dina data med tredje part eller använder dem för att träna modeller.

Ja. Allt ljud som genereras på TTS.ai är ditt att använda kommersiellt, inklusive för YouTube-videor, podcasts, ljudböcker, appar, annonser och produkter. Våra modeller är öppen källkod under tillåtande licenser (MIT, Apache 2.0). Inga royalties eller tilldelning krävs.

TTS.ai genererar ljud i WAV-format som standard för maximal kvalitet. Du kan konvertera till MP3, FLAC, OGG, eller M4A med hjälp av vårt gratis Audio Converter verktyg. APIet stöder att ange önskad utdataformat direkt i begäran.

Ladda upp ett kort ljudprov (så lite som 5 sekunder) av rösten du vill klona, skriv sedan in vilken text som helst för att generera tal i den rösten. Modeller som Chatterbox, GPT-SoVITS och CosyVoice 2 stöder röstkloning. Den klonade rösten fångar ton, accent och talstil.

Gratis modeller (Kokoro, Piper, VITS, MeloTTS) kräver inget konto och kostar noll tecken. Standard modeller (2000 tecken/1K inmatning) inkluderar Bark, CosyVoice 2, F5-TTS, och Dia. Premium modeller (4.000 tecken/1K inmatning) inkluderar OpenVoice, Chatterbox, StyleTTS 2 och Tortoise. Betalda modeller erbjuder i allmänhet högre kvalitet, fler röster, och ytterligare funktioner som röst kloning.

Ja. API stöder batch bearbetning för att konvertera stora volymer text till tal. Skicka flera förfrågningar och hämta resultat asynkront med jobb UUIDs. Enterprise planer ($99/mo) inkluderar prioriterad kö tillgång för snabbare batch bearbetning. Idealisk för ljudbok produktion, kursinnehåll och storskaliga röstövergångsprojekt.
4.1/5 (21)

Vad kan vi förbättra? Din feedback hjälper oss att lösa problem.

Börja använda AI röst idag

Gå med skapare, utvecklare och företag som använder TTS.ai