AI text pro mluvení

Převést text na přirozeně znějící řeč s open-source AI modely. Volné použití, žádný účet vyžaduje.

0/500 znaky
Zaregistrovat se pro 5000 znaků limit

Zabalte svůj text do značek SSML pro přesné ovládání:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Přidat emoce markery ovlivnit dodání (model podpora se liší):

Definovat vlastní výslovnosti (slovo = výslovnost):

-12 +12
0.5x 2.0x
Zdarma s Piper, VITS, MeloTTS
Zde se objeví váš vygenerovaný zvuk. Vyberte model, zadejte text a klikněte na Generovat.
Audio generované úspěšně
Stáhnout zvuk Odkaz vyprší v 24 hodin
Miluju TTS.ai? Řekni to svým přátelům!

Podrobnosti o modelu

IndexTTS-2

IndexTTS-2

Standard

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

Vývojář: Index Team
Licence: Bilibili Model License
Rychlost Medium
Kvalita:
jazyky 2 jazyky
VRAM 4GB
Klonování hlasu Podporované
Vlastnosti:
Emotion control Zero-shot Emotion vectors Expressive speech Fine-grained control
Nejlepší pro:: Emotionally expressive content, audiobooks, virtual assistants

Tipy pro lepší výsledky

  • Použít správné interpunkce pro přirozené pauzy a intonaci
  • Vyhláskovat čísla a zkratky pro jasnější výslovnost
  • Přidat čárky pro vytvoření krátkých pauz mezi frázemi
  • Použít elipsu (...) pro delší dramatické pauzy
  • Zkuste Kokoro nebo CosyVoice 2 pro nejpřirozenější výsledky
  • Použít Dia pro dialog více reproduktorů a podcastový obsah

Použití znaků

Úroveň Náklady na 1K chary
Volné 0 kreditů (neomezené)
Standardní 2 kreditů / 1K znaků
Prémie 4 kreditů / 1K znaků

Jak AI text do řeči funguje

Generovat profesionální-kvalitní hlas ve třech jednoduchých krocích. Nevyžadují technické znalosti.

Krok 1

Zadejte svůj text

Zadejte, vložte nebo nahrajte text, který chcete převést do řeči. Podporuje až 5000 znaků na generaci pro přihlášené uživatele. Použijte prostý text nebo přidejte SSML tagy pro pokročilou kontrolu nad výslovností, pauzy a důraz.

Krok 2

Zvolte model a hlas

Vyberte si z 20+ AI modelů napříč třemi úrovněmi. Vyberte si hlas, který odpovídá vašemu obsahu, vyberte cílový jazyk, nastavte rychlost přehrávání od 0,5x do 2,0x a vyberte preferovaný výstupní formát (MP3, WAV, OGG nebo FLAC).

Krok 3

Generovat & stahování

Klepněte na tlačítko Generovat a váš zvuk je připraven za sekundy. Náhled s vestavěným přehrávačem, stáhnout ve zvoleném formátu, nebo zkopírovat sdílený odkaz. Použijte API pro dávkové zpracování a integraci do vašeho pracovního postupu.

Text k případům využití řeči

AI-powered text-to-speech transformuje, jak lidé vytvářet, konzumovat a komunikovat s audio obsahu v desítkách odvětví.

Všechny texty pro mluvené modely

Podrobné specifikace pro každý model AI dostupný na TTS.ai. Porovnejte kvalitu, rychlost, jazykovou podporu a funkce, abyste našli perfektní model pro váš projekt.

KokoroKokoro

Free

Kokoro je 82 milionů parametru text-to-speech model, který punčuje daleko nad jeho hmotnost třídy. Navzdory své malé velikosti, produkuje pozoruhodně přírodní a expresivní řeč. Kokoro podporuje více jazyků včetně angličtiny, japonštiny, čínštiny a korejštiny s řadou expresivních hlasů. To běží neuvěřitelně rychle, generování zvuku téměř 100x rychleji než v reálném čase na GPU.

Vývojář::
Hexgrad
Licence::
Apache 2.0
Rychlost:
Fast
Kvalita::
jazyky:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
VRAM:
1.5GB
Klonování hlasu:
Ne.
Náklady na 1K chary:
Volné
82M parametry Ultrarychlostní Výrazné hlasy Vícejazyčné Podpora streamování
Nejlepší pro:: Vysoce kvalitní TTS s minimální latence, streaming aplikace

PiperPiper

Free

Piper je lehký text-to-speech motor vyvinutý Rhasspy, který používá VITS a hrtan architektury. To běží zcela na CPU, což je ideální pro hrany zařízení, domácí automatizace, a aplikace vyžadující offline TTS. S více než 100 hlasy v 30 + jazyky, Piper poskytuje přírodní-zpívající řeč při rychlostech v reálném čase i na Malina Pi 4.

Vývojář::
Rhasspy
Licence::
MIT
Rychlost:
Fast
Kvalita::
jazyky:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
VRAM:
0 (CPU only)
Klonování hlasu:
Ne.
Náklady na 1K chary:
Volné
CPU-přátelský Offline schopné 100+ hlasů 30+ jazyky Podpora SSML
Nejlepší pro:: Rychlé náhledy, dostupnost a vložené aplikace

VITSVITS

Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) je paralelní metoda TTS ke konci, která generuje více přirozeného zvuku než současné dvoustupňové modely. Přijímá variační inferenci rozšířenou o normalizační toky a protivní výcvikový proces, který dosahuje významného zlepšení přirozenosti.

Vývojář::
Jaehyeon Kim et al.
Licence::
MIT
Rychlost:
Fast
Kvalita::
jazyky:
en, zh, ja, ko
VRAM:
1GB
Klonování hlasu:
Ne.
Náklady na 1K chary:
Volné
Syntéza ke konci Přírodní prosodie Rychlý závěr Více reproduktorů
Nejlepší pro:: Univerzální text-to-speech s přírodní prosodou

MeloTTSMeloTTS

Free

MeloTTS by MyShell.ai je vícejazyčná TTS knihovna podporující angličtinu (American, British, Indian, Australan), španělštinu, francouzštinu, čínštinu, japonštinu a korejštinu. Je to velmi rychlé, zpracování textu při rychlosti téměř v reálném čase na procesoru sám. MeloTTS je určen pro výrobu a podporuje jak CPU a GPU inference.

Vývojář::
MyShell.ai
Licence::
MIT
Rychlost:
Fast
Kvalita::
jazyky:
en, es, fr, zh, ja, ko
VRAM:
0.5GB (GPU optional)
Klonování hlasu:
Ne.
Náklady na 1K chary:
Volné
CPU-optimalizováno Vícejazyčné Více přízvuků Připraveno na výrobu Nízká latence
Nejlepší pro:: Výrobní aplikace potřebné rychle, vícejazyčné TTS

BarkBark

Standard

Bark by Suno je model na bázi transformeru, který může generovat vysoce realistické, vícejazyčné řeči, stejně jako jiné zvuky jako hudba, zvuk pozadí, a zvukové efekty. Může produkovat nonverbální komunikace, jako je smích, vzdych a pláč. Bark podporuje více než 100 předvoleb reproduktorů a 13+ jazyků.

Vývojář::
Suno
Licence::
MIT
Rychlost:
Slow
Kvalita::
jazyky:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
5GB
Klonování hlasu:
Ne.
Náklady na 1K chary:
2x
Účinky zvuku Smích/povzdech Hudební generace 100+ reproduktory Vícejazyčné
Nejlepší pro:: Kreativní audio obsah, audioknihy s emocemi, zvukové efekty

Bark SmallBark Small

Standard

Bark Small je destilovaná verze modelu Bark, která obchoduje s určitou kvalitou zvuku pro výrazně rychlejší inference rychlosti a nižší požadavky na paměť. Udržuje Bark schopnost vytvářet řeč s emocemi, smích, a více jazyků.

Vývojář::
Suno
Licence::
MIT
Rychlost:
Medium
Kvalita::
jazyky:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
2GB
Klonování hlasu:
Ne.
Náklady na 1K chary:
2x
Lehká Rychlejší než plný kůra Citová řeč Vícejazyčné
Nejlepší pro:: Rychlý kreativní zvuk, když je plný Bark příliš pomalý

CosyVoice 2CosyVoice 2

Standard

CosyVoice 2 od Alibaba je Tongyi Lab dosahuje lidské-srovnatelné kvality řeči s extrémně nízkou latencí, což je ideální pro aplikace v reálném čase. Používá konečný skalární kvantizační přístup pro streaming syntézy a podporuje nulovací-shot hlas klonování, křížovou syntézu, a jemně zakořeněné emoční kontroly. To překonává mnoho komerčních TTS systémů v subjektivních hodnocení.

Vývojář::
Alibaba (Tongyi Lab)
Licence::
Apache 2.0
Rychlost:
Medium
Kvalita::
jazyky:
en, zh, ja, ko, fr, de, it, es
VRAM:
4GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
2x
Streamování Zero-shot klonování Cross-lingving Kontrola emocí Lidská parita
Nejlepší pro:: Aplikace v reálném čase, streaming TTS, hlasové asistenty

Dia TTSDia TTS

Standard

Dia by Nari Labs je parametr 1.6B text-to-speech model určený speciálně pro generování multi-speaker dialog. To může vytvářet přirozeně znějící rozhovory mezi dvěma reproduktory s vhodným zatáčení, prosody a emocionální výraz. Dia je ideální pro tvorbu podcast-styl obsahu, audiokniha dialogů, a interaktivní konverzační AI.

Vývojář::
Nari Labs
Licence::
Apache 2.0
Rychlost:
Medium
Kvalita::
jazyky:
en
VRAM:
4GB
Klonování hlasu:
Ne.
Náklady na 1K chary:
2x
Víceproudový reproduktor Vygenerování dialogu Přirozené zatáčení Emocionální výraz Parametry 1.6B
Nejlepší pro:: Podcasty, audioknihové dialogy, konverzační obsah

Parler TTSParler TTS

Standard

Parler TTS je text-to-speech model, který používá přírodní jazyk hlasové popisy pro kontrolu generované řeči. Místo výběru z přednastavených hlasů, popisujete hlas, který chcete (např. "teplý ženský hlas s mírným britským přízvukem, mluví pomalu a jasně") a Parler generuje řeč odpovídající tomuto popisu. To je jedinečně flexibilní pro kreativní aplikace.

Vývojář::
Hugging Face
Licence::
Apache 2.0
Rychlost:
Medium
Kvalita::
jazyky:
en
VRAM:
4GB
Klonování hlasu:
Ne.
Náklady na 1K chary:
2x
Popis hlasu Kontrola přirozeného jazyka Flexibilní tvorba hlasu Žádné přednastavené hlasy nepotřebují
Nejlepší pro:: Kreativní aplikace, kde potřebujete vlastní hlasové charakteristiky

GLM-TTSGLM-TTS

Standard

GLM-TTS od Zhipu AI je systém text-to-speech postavený na architektuře Llama s flow matching. Dosáhne nejnižší chybovost znaku mezi open-source TTS modely, což znamená, že produkuje nejpřesnější výslovnost. GLM-TTS podporuje angličtinu a čínštinu s hlasovým klonováním ze 3-10 sekund audio vzorků.

Vývojář::
Zhipu AI
Licence::
GLM-4 License
Rychlost:
Medium
Kvalita::
jazyky:
en, zh
VRAM:
4GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
2x
Nejnižší míra chyb Klonování hlasu Shoda toků Přírodní prosodie
Nejlepší pro:: Aplikace vyžadující maximální přesnost výslovnosti

IndexTTS-2IndexTTS-2

Standard

IndexTTS-2 je pokročilý systém text-to-speech, který vyniká při syntéze nulovacího hlasu s jemnou emocionální kontrolou. Může generovat řeč konkrétními emocionálními tóny jako je šťastný, smutný, naštvaný, nebo strach, aniž by vyžadovala údaje o specifickém tréninku emocí. Model používá emocionální vektory přesně k ovládání emocionálního výrazu generované řeči.

Vývojář::
Index Team
Licence::
Bilibili Model License
Rychlost:
Medium
Kvalita::
jazyky:
en, zh
VRAM:
4GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
2x
Kontrola emocí Zero-shot Emoční vektory Výrazná řeč Kontrola jemného zrnění
Nejlepší pro:: Citově expresivní obsah, audioknihy, virtuální asistenti

Spark TTSSpark TTS

Standard

Spark TTS by SparkAudio je model text-to-speech, který kombinuje klonování hlasu s kontrolovatelnou emocí a stylem mluvení. Pomocí pouhých 5 sekund referenčního zvuku může naklonovat hlas a pak generovat řeč s různými emocemi, rychlostmi a styly při zachování klonované hlasové identity. Spark TTS používá rychle založený řídicí systém.

Vývojář::
SparkAudio
Licence::
CC BY-NC-SA 4.0
Rychlost:
Medium
Kvalita::
jazyky:
en, zh
VRAM:
4GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
2x
Klonování hlasu Kontrola emocí Kontrola stylu Prompt-based 5-sekundový klonování
Nejlepší pro:: Vytvoření obsahu s klonovanými hlasy a emocionální kontrolou

GPT-SoVITSGPT-SoVITS

Standard

GPT-SoviTS kombinuje modeling jazyka ve stylu GPT se Sovits (Singing Voice Inference prostřednictvím překladu a syntézy) pro velmi málo střílející hlasové klonování. S pouhými 5 sekundami referenčního zvuku může přesně naklonovat hlas a vytvářet nový projev při zachování unikátních vlastností řečníka. Vyniká jak při syntéze mluvení, tak i zpěvu hlasu.

Vývojář::
RVC-Boss
Licence::
MIT
Rychlost:
Slow
Kvalita::
jazyky:
en, zh, ja, ko
VRAM:
6GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
2x
5-sekundový klonování Zpívající hlas Párkrát se učím. Vysoká věrnost Cross-lingving
Nejlepší pro:: Hlasové klonování, syntéza zpěvu, replikace hlasu tvůrce obsahu

OrpheusOrpheus

Standard

Orfeus je velkoplošný text-to-speech model, který dosahuje lidského-úroveň emocionálního výrazu. Vycvičený na více než 100.000 hodin různých řečových dat, vyniká při vytváření řeči s přirozenými emocemi, důraz, a mluvící styly. Orfeus může produkovat řeč, která je prakticky nerozlišitelný z lidských nahrávek.

Vývojář::
Canopy Labs
Licence::
Llama 3.2 Community
Rychlost:
Medium
Kvalita::
jazyky:
en
VRAM:
4GB
Klonování hlasu:
Ne.
Náklady na 1K chary:
2x
Lidské emoce 100K hodin tréninku Přírodní důraz Výrazná řeč
Nejlepší pro:: Vysoce kvalitní emocionální řeč, audioknihy, hlasové hraní

ChatterboxChatterbox

Premium

Chatterbox od Resemble AI je špičkový model klonování hlasu s nulovým výstřelem. Může replikovat jakýkoliv hlas z jediného zvukového vzorku s pozoruhodnou přesností, zachycuje nejen timbre, ale také mluvící styl a emocionální nuance. Chatterbox také obsahuje jemně zakořeněné emoční ovládání, což vám umožní upravit emoční tón generované řeči nezávisle na hlasové identitě.

Vývojář::
Resemble AI
Licence::
MIT
Rychlost:
Medium
Kvalita::
jazyky:
en
VRAM:
4GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
4x
Zero-shot klonování Kontrola emocí Vysoká věrnost Přenos stylu Klonování jednotlivých vzorků
Nejlepší pro:: Profesionální klonování hlasu s emocionální kontrolou, tvorba obsahu

Tortoise TTSTortoise TTS

Premium

Tortoise TTS je autoregresivní multi-hlasový text-to-slovní systém, který upřednostňuje kvalitu zvuku přes rychlost. Využívá architekturu inspirovanou DALL-E k vytvoření vysoce přirozené řeči s vynikající prosody a podobnost reproduktorů. Zatímco pomalejší než mnoho alternativ, Tortoise produkuje některé z nejrealističtější syntetické řeči dostupné v open-source ekosystému.

Vývojář::
James Betker
Licence::
Apache 2.0
Rychlost:
Slow
Kvalita::
jazyky:
en
VRAM:
8GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
4x
Nejvyšší kvalita Vícehlasové Architektura DALL-E Klonování hlasu Autoregresivní
Nejlepší pro:: Audio knihy, prémiový obsah, kvalitní první aplikace

StyleTTS 2StyleTTS 2

Premium

Styl TTS 2 dosahuje syntézy TTS na lidské úrovni kombinací stylové difúze s protivním tréninkem pomocí velkých jazykových modelů. Vytváří nejpřirozenější zvukovou řeč mezi jednohlasnými modely, soupeřícími s lidskými nahrávkami. Styl TTS 2 používá modelování na bázi difuzního stylu, aby zachytil celou škálu variace lidské řeči.

Vývojář::
Columbia University
Licence::
MIT
Rychlost:
Medium
Kvalita::
jazyky:
en
VRAM:
4GB
Klonování hlasu:
Ne.
Náklady na 1K chary:
4x
Lidská úroveň Rozptýlení stylu Advokátní výcvik Přirozená odchylka Vysoká věrnost
Nejlepší pro:: Syntéza jednoho reproduktoru kvality studia, profesionální vyprávění

OpenVoiceOpenVoice

Premium

OpenVoice by MyShell.ai umožňuje okamžité klonování hlasu s granulovanou kontrolou nad hlasovým stylem, emocí, akcentem, rytmem, pauzami a intonací. Může naklonovat hlas z krátkého zvukového klipu a generovat řeč ve více jazycích při zachování identity reproduktoru. OpenVoice také funguje jako hlasový převodník, který umožňuje proměnu hlasu v reálném čase.

Vývojář::
MyShell.ai / MIT
Licence::
MIT
Rychlost:
Medium
Kvalita::
jazyky:
en, zh, ja, ko, fr, de, es, it
VRAM:
4GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
4x
Okamžité klonování Převod hlasu Kontrola emocí Kontrola zrychlení Vícejazyčné
Nejlepší pro:: Hlasové klonování s jemným stylem ovládání, převod hlasu

Qwen3 TTSQwen3 TTS

Standard

Qwen3-TTS je 1,7 miliardy parametru text-to-speech modelu od Alibaby Qwen týmu. Podporuje tři režimy: přednastavené hlasy s emoční kontrolou (9 reproduktorů), hlas klonování z pouhých 3 sekundy zvuku, a jedinečný hlasový design režimu, kde popisujete hlas, který chcete v přirozeném jazyce. To zahrnuje 10 jazyků s vysokou expresivitou a přírodní prosodie.

Vývojář::
Alibaba (Qwen)
Licence::
Apache 2.0
Rychlost:
Medium
Kvalita::
jazyky:
en, zh, ja, ko, de, fr, ru, pt, es, it
VRAM:
7GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
2x
Klonování hlasu 9 přednastavených hlasů Návrh hlasu z textu Kontrola emocí 10 jazyků
Nejlepší pro:: Vícejazyčný obsah s klonováním hlasu nebo vlastním designem hlasu

Sesame CSMSesame CSM

Premium

Sezamový CSM (konverzační Speech Model) je 1 miliardový parametrový model určený speciálně pro generování konverzační řeči. Modeluje přirozené vzorce lidské konverzace včetně časování, zpětné reakce, emocionální reakce a konverzační tok. CSM vytváří zvuk, který zní spíše jako přirozený lidský rozhovor než syntetická řeč.

Vývojář::
Sesame
Licence::
Apache 2.0
Rychlost:
Slow
Kvalita::
jazyky:
en
VRAM:
8GB
Klonování hlasu:
Ne.
Náklady na 1K chary:
4x
Konverzační Přírodní načasování Přijímací řízení Backchannel 1B parametry
Nejlepší pro:: Asistenti AI, chatboti, konverzační aplikace AI

Chatterbox TurboChatterbox Turbo

Standard

Chatterbox Turbo by Resemble AI je upgrade 350M parametru do Chatterboxu, která poskytuje až 6x rychlost v reálném čase s pod-200ms latence. Podporuje paralinguistické značky jako [smích], [kašel] a [smích] přímo v textu. Obsahuje Perth vodoznak na všech generovaných audio pro provenience sledování.

Vývojář::
Resemble AI
Licence::
MIT
Rychlost:
Fast
Kvalita::
jazyky:
en
VRAM:
2GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
2x
Pod 200ms latence Paralinguistické značky 6x v reálném čase Klonování hlasu Vodoznak
Nejlepší pro:: Hlasové agenty v reálném čase, výrazná řeč s přirozenými zvuky

ZonosZonos

Standard

Zonos v0.1 by Zyphra je parametrový model 1.6B s jemnou emocí ovládání s posuvníky pro štěstí, hněv, smutek, strach a překvapení. Nabízí jak Transformer, tak i novou variantu SSM (State-space model). Vycvičen na 200K+ hodin vícejazyčného projevu s nula-shot hlasového klonování z 10-30 sekund referenčního zvuku.

Vývojář::
Zyphra
Licence::
Apache 2.0
Rychlost:
Medium
Kvalita::
jazyky:
en, ja, zh, fr, de
VRAM:
6GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
2x
Kontrola emocí Klonování hlasu Architektura SSM Vícejazyčné Ovládání sklíčka/třídy
Nejlepší pro:: Expresivní řeč s emocionální kontrolou, hlasový design studio

Dia 2Dia 2

Standard

Dia2 od Nari Labs je streaming-první upgrade na Dia, k dispozici v 1B a 2B parametr varianty. Začíná syntetizovat zvuk z prvních několika žetonů, což je ideální pro hlasové agenty v reálném čase a řeč-to-peech potrubí. Podporuje multi-reaker dialog s [S1]/[S2] tagy a paralinguistické tágy jako (smích), (kašle).

Vývojář::
Nari Labs
Licence::
Apache 2.0
Rychlost:
Fast
Kvalita::
jazyky:
en
VRAM:
4GB
Klonování hlasu:
Ne.
Náklady na 1K chary:
2x
Streamovací výstup Víceproudový reproduktor Nízká latence Paralinguistické narážky Až 2 min výstup
Nejlepší pro:: Hlasové agenty v reálném čase, tvorba dialogů, streamování aplikací

VoxCPMVoxCPM

Standard

VoxCPM 1.5 od OpenBMB je nový tokenizer-free TTS model, který pracuje v nepřetržitém prostoru spíše než diskrétní žetony. Vytváří vysokou věrnost 44.1kHz audio, podporuje nulovací hlas klonování od 3-10 sekund, a udržuje konzistence napříč odstavci. Cross-language klonování umožňuje aplikovat anglický hlas na čínskou řeč a naopak.

Vývojář::
OpenBMB
Licence::
Apache 2.0
Rychlost:
Fast
Kvalita::
jazyky:
en, zh
VRAM:
4GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
2x
44.1kHz audio Bez tokenizéru Cross-lingual kloning Kontextově-uvědomělé LORA jemné ladění
Nejlepší pro:: Vysoce věrnostní audio, audioknihy, obsah dlouhé formy s konzistencí hlasu

OuteTTSOuteTTS

Free

OuteTTS rozšiřuje velké jazykové modely s funkcemi text-to-speech při zachování původní architektury. Podporuje více backendů včetně lama.cpp (CPU/GPU), objímání transformerů obličeje, ExLlamaV2, VLLM, a dokonce i inference prohlížeče přes Transformers.js. Funkce klonování hlasu s nulovým výstřelem přes reproduktorové profily uložené jako JSON.

Vývojář::
OuteAI
Licence::
Apache 2.0
Rychlost:
Fast
Kvalita::
jazyky:
en
VRAM:
2GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
Volné
Závěr CPU Závěr prohlížeče Klonování hlasu Více backendů Profily reproduktorů
Nejlepší pro:: Zavádění hran, TTS na bázi prohlížeče, prostředí s nízkým zdrojem

TADATADA

Standard

TADA (Text-Akustic Dual Alignment) od Hume AI je průkopnický model TTS, který eliminuje halucinace prostřednictvím nové duální seřizovací architektury postavené na Llamě 3.2. K dispozici v 1B (anglický) a 3B (vícejazyčných) variantách, TADA dosahuje RTF 0.09 5x rychleji než srovnatelné modely TTS založené na LLM. Podporuje až 700 sekund audio kontextu a produkuje emocionálně expresivní řeč s nulovými halucinacemi na standardních referenčních hodnotách.

Vývojář::
Hume AI
Licence::
MIT
Rychlost:
Fast
Kvalita::
jazyky:
en
VRAM:
5GB
Klonování hlasu:
Ne.
Náklady na 1K chary:
2x
Žádné halucinace 5x rychlejší než LLM TTS Emocionální výraz 700s audio kontext Dvojité zarovnání
Nejlepší pro:: Vysoce kvalitní bez halucinací řeč, emocionální výraz, rychlý závěr

VibeVoiceVibeVoice

Standard

VibeVoice by Microsoft přichází ve dvou variantách: 1,5B model pro obsah dlouhé formy (až 90 minut, 4 reproduktory) a Realtime 0.5B model pro streaming s ~200ms první audio latence. Varianta 1.5B vyniká na podcasty a audioknihy s konzistence reproduktoru přes dlouhé pasáže. Poznámka: Microsoft odstranil TTS kód z úložiště a generoval audio obsahuje zvukové AI disclaimers.

Vývojář::
Microsoft
Licence::
MIT
Rychlost:
Fast
Kvalita::
jazyky:
en, zh
VRAM:
4GB
Klonování hlasu:
Ne.
Náklady na 1K chary:
2x
Víceproudový reproduktor Do 90 min Generace podcastu Konzistence řečníka 200ms streaming
Nejlepší pro:: Podcasty, audioknihy, dlouhý multi-reproduktorový obsah

Pocket TTSPocket TTS

Free

Kapesní TTS od Kyutai (tvůrci Moshi) je kompaktní 100M parametr text-to-speech modelu, který prorazí vysoko nad svou váhu. To běží efektivně na CPU, podporuje nulovací hlasové klonování z jediného zvukového vzorku, a produkuje přirozený-zvučení řeči. Malá velikost modelu je ideální pro nasazení hran a nízko-zdrojové prostředí.

Vývojář::
Kyutai
Licence::
MIT
Rychlost:
Fast
Kvalita::
jazyky:
en, fr
VRAM:
1GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
Volné
100M parametry Závěr CPU Klonování hlasu Klonování jednotlivých vzorků Připravené hrany
Nejlepší pro:: Lehké nasazení, prostředí pouze CPU, rychlé klonování hlasu

Kitten TTSKitten TTS

Free

Kitten TTS by KittenML je ultralehký text-to-speech model postavený na ONNX. S variantami od 15M do 80M parametry (25-80 MB na disku), poskytuje vysoce kvalitní hlasovou syntézu na procesoru bez nutnosti GPU. Vlastnosti 8 vestavěných hlasů, nastavitelná rychlost řeči a vestavěný text předzpracování pro čísla, měny a jednotky. Ideální pro nasazení hran a nízkonákladové aplikace.

Vývojář::
KittenML
Licence::
Apache 2.0
Rychlost:
Fast
Kvalita::
jazyky:
en
VRAM:
0GB
Klonování hlasu:
Ne.
Náklady na 1K chary:
Volné
CPU-only inference Pod 80MB velikost modelu 8 vestavěných hlasů Ovládání rychlosti ONNX na bázi Výstup 24kHz
Nejlepší pro:: Rychlé lehké TTS, nasazení hran, nízkonákladové aplikace

CosyVoice3CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

Vývojář::
Alibaba (FunAudioLLM)
Licence::
Apache 2.0
Rychlost:
Fast
Kvalita::
jazyky:
en, zh, ja, ko, de, es, fr, it, ru
VRAM:
4GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
2x
Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following
Nejlepší pro:: Multilingual production TTS, real-time applications, voice cloning

MOSS-TTSMOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

Vývojář::
OpenMOSS
Licence::
Apache 2.0
Rychlost:
Medium
Kvalita::
jazyky:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
VRAM:
16GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
4x
Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching
Nejlepší pro:: Audiobooks, long-form content, multilingual production

MegaTTS3MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

Vývojář::
ByteDance
Licence::
Apache 2.0
Rychlost:
Slow
Kvalita::
jazyky:
en, zh
VRAM:
8GB
Klonování hlasu:
Ano.
Náklady na 1K chary:
4x
Voice cloning Adjustable similarity Cross-lingual
Nejlepší pro:: High-fidelity voice cloning

KokoroKokoro

Volné

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Vývojář::
Hexgrad
Licence::
Apache 2.0
Rychlost:
Fast
Kvalita::
jazyky: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
Nejlepší pro:: High-quality TTS with minimal latency, streaming applications

PiperPiper

Volné

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Vývojář::
Rhasspy
Licence::
MIT
Rychlost:
Fast
Kvalita::
jazyky: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
Nejlepší pro:: Quick previews, accessibility, and embedded applications

VITSVITS

Volné

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Vývojář::
Jaehyeon Kim et al.
Licence::
MIT
Rychlost:
Fast
Kvalita::
jazyky: en, zh, ja, ko
Nejlepší pro:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

Volné

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Vývojář::
MyShell.ai
Licence::
MIT
Rychlost:
Fast
Kvalita::
jazyky: en, es, fr, zh, ja, ko
Nejlepší pro:: Production applications needing fast, multilingual TTS

OuteTTSOuteTTS

Volné

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Vývojář::
OuteAI
Licence::
Apache 2.0
Rychlost:
Fast
Kvalita::
jazyky: en
Nejlepší pro:: Edge deployment, browser-based TTS, low-resource environments

Pocket TTSPocket TTS

Volné

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

Vývojář::
Kyutai
Licence::
MIT
Rychlost:
Fast
Kvalita::
jazyky: en, fr
Nejlepší pro:: Lightweight deployment, CPU-only environments, quick voice cloning

Kitten TTSKitten TTS

Volné

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Vývojář::
KittenML
Licence::
Apache 2.0
Rychlost:
Fast
Kvalita::
jazyky: en
Nejlepší pro:: Fast lightweight TTS, edge deployment, low-latency applications

BarkBark

Standardní

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

Vývojář::
Suno
Licence::
MIT
Rychlost:
Slow
Kvalita::
jazyky:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Klonování hlasu:
Ne.
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
Nejlepší pro:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

Standardní

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

Vývojář::
Suno
Licence::
MIT
Rychlost:
Medium
Kvalita::
jazyky:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Klonování hlasu:
Ne.
LightweightFaster than full BarkEmotional speechMultilingual
Nejlepší pro:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

Standardní

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

Vývojář::
Alibaba (Tongyi Lab)
Licence::
Apache 2.0
Rychlost:
Medium
Kvalita::
jazyky:
en, zh, ja, ko, fr, de, it, es
Klonování hlasu:
Ano.
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
Nejlepší pro:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

Standardní

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

Vývojář::
Nari Labs
Licence::
Apache 2.0
Rychlost:
Medium
Kvalita::
jazyky:
en
Klonování hlasu:
Ne.
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
Nejlepší pro:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

Standardní

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

Vývojář::
Hugging Face
Licence::
Apache 2.0
Rychlost:
Medium
Kvalita::
jazyky:
en
Klonování hlasu:
Ne.
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
Nejlepší pro:: Creative applications where you need custom voice characteristics

GLM-TTSGLM-TTS

Standardní

GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

Vývojář::
Zhipu AI
Licence::
GLM-4 License
Rychlost:
Medium
Kvalita::
jazyky:
en, zh
Klonování hlasu:
Ano.
Lowest error rateVoice cloningFlow matchingNatural prosody
Nejlepší pro:: Applications requiring maximum pronunciation accuracy

IndexTTS-2IndexTTS-2

Standardní

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

Vývojář::
Index Team
Licence::
Bilibili Model License
Rychlost:
Medium
Kvalita::
jazyky:
en, zh
Klonování hlasu:
Ano.
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
Nejlepší pro:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

Standardní

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

Vývojář::
SparkAudio
Licence::
CC BY-NC-SA 4.0
Rychlost:
Medium
Kvalita::
jazyky:
en, zh
Klonování hlasu:
Ano.
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
Nejlepší pro:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

Standardní

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

Vývojář::
RVC-Boss
Licence::
MIT
Rychlost:
Slow
Kvalita::
jazyky:
en, zh, ja, ko
Klonování hlasu:
Ano.
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
Nejlepší pro:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

Standardní

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

Vývojář::
Canopy Labs
Licence::
Llama 3.2 Community
Rychlost:
Medium
Kvalita::
jazyky:
en
Klonování hlasu:
Ne.
Human-level emotion100K hours trainingNatural emphasisExpressive speech
Nejlepší pro:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

Standardní

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

Vývojář::
Alibaba (Qwen)
Licence::
Apache 2.0
Rychlost:
Medium
Kvalita::
jazyky:
en, zh, ja, ko, de, fr, ru, pt, es, it
Klonování hlasu:
Ano.
Voice cloning9 preset voicesVoice design from textEmotion control10 languages
Nejlepší pro:: Multilingual content with voice cloning or custom voice design

Chatterbox TurboChatterbox Turbo

Standardní

Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.

Vývojář::
Resemble AI
Licence::
MIT
Rychlost:
Fast
Kvalita::
jazyky:
en
Klonování hlasu:
Ano.
Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking
Nejlepší pro:: Real-time voice agents, expressive speech with natural sounds

ZonosZonos

Standardní

Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.

Vývojář::
Zyphra
Licence::
Apache 2.0
Rychlost:
Medium
Kvalita::
jazyky:
en, ja, zh, fr, de
Klonování hlasu:
Ano.
Emotion controlVoice cloningSSM architectureMultilingualPitch/rate control
Nejlepší pro:: Expressive speech with emotion control, voice design studio

Dia 2Dia 2

Standardní

Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).

Vývojář::
Nari Labs
Licence::
Apache 2.0
Rychlost:
Fast
Kvalita::
jazyky:
en
Klonování hlasu:
Ne.
Streaming outputMulti-speakerLow latencyParalinguistic cuesUp to 2 min output
Nejlepší pro:: Real-time voice agents, dialogue generation, streaming applications

VoxCPMVoxCPM

Standardní

VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

Vývojář::
OpenBMB
Licence::
Apache 2.0
Rychlost:
Fast
Kvalita::
jazyky:
en, zh
Klonování hlasu:
Ano.
44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning
Nejlepší pro:: High-fidelity audio, audiobooks, long-form content with voice consistency

TADATADA

Standardní

TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.

Vývojář::
Hume AI
Licence::
MIT
Rychlost:
Fast
Kvalita::
jazyky:
en
Klonování hlasu:
Ne.
Zero hallucinations5x faster than LLM TTSEmotional expression700s audio contextDual alignment
Nejlepší pro:: High-quality hallucination-free speech, emotional expression, fast inference

VibeVoiceVibeVoice

Standardní

VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.

Vývojář::
Microsoft
Licence::
MIT
Rychlost:
Fast
Kvalita::
jazyky:
en, zh
Klonování hlasu:
Ne.
Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency
Nejlepší pro:: Podcasts, dialogues, long-form narration, multi-speaker content

CosyVoice3CosyVoice3

Standardní

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

Vývojář::
Alibaba (FunAudioLLM)
Licence::
Apache 2.0
Rychlost:
Fast
Kvalita::
jazyky:
en, zh, ja, ko, de, es, fr, it, ru
Klonování hlasu:
Ano.
Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following
Nejlepší pro:: Multilingual production TTS, real-time applications, voice cloning

ChatterboxChatterbox

Prémie

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

Vývojář::
Resemble AI
Licence::
MIT
Rychlost:
Medium
Kvalita::
jazyky:
en
Klonování hlasu:
Ano.
VRAM:
4GB
Náklady na 1K chary:
4x
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
Nejlepší pro:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

Prémie

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

Vývojář::
James Betker
Licence::
Apache 2.0
Rychlost:
Slow
Kvalita::
jazyky:
en
Klonování hlasu:
Ano.
VRAM:
8GB
Náklady na 1K chary:
4x
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
Nejlepší pro:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

Prémie

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

Vývojář::
Columbia University
Licence::
MIT
Rychlost:
Medium
Kvalita::
jazyky:
en
Klonování hlasu:
Ne.
VRAM:
4GB
Náklady na 1K chary:
4x
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
Nejlepší pro:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

Prémie

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

Vývojář::
MyShell.ai / MIT
Licence::
MIT
Rychlost:
Medium
Kvalita::
jazyky:
en, zh, ja, ko, fr, de, es, it
Klonování hlasu:
Ano.
VRAM:
4GB
Náklady na 1K chary:
4x
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
Nejlepší pro:: Voice cloning with fine-grained style control, voice conversion

Sesame CSMSesame CSM

Prémie

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

Vývojář::
Sesame
Licence::
Apache 2.0
Rychlost:
Slow
Kvalita::
jazyky:
en
Klonování hlasu:
Ne.
VRAM:
8GB
Náklady na 1K chary:
4x
ConversationalNatural timingTurn-takingBackchannel1B parameters
Nejlepší pro:: AI assistants, chatbots, conversational AI applications

MOSS-TTSMOSS-TTS

Prémie

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

Vývojář::
OpenMOSS
Licence::
Apache 2.0
Rychlost:
Medium
Kvalita::
jazyky:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
Klonování hlasu:
Ano.
VRAM:
16GB
Náklady na 1K chary:
4x
Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching
Nejlepší pro:: Audiobooks, long-form content, multilingual production

MegaTTS3MegaTTS3

Prémie

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

Vývojář::
ByteDance
Licence::
Apache 2.0
Rychlost:
Slow
Kvalita::
jazyky:
en, zh
Klonování hlasu:
Ano.
VRAM:
8GB
Náklady na 1K chary:
4x
Voice cloningAdjustable similarityCross-lingual
Nejlepší pro:: High-fidelity voice cloning

Porovnávací tabulka modelu

Vzor Vývojář: Úroveň Kvalita: Rychlost jazyky Klonování hlasu VRAM Licence: úvěry
Kokoro Hexgrad Free Fast 11 1.5GB Apache 2.0 Volné Použití
Piper Rhasspy Free Fast 31 0 (CPU only) MIT Volné Použití
VITS Jaehyeon Kim et al. Free Fast 4 1GB MIT Volné Použití
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT Volné Použití
Bark Suno Standard Slow 13 5GB MIT 2 Použití
Bark Small Suno Standard Medium 13 2GB MIT 2 Použití
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 Použití
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 Použití
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 Použití
GLM-TTS Zhipu AI Standard Medium 2 4GB GLM-4 License 2 Použití
IndexTTS-2 Index Team Standard Medium 2 4GB Bilibili Model License 2 Použití
Spark TTS SparkAudio Standard Medium 2 4GB CC BY-NC-SA 4.0 2 Použití
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 Použití
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 Použití
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 Použití
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 Použití
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 Použití
OpenVoice MyShell.ai / MIT Premium Medium 8 4GB MIT 4 Použití
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 Použití
Sesame CSM Sesame Premium Slow 1 8GB Apache 2.0 4 Použití
Chatterbox Turbo Resemble AI Standard Fast 1 2GB MIT 2 Použití
Zonos Zyphra Standard Medium 5 6GB Apache 2.0 2 Použití
Dia 2 Nari Labs Standard Fast 1 4GB Apache 2.0 2 Použití
VoxCPM OpenBMB Standard Fast 2 4GB Apache 2.0 2 Použití
OuteTTS OuteAI Free Fast 1 2GB Apache 2.0 Volné Použití
TADA Hume AI Standard Fast 1 5GB MIT 2 Použití
VibeVoice Microsoft Standard Fast 2 4GB MIT 2 Použití
Pocket TTS Kyutai Free Fast 2 1GB MIT Volné Použití
Kitten TTS KittenML Free Fast 1 0GB Apache 2.0 Volné Použití
CosyVoice3 Alibaba (FunAudioLLM) Standard Fast 9 4GB Apache 2.0 2 Použití
MOSS-TTS OpenMOSS Premium Medium 19 16GB Apache 2.0 4 Použití
MegaTTS3 ByteDance Premium Slow 2 8GB Apache 2.0 4 Použití

Nejkomplexnější AI text pro jazykovou platformu

Proč si vybrat TTS.ai pro text ke slovu?

TTS.ai spojuje nejlepší open-source text-to-speech modely na světě v jediném, snadno použitelné platformě. Na rozdíl od proprietární služby, které vás uzamknou do jediného hlasového motoru, TTS.ai vám dává přístup k 20+ modelů z předních výzkumných laboratoří, včetně Coqui, MyShell, Amfion, NVIDIA, Suno, HuggingFace, Tsinghua University, a další.

Každý model je otevřeným zdrojem pod MIT, Apache 2.0 nebo podobnými povolnými licencemi, které zajišťují, že máte plná komerční práva používat generovaný zvuk ve vašich projektech. Ať už potřebujete rychlou, lehkou syntézu pro aplikace v reálném čase nebo prémiový výstup kvality studia pro audioknihy a podcasty, TTS.ai má ten správný model pro každý případ použití.

Zdarma modely, žádný účet nevyžaduje

Začněte ihned se třemi zdarma TTS modely: Piper (ultra-rychlý, lehký), VITS (vysoce kvalitní neurální syntéza) a MeloTTS (vícejazyčná podpora). Žádné přihlášení, žádná kreditní karta, žádné omezení pro generace. Volné modely podporují angličtinu a více dalších jazyků s přirozeným zvukovým výstupem vhodným pro většinu aplikací.

Zpracování pomocí GPU-Accelated

Všechny modely TTS běží na specializovaných NVIDIA GPU pro rychlé, konzistentní generační časy. Volné modely obvykle generují zvuk za méně než 2 sekundy. Standardní modely jako Kokoro, CosyVoice 2, a Bark průměr 3-5 sekund. Premium modely s nejvyšší kvalitou, jako je Tortoise a Chatterbox, proces za 5-15 sekund v závislosti na délce textu.

30+ Podporované jazyky

Generovat řeč ve více než 30 jazycích včetně angličtina, španělština, francouzština, němčina, italština, portugalština, čínština, japonština, korejština, arabština, hindština, ruština, a mnoho dalších. Několik modelů podporuje křížovou syntézu, což znamená, že můžete generovat řeč v jazyce původní hlas nebyl nikdy vyškolen na. CosyVoice 2 a GPT-SoviTS vynikají při křížově-kulturní hlas klonování.

Vývojář-Ready API

Integrujte TTS.ai do Vašich aplikací s naší OpenAI kompatibilní REST API. Jeden cílový bod pro všechny 20+ modely. Python, JavaScript, CURL a Go SDKs. Streamovací podpora pro aplikace v reálném čase. Dávkové zpracování pro velkoplošnou tvorbu obsahu. Webhooks pro async oznámení. K dispozici na Pro a Enterprise plány.

Často kladené otázky

Text do řeči (TTS) je technologie AI, která přeměňuje psaný text na přirozeně znějící mluvený zvuk. Moderní neurální TTS modely jako Kokoro, Chatterbox a CosyVoice 2 používají hluboké učení k produkci řeči, která zní pozoruhodně lidské, s přírodní prosodou, emocí a rytmem.

Pro rychlé náhledy použijte Piper nebo MelotTS (zdarma, rychle). Pro vysokou kvalitu zkuste Kokoro nebo CosyVoice 2 (standardně). Pro klonování hlasu použijte Chatterbox nebo GPT-SoviTS (premium). Pro obsah dialogů/podcastu zkuste Dia TTS. Každý model má různé silné stránky experiment najít co nejlepší.

Ano! TTS.ai nabízí zdarma text-to-speech s Kokoro, Piper, VITS, a Melotts modely. Žádný účet vyžaduje až 500 znaků a 3 generace za hodinu. Zaregistrujte se zdarma účet získat 15 000 znaků a přístup ke všem modelům.

Naše modely TTS společně podporují 30+ jazyků včetně angličtiny, španělštiny, francouzštiny, němčiny, italštiny, portugalštiny, čínštiny, japonštiny, korejštiny, arabštiny, ruštiny, hindštiny a mnoho dalších.

Ano, audio generované přes TTS.ai lze použít komerčně. Všechny naše modely používají open-source licence (MIT, Apache 2.0). Zkontrolujte jednotlivé modely licencí pro konkrétní podmínky. Doporučujeme přezkoumat licenci konkrétního modelu, který používáte pro váš projekt.

TTS.ai podporuje MP3, WAV, OGG, a FLAC výstupní formáty. MP3 je výchozí pro web playback. WAV se doporučuje pro další zpracování zvuku. Můžete převést mezi formáty pomocí našeho nástroje Audio Converter.

Hlasové klonování používá AI k replikaci konkrétního hlasu z krátkého zvukového vzorku (typicky 5-30 sekund). Nahrajte jasný záznam cílového hlasu a modely jako Chatterbox, GPT-Sovits, nebo OpenVoice budou generovat nový projev v tomto hlase. Kvalita se zlepšuje s čistším, delším referenčním zvukem.

Bezplatní uživatelé mohou generovat až 500 znaků na žádost. Registrovaní uživatelé dostanou až 5 000 znaků na žádost. Pro delší texty je zvuk generován v kouscích a automaticky sešit. Uživatelé API mohou zpracovávat až 10 000 znaků na žádost.

Podpora SSML (Speech Synthetic Markup Language) se liší podle modelu. Piper a některé další modely podporují základní značky SSML pro pauzy, důraz, a výslovnost řízení. Pro modely bez nativní podpory SSML můžete použít přirozené interpunkce a přerušení linky k ovlivnění prosody.

Ano, většina modelů podporuje nastavení rychlosti od 0.5x do 2.0x. Některé modely jako Bark a Parler také umožňují ovládání nadhozu a stylu. V pokročilém nastavení můžete nastavit parametry rychlosti v panelu nebo pomocí parametru rychlosti API.

Ano, dávkové zpracování je k dispozici prostřednictvím našeho API. Můžete odeslat více textových segmentů v jednom API volání nebo skriptu, a každý bude zpracován a vrácen jako samostatné zvukové soubory. To je ideální pro kapitoly audioknihy, e-learning moduly, nebo herní dialog skripty.

Generovat API klíč z vašeho účtu palubní deska, pak poslat POST žádosti do našeho REST API koncového bodu s vaším textem, model, a hlasové parametry. Poskytujeme příklady kódů v Python, JavaScript, a CURL. API je OpenAI-kompatibilní, takže stávající integrace fungují s minimálními změnami.
5.0/5 (2)

Co bychom mohli zlepšit? Vaše zpětná vazba nám pomáhá řešit problémy.

Začněte přeměňovat text na projev nyní

Připojte se k tisícům tvůrců s využitím TTS.ai. Získejte 15 000 volných znaků s novým účtem. Bezplatné modely jsou k dispozici bez přihlášení.