Nahlásit chybu / žádost o funkci

AI text pro mluvení

Převést text na přirozeně znějící řeč s open-source AI modely. Volné použití, žádný účet vyžaduje.

Zaregistrovat se zdarma

Text
Soubory

0/500 znaky · Zaregistrujte se na 5000 na generaci →

Zaregistrovat se pro 5000 znaků limit

Režim SSML (Jazyk syntézy řeči markup Language for fine control)

Zabalte svůj text do značek SSML pro přesné ovládání:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Emoce / Stylové značky

Přidat emoce markery ovlivnit dodání (model podpora se liší):

Slovník výslovnosti

Definovat vlastní výslovnosti (slovo = výslovnost):

Smola 0

-12 +12

Model AI

Hlas

Jazyk

Formát výstupu

Rychlost 1.0x

0.5x 2.0x

Zdarma s Piper, VITS, MeloTTS

Zde se objeví váš vygenerovaný zvuk. Vyberte model, zadejte text a klikněte na Generovat.

Podrobnosti o modelu

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Vývojář:	KittenML
Licence:	Apache 2.0
Rychlost	Fast
Kvalita:
jazyky	1 jazyk
VRAM	0GB
Klonování hlasu	Nepodporováno

Vlastnosti:

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

Nejlepší pro:: Fast lightweight TTS, edge deployment, low-latency applications

Tipy pro lepší výsledky

Použít správné interpunkce pro přirozené pauzy a intonaci
Vyhláskovat čísla a zkratky pro jasnější výslovnost
Přidat čárky pro vytvoření krátkých pauz mezi frázemi
Použít elipsu (...) pro delší dramatické pauzy
Zkuste Kokoro nebo CosyVoice 2 pro nejpřirozenější výsledky
Použít Dia pro dialog více reproduktorů a podcastový obsah

Použití znaků

Úroveň	Náklady na 1K chary
Volné	0 kreditů (neomezené)
Standardní	2 kreditů / 1K znaků
Prémie	4 kreditů / 1K znaků

Získejte více znaků

Jak AI text do řeči funguje

Generovat profesionální-kvalitní hlas ve třech jednoduchých krocích. Nevyžadují technické znalosti.

Krok 1

Zadejte svůj text

Zadejte, vložte nebo nahrajte text, který chcete převést do řeči. Podporuje až 5000 znaků na generaci pro přihlášené uživatele. Použijte prostý text nebo přidejte SSML tagy pro pokročilou kontrolu nad výslovností, pauzy a důraz.

Krok 2

Zvolte model a hlas

Vyberte si z 20+ AI modelů napříč třemi úrovněmi. Vyberte si hlas, který odpovídá vašemu obsahu, vyberte cílový jazyk, nastavte rychlost přehrávání od 0,5x do 2,0x a vyberte preferovaný výstupní formát (MP3, WAV, OGG nebo FLAC).

Krok 3

Generovat & stahování

Klepněte na tlačítko Generovat a váš zvuk je připraven za sekundy. Náhled s vestavěným přehrávačem, stáhnout ve zvoleném formátu, nebo zkopírovat sdílený odkaz. Použijte API pro dávkové zpracování a integraci do vašeho pracovního postupu.

Text k případům využití řeči

AI-powered text-to-speech transformuje, jak lidé vytvářet, konzumovat a komunikovat s audio obsahu v desítkách odvětví.

Zvukové knihy

Převést celé knihy do přirozeně znějící audioknihy se studio-kvalitní vyprávění. Multi-speaker podpora s Dia pro charakter dialog.

Video Voiceovers

Vytvořte profesionální hlasové rozhraní pro YouTube, TikTok, Instagram Reels a Shorts. 100+ hlasů nebo naklonujte své vlastní.

Podcasty

Generovat podcast epizody ze skriptů s více hlasy AI. Použijte Dia pro přirozené dvou-mluvčí konverzace.

Hraní

AI hlas působí pro indie hry, vizuální romány, a interaktivní fikce. NPC dialog, cutscene hlasy, 30 + jazyky.

E-Learning

Převést materiály kurzu, přednášky a vzdělávací obsah do audio. Multi-jazyková podpora globálních platforem.

Přístupnost

Zpřístupnit webové stránky, dokumenty a aplikace. Screen reader API integrace a článek-to-audio konverze.

IVR a telefonní systémy

Power IVR systémy, telefonní menu, a zákaznický servis s přirozenými hlasy AI. Nízká životnost streaming pro call centra.

Sociální média

TikTok vyprávění, Instagram navijáky, Twitter/X komentář, YouTube šortky. Rychlá generace s bezplatnými modely.

Streamování

Twitch TTS upozornění, chat-to-voice, AI co-hosts, a Discord bots. Nízká latence, 100+ hlasy, StreamElements kompatibilní.

Marketing

Ad voiceovers, explaiser videa, produktové dema, a prodejní prezentace. Scale audio obsah produkce napříč kampaněmi.

Dabování a lokalizace

Přeložit a dub video do 30+ jazyků s hlasově sladěnou AI. Automatický přepis a detekce reproduktorů.

Meditace a wellness

Průvodce meditací, spánkových příběhů, dechových cvičení a afirmací s klidnými, uklidňujícími hlasy AI.

Zobrazit všechny případy použití & nástroje

Všechny texty pro mluvené modely

Podrobné specifikace pro každý model AI dostupný na TTS.ai. Porovnejte kvalitu, rychlost, jazykovou podporu a funkce, abyste našli perfektní model pro váš projekt.

Kokoro

Free

Kokoro je 82 milionů parametru text-to-speech model, který punčuje daleko nad jeho hmotnost třídy. Navzdory své malé velikosti, produkuje pozoruhodně přírodní a expresivní řeč. Kokoro podporuje více jazyků včetně angličtiny, japonštiny, čínštiny a korejštiny s řadou expresivních hlasů. To běží neuvěřitelně rychle, generování zvuku téměř 100x rychleji než v reálném čase na GPU.

Vývojář::
Hexgrad

Licence::
Apache 2.0

Rychlost:
Fast

Kvalita::

jazyky:
en, ja, zh, fr, it, pt, es, hi

VRAM:
1.5GB

Klonování hlasu:
Ne.

Náklady na 1K chary:
Volné

82M parametry Ultrarychlostní Výrazné hlasy Vícejazyčné Podpora streamování

Nejlepší pro:: Vysoce kvalitní TTS s minimální latence, streaming aplikace

Zkus to. Kokoro

Piper

Free

Piper je lehký text-to-speech motor vyvinutý Rhasspy, který používá VITS a hrtan architektury. To běží zcela na CPU, což je ideální pro hrany zařízení, domácí automatizace, a aplikace vyžadující offline TTS. S více než 100 hlasy v 30 + jazyky, Piper poskytuje přírodní-zpívající řeč při rychlostech v reálném čase i na Malina Pi 4.

Vývojář::
Rhasspy

Licence::
MIT

Rychlost:
Fast

Kvalita::

jazyky:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

Klonování hlasu:
Ne.

Náklady na 1K chary:
Volné

CPU-přátelský Offline schopné 100+ hlasů 30+ jazyky Podpora SSML

Nejlepší pro:: Rychlé náhledy, dostupnost a vložené aplikace

Zkus to. Piper

VITS

Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) je paralelní metoda TTS ke konci, která generuje více přirozeného zvuku než současné dvoustupňové modely. Přijímá variační inferenci rozšířenou o normalizační toky a protivní výcvikový proces, který dosahuje významného zlepšení přirozenosti.

Vývojář::
Jaehyeon Kim et al.

Licence::
MIT

Rychlost:
Fast

Kvalita::

jazyky:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

VRAM:
1GB

Klonování hlasu:
Ne.

Náklady na 1K chary:
Volné

Syntéza ke konci Přírodní prosodie Rychlý závěr Více reproduktorů

Nejlepší pro:: Univerzální text-to-speech s přírodní prosodou

Zkus to. VITS

MeloTTS

Free

MeloTTS by MyShell.ai je vícejazyčná TTS knihovna podporující angličtinu (American, British, Indian, Australan), španělštinu, francouzštinu, čínštinu, japonštinu a korejštinu. Je to velmi rychlé, zpracování textu při rychlosti téměř v reálném čase na procesoru sám. MeloTTS je určen pro výrobu a podporuje jak CPU a GPU inference.

Vývojář::
MyShell.ai

Licence::
MIT

Rychlost:
Fast

Kvalita::

jazyky:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

Klonování hlasu:
Ne.

Náklady na 1K chary:
Volné

CPU-optimalizováno Vícejazyčné Více přízvuků Připraveno na výrobu Nízká latence

Nejlepší pro:: Výrobní aplikace potřebné rychle, vícejazyčné TTS

Zkus to. MeloTTS

Bark

Standard

Bark by Suno je model na bázi transformeru, který může generovat vysoce realistické, vícejazyčné řeči, stejně jako jiné zvuky jako hudba, zvuk pozadí, a zvukové efekty. Může produkovat nonverbální komunikace, jako je smích, vzdych a pláč. Bark podporuje více než 100 předvoleb reproduktorů a 13+ jazyků.

Vývojář::
Suno

Licence::
MIT

Rychlost:
Slow

Kvalita::

jazyky:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

Klonování hlasu:
Ne.

Náklady na 1K chary:
2x

Účinky zvuku Smích/povzdech Hudební generace 100+ reproduktory Vícejazyčné

Nejlepší pro:: Kreativní audio obsah, audioknihy s emocemi, zvukové efekty

Zkus to. Bark

Bark Small

Standard

Bark Small je destilovaná verze modelu Bark, která obchoduje s určitou kvalitou zvuku pro výrazně rychlejší inference rychlosti a nižší požadavky na paměť. Udržuje Bark schopnost vytvářet řeč s emocemi, smích, a více jazyků.

Vývojář::
Suno

Licence::
MIT

Rychlost:
Medium

Kvalita::

jazyky:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

Klonování hlasu:
Ne.

Náklady na 1K chary:
2x

Lehká Rychlejší než plný kůra Citová řeč Vícejazyčné

Nejlepší pro:: Rychlý kreativní zvuk, když je plný Bark příliš pomalý

Zkus to. Bark Small

CosyVoice 2

Standard

CosyVoice 2 od Alibaba je Tongyi Lab dosahuje lidské-srovnatelné kvality řeči s extrémně nízkou latencí, což je ideální pro aplikace v reálném čase. Používá konečný skalární kvantizační přístup pro streaming syntézy a podporuje nulovací-shot hlas klonování, křížovou syntézu, a jemně zakořeněné emoční kontroly. To překonává mnoho komerčních TTS systémů v subjektivních hodnocení.

Vývojář::
Alibaba (Tongyi Lab)

Licence::
Apache 2.0

Rychlost:
Medium

Kvalita::

jazyky:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
2x

Streamování Zero-shot klonování Cross-lingving Kontrola emocí Lidská parita

Nejlepší pro:: Aplikace v reálném čase, streaming TTS, hlasové asistenty

Zkus to. CosyVoice 2

Dia TTS

Standard

Dia by Nari Labs je parametr 1.6B text-to-speech model určený speciálně pro generování multi-speaker dialog. To může vytvářet přirozeně znějící rozhovory mezi dvěma reproduktory s vhodným zatáčení, prosody a emocionální výraz. Dia je ideální pro tvorbu podcast-styl obsahu, audiokniha dialogů, a interaktivní konverzační AI.

Vývojář::
Nari Labs

Licence::
Apache 2.0

Rychlost:
Medium

Kvalita::

jazyky:
en

VRAM:
4GB

Klonování hlasu:
Ne.

Náklady na 1K chary:
2x

Víceproudový reproduktor Vygenerování dialogu Přirozené zatáčení Emocionální výraz Parametry 1.6B

Nejlepší pro:: Podcasty, audioknihové dialogy, konverzační obsah

Zkus to. Dia TTS

Parler TTS

Standard

Parler TTS je text-to-speech model, který používá přírodní jazyk hlasové popisy pro kontrolu generované řeči. Místo výběru z přednastavených hlasů, popisujete hlas, který chcete (např. "teplý ženský hlas s mírným britským přízvukem, mluví pomalu a jasně") a Parler generuje řeč odpovídající tomuto popisu. To je jedinečně flexibilní pro kreativní aplikace.

Vývojář::
Hugging Face

Licence::
Apache 2.0

Rychlost:
Medium

Kvalita::

jazyky:
en

VRAM:
4GB

Klonování hlasu:
Ne.

Náklady na 1K chary:
2x

Popis hlasu Kontrola přirozeného jazyka Flexibilní tvorba hlasu Žádné přednastavené hlasy nepotřebují

Nejlepší pro:: Kreativní aplikace, kde potřebujete vlastní hlasové charakteristiky

Zkus to. Parler TTS

GLM-TTS

Standard

GLM-TTS od Zhipu AI je systém text-to-speech postavený na architektuře Llama s flow matching. Dosáhne nejnižší chybovost znaku mezi open-source TTS modely, což znamená, že produkuje nejpřesnější výslovnost. GLM-TTS podporuje angličtinu a čínštinu s hlasovým klonováním ze 3-10 sekund audio vzorků.

Vývojář::
Zhipu AI

Licence::
GLM-4 License

Rychlost:
Medium

Kvalita::

jazyky:
en, zh

VRAM:
4GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
2x

Nejnižší míra chyb Klonování hlasu Shoda toků Přírodní prosodie

Nejlepší pro:: Aplikace vyžadující maximální přesnost výslovnosti

Zkus to. GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 je pokročilý systém text-to-speech, který vyniká při syntéze nulovacího hlasu s jemnou emocionální kontrolou. Může generovat řeč konkrétními emocionálními tóny jako je šťastný, smutný, naštvaný, nebo strach, aniž by vyžadovala údaje o specifickém tréninku emocí. Model používá emocionální vektory přesně k ovládání emocionálního výrazu generované řeči.

Vývojář::
Index Team

Licence::
Bilibili Model License

Rychlost:
Medium

Kvalita::

jazyky:
en, zh

VRAM:
4GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
2x

Kontrola emocí Zero-shot Emoční vektory Výrazná řeč Kontrola jemného zrnění

Nejlepší pro:: Citově expresivní obsah, audioknihy, virtuální asistenti

Zkus to. IndexTTS-2

Spark TTS

Standard

Spark TTS by SparkAudio je model text-to-speech, který kombinuje klonování hlasu s kontrolovatelnou emocí a stylem mluvení. Pomocí pouhých 5 sekund referenčního zvuku může naklonovat hlas a pak generovat řeč s různými emocemi, rychlostmi a styly při zachování klonované hlasové identity. Spark TTS používá rychle založený řídicí systém.

Vývojář::
SparkAudio

Licence::
CC BY-NC-SA 4.0

Rychlost:
Medium

Kvalita::

jazyky:
en, zh

VRAM:
4GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
2x

Klonování hlasu Kontrola emocí Kontrola stylu Prompt-based 5-sekundový klonování

Nejlepší pro:: Vytvoření obsahu s klonovanými hlasy a emocionální kontrolou

Zkus to. Spark TTS

GPT-SoVITS

Standard

GPT-SoviTS kombinuje modeling jazyka ve stylu GPT se Sovits (Singing Voice Inference prostřednictvím překladu a syntézy) pro velmi málo střílející hlasové klonování. S pouhými 5 sekundami referenčního zvuku může přesně naklonovat hlas a vytvářet nový projev při zachování unikátních vlastností řečníka. Vyniká jak při syntéze mluvení, tak i zpěvu hlasu.

Vývojář::
RVC-Boss

Licence::
MIT

Rychlost:
Slow

Kvalita::

jazyky:
en, zh, ja, ko

VRAM:
6GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
2x

5-sekundový klonování Zpívající hlas Párkrát se učím. Vysoká věrnost Cross-lingving

Nejlepší pro:: Hlasové klonování, syntéza zpěvu, replikace hlasu tvůrce obsahu

Zkus to. GPT-SoVITS

Orpheus

Standard

Orfeus je velkoplošný text-to-speech model, který dosahuje lidského-úroveň emocionálního výrazu. Vycvičený na více než 100.000 hodin různých řečových dat, vyniká při vytváření řeči s přirozenými emocemi, důraz, a mluvící styly. Orfeus může produkovat řeč, která je prakticky nerozlišitelný z lidských nahrávek.

Vývojář::
Canopy Labs

Licence::
Llama 3.2 Community

Rychlost:
Medium

Kvalita::

jazyky:
en

VRAM:
4GB

Klonování hlasu:
Ne.

Náklady na 1K chary:
2x

Lidské emoce 100K hodin tréninku Přírodní důraz Výrazná řeč

Nejlepší pro:: Vysoce kvalitní emocionální řeč, audioknihy, hlasové hraní

Zkus to. Orpheus

Chatterbox

Premium

Chatterbox od Resemble AI je špičkový model klonování hlasu s nulovým výstřelem. Může replikovat jakýkoliv hlas z jediného zvukového vzorku s pozoruhodnou přesností, zachycuje nejen timbre, ale také mluvící styl a emocionální nuance. Chatterbox také obsahuje jemně zakořeněné emoční ovládání, což vám umožní upravit emoční tón generované řeči nezávisle na hlasové identitě.

Vývojář::
Resemble AI

Licence::
MIT

Rychlost:
Medium

Kvalita::

jazyky:
en

VRAM:
4GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
4x

Zero-shot klonování Kontrola emocí Vysoká věrnost Přenos stylu Klonování jednotlivých vzorků

Nejlepší pro:: Profesionální klonování hlasu s emocionální kontrolou, tvorba obsahu

Zkus to. Chatterbox

Tortoise TTS

Premium

Tortoise TTS je autoregresivní multi-hlasový text-to-slovní systém, který upřednostňuje kvalitu zvuku přes rychlost. Využívá architekturu inspirovanou DALL-E k vytvoření vysoce přirozené řeči s vynikající prosody a podobnost reproduktorů. Zatímco pomalejší než mnoho alternativ, Tortoise produkuje některé z nejrealističtější syntetické řeči dostupné v open-source ekosystému.

Vývojář::
James Betker

Licence::
Apache 2.0

Rychlost:
Slow

Kvalita::

jazyky:
en

VRAM:
8GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
4x

Nejvyšší kvalita Vícehlasové Architektura DALL-E Klonování hlasu Autoregresivní

Nejlepší pro:: Audio knihy, prémiový obsah, kvalitní první aplikace

Zkus to. Tortoise TTS

StyleTTS 2

Premium

Styl TTS 2 dosahuje syntézy TTS na lidské úrovni kombinací stylové difúze s protivním tréninkem pomocí velkých jazykových modelů. Vytváří nejpřirozenější zvukovou řeč mezi jednohlasnými modely, soupeřícími s lidskými nahrávkami. Styl TTS 2 používá modelování na bázi difuzního stylu, aby zachytil celou škálu variace lidské řeči.

Vývojář::
Columbia University

Licence::
MIT

Rychlost:
Medium

Kvalita::

jazyky:
en

VRAM:
4GB

Klonování hlasu:
Ne.

Náklady na 1K chary:
4x

Lidská úroveň Rozptýlení stylu Advokátní výcvik Přirozená odchylka Vysoká věrnost

Nejlepší pro:: Syntéza jednoho reproduktoru kvality studia, profesionální vyprávění

Zkus to. StyleTTS 2

OpenVoice

Premium

OpenVoice by MyShell.ai umožňuje okamžité klonování hlasu s granulovanou kontrolou nad hlasovým stylem, emocí, akcentem, rytmem, pauzami a intonací. Může naklonovat hlas z krátkého zvukového klipu a generovat řeč ve více jazycích při zachování identity reproduktoru. OpenVoice také funguje jako hlasový převodník, který umožňuje proměnu hlasu v reálném čase.

Vývojář::
MyShell.ai / MIT

Licence::
MIT

Rychlost:
Medium

Kvalita::

jazyky:
en, zh, ja, ko, fr, es

VRAM:
4GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
4x

Okamžité klonování Převod hlasu Kontrola emocí Kontrola zrychlení Vícejazyčné

Nejlepší pro:: Hlasové klonování s jemným stylem ovládání, převod hlasu

Zkus to. OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS je 1,7 miliardy parametru text-to-speech modelu od Alibaby Qwen týmu. Podporuje tři režimy: přednastavené hlasy s emoční kontrolou (9 reproduktorů), hlas klonování z pouhých 3 sekundy zvuku, a jedinečný hlasový design režimu, kde popisujete hlas, který chcete v přirozeném jazyce. To zahrnuje 10 jazyků s vysokou expresivitou a přírodní prosodie.

Vývojář::
Alibaba (Qwen)

Licence::
Apache 2.0

Rychlost:
Medium

Kvalita::

jazyky:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
2x

Klonování hlasu 9 přednastavených hlasů Návrh hlasu z textu Kontrola emocí 10 jazyků

Nejlepší pro:: Vícejazyčný obsah s klonováním hlasu nebo vlastním designem hlasu

Zkus to. Qwen3 TTS

Sesame CSM

Premium

Sezamový CSM (konverzační Speech Model) je 1 miliardový parametrový model určený speciálně pro generování konverzační řeči. Modeluje přirozené vzorce lidské konverzace včetně časování, zpětné reakce, emocionální reakce a konverzační tok. CSM vytváří zvuk, který zní spíše jako přirozený lidský rozhovor než syntetická řeč.

Vývojář::
Sesame

Licence::
Apache 2.0

Rychlost:
Slow

Kvalita::

jazyky:
en

VRAM:
8GB

Klonování hlasu:
Ne.

Náklady na 1K chary:
4x

Konverzační Přírodní načasování Přijímací řízení Backchannel 1B parametry

Nejlepší pro:: Asistenti AI, chatboti, konverzační aplikace AI

Zkus to. Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo by Resemble AI je upgrade 350M parametru do Chatterboxu, která poskytuje až 6x rychlost v reálném čase s pod-200ms latence. Podporuje paralinguistické značky jako [smích], [kašel] a [smích] přímo v textu. Obsahuje Perth vodoznak na všech generovaných audio pro provenience sledování.

Vývojář::
Resemble AI

Licence::
MIT

Rychlost:
Fast

Kvalita::

jazyky:
en

VRAM:
2GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
2x

Pod 200ms latence Paralinguistické značky 6x v reálném čase Klonování hlasu Vodoznak

Nejlepší pro:: Hlasové agenty v reálném čase, výrazná řeč s přirozenými zvuky

Zkus to. Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1.5 od OpenBMB je nový tokenizer-free TTS model, který pracuje v nepřetržitém prostoru spíše než diskrétní žetony. Vytváří vysokou věrnost 44.1kHz audio, podporuje nulovací hlas klonování od 3-10 sekund, a udržuje konzistence napříč odstavci. Cross-language klonování umožňuje aplikovat anglický hlas na čínskou řeč a naopak.

Vývojář::
OpenBMB

Licence::
Apache 2.0

Rychlost:
Fast

Kvalita::

jazyky:
en, zh

VRAM:
4GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
2x

44.1kHz audio Bez tokenizéru Cross-lingual kloning Kontextově-uvědomělé LORA jemné ladění

Nejlepší pro:: Vysoce věrnostní audio, audioknihy, obsah dlouhé formy s konzistencí hlasu

Zkus to. VoxCPM

Kani TTS 2

Free

Kani-TTS-2 od NineNineSix je ultra-lehký 400M parametr model postavený na Liquid AI LFM2 páteře s NVIDIA NanoCodec. To běží v pouhých 3GB VRAM a produkuje ~10 sekund řeči za ~2 sekundy na A100 (RTF 0.2). Současné veřejné vydání lodí pouze angličtina-kani-tts-2-en[2] checkpoint a nevystavuje reproduktor-embedding háček potřebný pro klonování hlasu ~2 používá Chatterbox / IndexTTS2 / F5-TTS pro klonování, nebo Kokoro / MeloTTS pro non-angličtina.

Vývojář::
NineNineSix

Licence::
Apache 2.0

Rychlost:
Fast

Kvalita::

jazyky:
en

VRAM:
3GB

Klonování hlasu:
Ne.

Náklady na 1K chary:
Volné

3GB VRAM Ultrarychlostní Lehká Nanokodek Volné

Nejlepší pro:: Rychlá anglická generace na nízkoVRAM hardware, rychlé náhledy

Zkus to. Kani TTS 2

OuteTTS

Free

OuteTTS rozšiřuje velké jazykové modely s funkcemi text-to-speech při zachování původní architektury. Podporuje více backendů včetně lama.cpp (CPU/GPU), objímání transformerů obličeje, ExLlamaV2, VLLM, a dokonce i inference prohlížeče přes Transformers.js. Funkce klonování hlasu s nulovým výstřelem přes reproduktorové profily uložené jako JSON.

Vývojář::
OuteAI

Licence::
Apache 2.0

Rychlost:
Fast

Kvalita::

jazyky:
en

VRAM:
2GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
Volné

Závěr CPU Závěr prohlížeče Klonování hlasu Více backendů Profily reproduktorů

Nejlepší pro:: Zavádění hran, TTS na bázi prohlížeče, prostředí s nízkým zdrojem

Zkus to. OuteTTS

VibeVoice

Standard

VibeVoice by Microsoft přichází ve dvou variantách: 1,5B model pro obsah dlouhé formy (až 90 minut, 4 reproduktory) a Realtime 0.5B model pro streaming s ~200ms první audio latence. Varianta 1.5B vyniká na podcasty a audioknihy s konzistence reproduktoru přes dlouhé pasáže. Poznámka: Microsoft odstranil TTS kód z úložiště a generoval audio obsahuje zvukové AI disclaimers.

Vývojář::
Microsoft

Licence::
MIT

Rychlost:
Fast

Kvalita::

jazyky:
en, zh

VRAM:
4GB

Klonování hlasu:
Ne.

Náklady na 1K chary:
2x

Víceproudový reproduktor Do 90 min Generace podcastu Konzistence řečníka 200ms streaming

Nejlepší pro:: Podcasty, audioknihy, dlouhý multi-reproduktorový obsah

Zkus to. VibeVoice

Pocket TTS

Free

Kapesní TTS od Kyutai (tvůrci Moshi) je kompaktní 100M parametr text-to-speech modelu, který prorazí vysoko nad svou váhu. To běží efektivně na CPU, podporuje nulovací hlasové klonování z jediného zvukového vzorku, a produkuje přirozený-zvučení řeči. Malá velikost modelu je ideální pro nasazení hran a nízko-zdrojové prostředí.

Vývojář::
Kyutai

Licence::
MIT

Rychlost:
Fast

Kvalita::

jazyky:
en, fr

VRAM:
1GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
Volné

100M parametry Závěr CPU Klonování hlasu Klonování jednotlivých vzorků Připravené hrany

Nejlepší pro:: Lehké nasazení, prostředí pouze CPU, rychlé klonování hlasu

Zkus to. Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML je ultralehký text-to-speech model postavený na ONNX. S variantami od 15M do 80M parametry (25-80 MB na disku), poskytuje vysoce kvalitní hlasovou syntézu na procesoru bez nutnosti GPU. Vlastnosti 8 vestavěných hlasů, nastavitelná rychlost řeči a vestavěný text předzpracování pro čísla, měny a jednotky. Ideální pro nasazení hran a nízkonákladové aplikace.

Vývojář::
KittenML

Licence::
Apache 2.0

Rychlost:
Fast

Kvalita::

jazyky:
en

VRAM:
0GB

Klonování hlasu:
Ne.

Náklady na 1K chary:
Volné

CPU-only inference Pod 80MB velikost modelu 8 vestavěných hlasů Ovládání rychlosti ONNX na bázi Výstup 24kHz

Nejlepší pro:: Rychlé lehké TTS, nasazení hran, nízkonákladové aplikace

Zkus to. Kitten TTS

CosyVoice3

Standard

CosyVoice3 je nejnovější vývoj z týmu Alibaba FunAudioLLM. Má bi-streaming inference s ~150ms latence, instruction-based control for emotion/rychlost/objem, a lepší reproduktor podobnost pro nula-shot klonování. Podporuje 9 jazyků plus 18 čínských dialektů. RL-naladěná varianta přináší nejmodernější prosodie.

Vývojář::
Alibaba (FunAudioLLM)

Licence::
Apache 2.0

Rychlost:
Fast

Kvalita::

jazyky:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
2x

Bi-streamování Kontrola emocí Klonování hlasu Kontrola rychlosti/objemu Instrukce následující

Nejlepší pro:: Vícejazyčná výroba TTS, aplikace v reálném čase, hlasové klonování

Zkus to. CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudské TTS je saúdskoarabské fine-tune Resemble AI je ChatterboxMultilingual. Trénovaný NAMAA prostor na autentické Saudsko-dialektní řeči, produkuje přírodní moderní standard arabsky a saúdské kolokvické výslovnost, že generické vícejazyčné modely nemohou odpovídat. Dědí Chatterbox Nula-shot hlas klonování a emoční kontrolu prostřednictvím referenčních zvukových podnětů. První otevřené váhy Arabské TTS nasazené na TTS.ai.

Vývojář::
NAMAA Space

Licence::
MIT

Rychlost:
Medium

Kvalita::

jazyky:
ar

VRAM:
6GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
2x

Saudský arabský dialekt Moderní standard arabsky Zero-shot hlasové klonování Kontrola emocí Původní výslovnost

Nejlepší pro:: Arabský obsah pro saúdské publikum, MSA vyprávění, Khaleeji-dialekt hlasové agenty, arabské audioknihy

Zkus to. NAMAA Saudi TTS

Darwin TTS

Standard

Darwin-TTS-1,7B-Cross by FINAL-Bench je výzkumná varianta Qwen3-TTS-1,7B, kde 84 talker-FFN tenzorů (8,6%) se míchá na α=3% s odpovídajícími tenzory z Qwen3-1,7B-Base. Směs je postavena bez rekvalifikace a produkuje nápadně křupavější křížově-kulturní hlasové klonování napříč korejštinou, angličtinou, japonštinou a čínštinou. Operuje v režimu bezvýstřelového hlasového clonu (3 sekundy referenčního zvuku).

Vývojář::
FINAL-Bench

Licence::
Apache 2.0

Rychlost:
Medium

Kvalita::

jazyky:
en, ko, ja, zh

VRAM:
7GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
2x

Klonování hlasu Cross-lingving FFN-blated 4 hlavní jazyky páteř Qwen3

Nejlepší pro:: Cross-lingvální klonování hlasu mezi angličtinou / korejština / japonština / čínština s jediným referenčním hlasem

Zkus to. Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 od OpenMOSS je 7B dialog text-to-speech model, který pokračuje konverzace z krátkého audio pohotovosti. Podporuje až 5 simultánní reproduktory prostřednictvím [S1]/[S2] tagy, nulovací hlasové klonování z 3-10s referenční audio, a až 60 minut soudržného multi-turnového dialogu napříč 20 jazyky. Distinct from MOSS-TTS díry TTSD is specialized for podcast/audiobook/dubing workfounds.

Vývojář::
OpenMOSS

Licence::
Apache 2.0

Rychlost:
Medium

Kvalita::

jazyky:
en, zh

VRAM:
12GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
2x

Dialog s více reproduktory Až 5 reproduktorů 60min souvislý zvuk Klonování hlasu Podcast-optimalizováno

Nejlepší pro:: Podcasty, audioknihy, přezdívaný dialog, konverzační obsah s více hlasy

Zkus to. MOSS-TTSD

Ming-Omni TTS

Free

Ming-omni-tts-0.5B podle inkluzeAI je kompaktní omni-modální model řeči postavený na BailingMM husté páteři s Patch-by-Patch flow-match-match audio dekodér. Dodává 44.1kHz výstup (blízká kvalita CD), podporuje nulovací hlas klonování z 3+ druhé reference, a zahrnuje vestavěný emoční / dialekt / BGM ovládání přes JSON pokyny. Vynikající stabilita 0,8% WER na čínské referenční hodnoty.

Vývojář::
inclusionAI

Licence::
Apache 2.0

Rychlost:
Medium

Kvalita::

jazyky:
en, zh

VRAM:
3GB

Klonování hlasu:
Ano.

Náklady na 1K chary:
Volné

44.1kHz výstup Klonování hlasu Kontrola emocí Kontrola dialektu GM generování Kompaktní 0.5B

Nejlepší pro:: Vysoce věrnostní dvojjazyčné vyprávění, emocionálně řízené hlasové hraní, čínský audioknihový obsah

Zkus to. Ming-Omni TTS

Kokoro

Volné

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Vývojář::
Hexgrad

Licence::
Apache 2.0

Rychlost:
Fast

Kvalita::

jazyky: en, ja, zh, fr, it, pt, es, hi

Nejlepší pro:: High-quality TTS with minimal latency, streaming applications

Zkuste zdarma

Piper

Volné

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Vývojář::
Rhasspy

Licence::
MIT

Rychlost:
Fast

Kvalita::

jazyky: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

Nejlepší pro:: Quick previews, accessibility, and embedded applications

Zkuste zdarma

VITS

Volné

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Vývojář::
Jaehyeon Kim et al.

Licence::
MIT

Rychlost:
Fast

Kvalita::

jazyky: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

Nejlepší pro:: General-purpose text-to-speech with natural prosody

Zkuste zdarma

MeloTTS

Volné

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Vývojář::
MyShell.ai

Licence::
MIT

Rychlost:
Fast

Kvalita::

jazyky: en, es, fr, zh, ja, ko

Nejlepší pro:: Production applications needing fast, multilingual TTS

Zkuste zdarma

Kani TTS 2

Volné

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

Vývojář::
NineNineSix

Licence::
Apache 2.0

Rychlost:
Fast

Kvalita::

jazyky: en

Nejlepší pro:: Fast English generation on low-VRAM hardware, quick previews

Zkuste zdarma

OuteTTS

Volné

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Vývojář::
OuteAI

Licence::
Apache 2.0

Rychlost:
Fast

Kvalita::

jazyky: en

Nejlepší pro:: Edge deployment, browser-based TTS, low-resource environments

Zkuste zdarma

Pocket TTS

Volné

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

Vývojář::
Kyutai

Licence::
MIT

Rychlost:
Fast

Kvalita::

jazyky: en, fr

Nejlepší pro:: Lightweight deployment, CPU-only environments, quick voice cloning

Zkuste zdarma

Kitten TTS

Volné

Vývojář::
KittenML

Licence::
Apache 2.0

Rychlost:
Fast

Kvalita::

jazyky: en

Nejlepší pro:: Fast lightweight TTS, edge deployment, low-latency applications

Vzor	Vývojář:	Úroveň	Rychlost	jazyky	VRAM	Licence:	úvěry
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	Volné	Použití
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	Volné	Použití
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	Volné	Použití
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Volné	Použití
Bark	Suno	Standard	Slow	13	5GB	MIT	2	Použití
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Použití
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Použití
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Použití
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Použití
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	Použití
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Použití
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Použití
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	Použití
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Použití
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Použití
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	Použití
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Použití
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	Použití
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Použití
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	Použití
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	Použití
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	Použití
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	Volné	Použití
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Volné	Použití
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	Použití
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Volné	Použití
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Volné	Použití
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	Použití
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	Použití
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	Použití
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	Použití
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	Volné	Použití

Nejkomplexnější AI text pro jazykovou platformu

Proč si vybrat TTS.ai pro text ke slovu?

TTS.ai spojuje nejlepší open-source text-to-speech modely na světě v jediném, snadno použitelné platformě. Na rozdíl od proprietární služby, které vás uzamknou do jediného hlasového motoru, TTS.ai vám dává přístup k 20+ modelů z předních výzkumných laboratoří, včetně Coqui, MyShell, Amfion, NVIDIA, Suno, HuggingFace, Tsinghua University, a další.

Každý model je otevřeným zdrojem pod MIT, Apache 2.0 nebo podobnými povolnými licencemi, které zajišťují, že máte plná komerční práva používat generovaný zvuk ve vašich projektech. Ať už potřebujete rychlou, lehkou syntézu pro aplikace v reálném čase nebo prémiový výstup kvality studia pro audioknihy a podcasty, TTS.ai má ten správný model pro každý případ použití.

Zdarma modely, žádný účet nevyžaduje

Začněte ihned se třemi zdarma TTS modely: Piper (ultra-rychlý, lehký), VITS (vysoce kvalitní neurální syntéza) a MeloTTS (vícejazyčná podpora). Žádné přihlášení, žádná kreditní karta, žádné omezení pro generace. Volné modely podporují angličtinu a více dalších jazyků s přirozeným zvukovým výstupem vhodným pro většinu aplikací.

Zpracování pomocí GPU-Accelated

Všechny modely TTS běží na specializovaných NVIDIA GPU pro rychlé, konzistentní generační časy. Volné modely obvykle generují zvuk za méně než 2 sekundy. Standardní modely jako Kokoro, CosyVoice 2, a Bark průměr 3-5 sekund. Premium modely s nejvyšší kvalitou, jako je Tortoise a Chatterbox, proces za 5-15 sekund v závislosti na délce textu.

30+ Podporované jazyky

Generovat řeč ve více než 30 jazycích včetně angličtina, španělština, francouzština, němčina, italština, portugalština, čínština, japonština, korejština, arabština, hindština, ruština, a mnoho dalších. Několik modelů podporuje křížovou syntézu, což znamená, že můžete generovat řeč v jazyce původní hlas nebyl nikdy vyškolen na. CosyVoice 2 a GPT-SoviTS vynikají při křížově-kulturní hlas klonování.

Vývojář-Ready API

Integrovat TTS.ai do vašich aplikací s naší OpenAI kompatibilní REST API. Jeden cíl pro všechny 20+ modely. Python, JavaScript, CURL a Go SDKs. Streamování podpory pro aplikace v reálném čase. Dávkové zpracování pro velkoplošnou tvorbu obsahu. Webhooks pro async oznámení. API přístup zahrnutý na každém plánu včetně zdarma.

Často kladené otázky

Text do řeči (TTS) je technologie AI, která přeměňuje psaný text na přirozeně znějící mluvený zvuk. Moderní neurální TTS modely jako Kokoro, Chatterbox a CosyVoice 2 používají hluboké učení k produkci řeči, která zní pozoruhodně lidské, s přírodní prosodou, emocí a rytmem.

Pro rychlé náhledy použijte Piper nebo MelotTS (zdarma, rychle). Pro vysokou kvalitu zkuste Kokoro nebo CosyVoice 2 (standardně). Pro klonování hlasu použijte Chatterbox nebo GPT-SoviTS (premium). Pro obsah dialogů/podcastu zkuste Dia TTS. Každý model má různé silné stránky experiment najít co nejlepší.

Ano! TTS.ai nabízí zdarma text-to-speech s Kokoro, Piper, VITS, a Melotts modely. Žádný účet vyžaduje až 500 znaků a 3 generace za hodinu. Zaregistrujte se zdarma účet získat 15 000 znaků a přístup ke všem modelům.

Naše modely TTS společně podporují 30+ jazyků včetně angličtiny, španělštiny, francouzštiny, němčiny, italštiny, portugalštiny, čínštiny, japonštiny, korejštiny, arabštiny, ruštiny, hindštiny a mnoho dalších.

Ano, audio generované přes TTS.ai lze použít komerčně. Všechny naše modely používají open-source licence (MIT, Apache 2.0). Zkontrolujte jednotlivé modely licencí pro konkrétní podmínky. Doporučujeme přezkoumat licenci konkrétního modelu, který používáte pro váš projekt.

TTS.ai podporuje MP3, WAV, OGG, a FLAC výstupní formáty. MP3 je výchozí pro web playback. WAV se doporučuje pro další zpracování zvuku. Můžete převést mezi formáty pomocí našeho nástroje Audio Converter.

Hlasové klonování používá AI k replikaci konkrétního hlasu z krátkého zvukového vzorku (typicky 5-30 sekund). Nahrajte jasný záznam cílového hlasu a modely jako Chatterbox, GPT-Sovits, nebo OpenVoice budou generovat nový projev v tomto hlase. Kvalita se zlepšuje s čistším, delším referenčním zvukem.

Bezplatní uživatelé mohou generovat až 500 znaků na žádost. Registrovaní uživatelé dostanou až 5 000 znaků na žádost. Pro delší texty je zvuk generován v kouscích a automaticky sešit. Uživatelé API mohou zpracovávat až 10 000 znaků na žádost.

Podpora SSML (Speech Synthetic Markup Language) se liší podle modelu. Piper a některé další modely podporují základní značky SSML pro pauzy, důraz, a výslovnost řízení. Pro modely bez nativní podpory SSML můžete použít přirozené interpunkce a přerušení linky k ovlivnění prosody.

Ano, většina modelů podporuje nastavení rychlosti od 0.5x do 2.0x. Některé modely jako Bark a Parler také umožňují ovládání nadhozu a stylu. V pokročilém nastavení můžete nastavit parametry rychlosti v panelu nebo pomocí parametru rychlosti API.

Ano, dávkové zpracování je k dispozici prostřednictvím našeho API. Můžete odeslat více textových segmentů v jednom API volání nebo skriptu, a každý bude zpracován a vrácen jako samostatné zvukové soubory. To je ideální pro kapitoly audioknihy, e-learning moduly, nebo herní dialog skripty.

Generovat API klíč z vašeho účtu palubní deska, pak poslat POST žádosti do našeho REST API koncového bodu s vaším textem, model, a hlasové parametry. Poskytujeme příklady kódů v Python, JavaScript, a CURL. API je OpenAI-kompatibilní, takže stávající integrace fungují s minimálními změnami.

5.0/5 (4)

Začněte přeměňovat text na projev nyní

Připojte se k tisícům tvůrců s využitím TTS.ai. Získejte 15 000 volných znaků s novým účtem. Bezplatné modely jsou k dispozici bez přihlášení.

Zaregistrovat se zdarma Zobrazit ceny

AI text pro mluvení

Miluju TTS.ai? Řekni to svým přátelům!

Podrobnosti o modelu

Kitten TTS

Tipy pro lepší výsledky

Použití znaků

Jak AI text do řeči funguje

Zadejte svůj text

Zvolte model a hlas

Generovat & stahování

Text k případům využití řeči

Zvukové knihy

Video Voiceovers

Podcasty

Hraní

E-Learning

Přístupnost

IVR a telefonní systémy

Sociální média

Streamování

Marketing

Dabování a lokalizace

Meditace a wellness

Všechny texty pro mluvené modely

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3