AI text pro mluvení
Převést text na přirozeně znějící řeč s open-source AI modely. Volné použití, žádný účet vyžaduje.
Zabalte svůj text do značek SSML pro přesné ovládání:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Přidat emoce markery ovlivnit dodání (model podpora se liší):
Definovat vlastní výslovnosti (slovo = výslovnost):
Podrobnosti o modelu
Kitten TTS
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
| Vývojář: | KittenML |
| Licence: | Apache 2.0 |
| Rychlost | Fast |
| Kvalita: | |
| jazyky | 1 jazyk |
| VRAM | 0GB |
| Klonování hlasu | Nepodporováno |
Tipy pro lepší výsledky
- Použít správné interpunkce pro přirozené pauzy a intonaci
- Vyhláskovat čísla a zkratky pro jasnější výslovnost
- Přidat čárky pro vytvoření krátkých pauz mezi frázemi
- Použít elipsu (...) pro delší dramatické pauzy
- Zkuste Kokoro nebo CosyVoice 2 pro nejpřirozenější výsledky
- Použít Dia pro dialog více reproduktorů a podcastový obsah
Použití znaků
| Úroveň | Náklady na 1K chary |
|---|---|
| Volné | 0 kreditů (neomezené) |
| Standardní | 2 kreditů / 1K znaků |
| Prémie | 4 kreditů / 1K znaků |
Jak AI text do řeči funguje
Generovat profesionální-kvalitní hlas ve třech jednoduchých krocích. Nevyžadují technické znalosti.
Zadejte svůj text
Zadejte, vložte nebo nahrajte text, který chcete převést do řeči. Podporuje až 5000 znaků na generaci pro přihlášené uživatele. Použijte prostý text nebo přidejte SSML tagy pro pokročilou kontrolu nad výslovností, pauzy a důraz.
Zvolte model a hlas
Vyberte si z 20+ AI modelů napříč třemi úrovněmi. Vyberte si hlas, který odpovídá vašemu obsahu, vyberte cílový jazyk, nastavte rychlost přehrávání od 0,5x do 2,0x a vyberte preferovaný výstupní formát (MP3, WAV, OGG nebo FLAC).
Generovat & stahování
Klepněte na tlačítko Generovat a váš zvuk je připraven za sekundy. Náhled s vestavěným přehrávačem, stáhnout ve zvoleném formátu, nebo zkopírovat sdílený odkaz. Použijte API pro dávkové zpracování a integraci do vašeho pracovního postupu.
Text k případům využití řeči
AI-powered text-to-speech transformuje, jak lidé vytvářet, konzumovat a komunikovat s audio obsahu v desítkách odvětví.
Všechny texty pro mluvené modely
Podrobné specifikace pro každý model AI dostupný na TTS.ai. Porovnejte kvalitu, rychlost, jazykovou podporu a funkce, abyste našli perfektní model pro váš projekt.
Kokoro
Free
Kokoro je 82 milionů parametru text-to-speech model, který punčuje daleko nad jeho hmotnost třídy. Navzdory své malé velikosti, produkuje pozoruhodně přírodní a expresivní řeč. Kokoro podporuje více jazyků včetně angličtiny, japonštiny, čínštiny a korejštiny s řadou expresivních hlasů. To běží neuvěřitelně rychle, generování zvuku téměř 100x rychleji než v reálném čase na GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
Ne.
Volné
Piper
Free
Piper je lehký text-to-speech motor vyvinutý Rhasspy, který používá VITS a hrtan architektury. To běží zcela na CPU, což je ideální pro hrany zařízení, domácí automatizace, a aplikace vyžadující offline TTS. S více než 100 hlasy v 30 + jazyky, Piper poskytuje přírodní-zpívající řeč při rychlostech v reálném čase i na Malina Pi 4.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
Ne.
Volné
VITS
Free
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) je paralelní metoda TTS ke konci, která generuje více přirozeného zvuku než současné dvoustupňové modely. Přijímá variační inferenci rozšířenou o normalizační toky a protivní výcvikový proces, který dosahuje významného zlepšení přirozenosti.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
Ne.
Volné
MeloTTS
Free
MeloTTS by MyShell.ai je vícejazyčná TTS knihovna podporující angličtinu (American, British, Indian, Australan), španělštinu, francouzštinu, čínštinu, japonštinu a korejštinu. Je to velmi rychlé, zpracování textu při rychlosti téměř v reálném čase na procesoru sám. MeloTTS je určen pro výrobu a podporuje jak CPU a GPU inference.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Ne.
Volné
Bark
Standard
Bark by Suno je model na bázi transformeru, který může generovat vysoce realistické, vícejazyčné řeči, stejně jako jiné zvuky jako hudba, zvuk pozadí, a zvukové efekty. Může produkovat nonverbální komunikace, jako je smích, vzdych a pláč. Bark podporuje více než 100 předvoleb reproduktorů a 13+ jazyků.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Ne.
2x
Bark Small
Standard
Bark Small je destilovaná verze modelu Bark, která obchoduje s určitou kvalitou zvuku pro výrazně rychlejší inference rychlosti a nižší požadavky na paměť. Udržuje Bark schopnost vytvářet řeč s emocemi, smích, a více jazyků.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Ne.
2x
CosyVoice 2
Standard
CosyVoice 2 od Alibaba je Tongyi Lab dosahuje lidské-srovnatelné kvality řeči s extrémně nízkou latencí, což je ideální pro aplikace v reálném čase. Používá konečný skalární kvantizační přístup pro streaming syntézy a podporuje nulovací-shot hlas klonování, křížovou syntézu, a jemně zakořeněné emoční kontroly. To překonává mnoho komerčních TTS systémů v subjektivních hodnocení.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Ano.
2x
Dia TTS
Standard
Dia by Nari Labs je parametr 1.6B text-to-speech model určený speciálně pro generování multi-speaker dialog. To může vytvářet přirozeně znějící rozhovory mezi dvěma reproduktory s vhodným zatáčení, prosody a emocionální výraz. Dia je ideální pro tvorbu podcast-styl obsahu, audiokniha dialogů, a interaktivní konverzační AI.
Nari Labs
Apache 2.0
Medium
en
4GB
Ne.
2x
Parler TTS
Standard
Parler TTS je text-to-speech model, který používá přírodní jazyk hlasové popisy pro kontrolu generované řeči. Místo výběru z přednastavených hlasů, popisujete hlas, který chcete (např. "teplý ženský hlas s mírným britským přízvukem, mluví pomalu a jasně") a Parler generuje řeč odpovídající tomuto popisu. To je jedinečně flexibilní pro kreativní aplikace.
Hugging Face
Apache 2.0
Medium
en
4GB
Ne.
2x
GLM-TTS
Standard
GLM-TTS od Zhipu AI je systém text-to-speech postavený na architektuře Llama s flow matching. Dosáhne nejnižší chybovost znaku mezi open-source TTS modely, což znamená, že produkuje nejpřesnější výslovnost. GLM-TTS podporuje angličtinu a čínštinu s hlasovým klonováním ze 3-10 sekund audio vzorků.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
Ano.
2x
IndexTTS-2
Standard
IndexTTS-2 je pokročilý systém text-to-speech, který vyniká při syntéze nulovacího hlasu s jemnou emocionální kontrolou. Může generovat řeč konkrétními emocionálními tóny jako je šťastný, smutný, naštvaný, nebo strach, aniž by vyžadovala údaje o specifickém tréninku emocí. Model používá emocionální vektory přesně k ovládání emocionálního výrazu generované řeči.
Index Team
Bilibili Model License
Medium
en, zh
4GB
Ano.
2x
Spark TTS
Standard
Spark TTS by SparkAudio je model text-to-speech, který kombinuje klonování hlasu s kontrolovatelnou emocí a stylem mluvení. Pomocí pouhých 5 sekund referenčního zvuku může naklonovat hlas a pak generovat řeč s různými emocemi, rychlostmi a styly při zachování klonované hlasové identity. Spark TTS používá rychle založený řídicí systém.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
Ano.
2x
GPT-SoVITS
Standard
GPT-SoviTS kombinuje modeling jazyka ve stylu GPT se Sovits (Singing Voice Inference prostřednictvím překladu a syntézy) pro velmi málo střílející hlasové klonování. S pouhými 5 sekundami referenčního zvuku může přesně naklonovat hlas a vytvářet nový projev při zachování unikátních vlastností řečníka. Vyniká jak při syntéze mluvení, tak i zpěvu hlasu.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Ano.
2x
Orpheus
Standard
Orfeus je velkoplošný text-to-speech model, který dosahuje lidského-úroveň emocionálního výrazu. Vycvičený na více než 100.000 hodin různých řečových dat, vyniká při vytváření řeči s přirozenými emocemi, důraz, a mluvící styly. Orfeus může produkovat řeč, která je prakticky nerozlišitelný z lidských nahrávek.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Ne.
2x
Chatterbox
Premium
Chatterbox od Resemble AI je špičkový model klonování hlasu s nulovým výstřelem. Může replikovat jakýkoliv hlas z jediného zvukového vzorku s pozoruhodnou přesností, zachycuje nejen timbre, ale také mluvící styl a emocionální nuance. Chatterbox také obsahuje jemně zakořeněné emoční ovládání, což vám umožní upravit emoční tón generované řeči nezávisle na hlasové identitě.
Resemble AI
MIT
Medium
en
4GB
Ano.
4x
Tortoise TTS
Premium
Tortoise TTS je autoregresivní multi-hlasový text-to-slovní systém, který upřednostňuje kvalitu zvuku přes rychlost. Využívá architekturu inspirovanou DALL-E k vytvoření vysoce přirozené řeči s vynikající prosody a podobnost reproduktorů. Zatímco pomalejší než mnoho alternativ, Tortoise produkuje některé z nejrealističtější syntetické řeči dostupné v open-source ekosystému.
James Betker
Apache 2.0
Slow
en
8GB
Ano.
4x
StyleTTS 2
Premium
Styl TTS 2 dosahuje syntézy TTS na lidské úrovni kombinací stylové difúze s protivním tréninkem pomocí velkých jazykových modelů. Vytváří nejpřirozenější zvukovou řeč mezi jednohlasnými modely, soupeřícími s lidskými nahrávkami. Styl TTS 2 používá modelování na bázi difuzního stylu, aby zachytil celou škálu variace lidské řeči.
Columbia University
MIT
Medium
en
4GB
Ne.
4x
OpenVoice
Premium
OpenVoice by MyShell.ai umožňuje okamžité klonování hlasu s granulovanou kontrolou nad hlasovým stylem, emocí, akcentem, rytmem, pauzami a intonací. Může naklonovat hlas z krátkého zvukového klipu a generovat řeč ve více jazycích při zachování identity reproduktoru. OpenVoice také funguje jako hlasový převodník, který umožňuje proměnu hlasu v reálném čase.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Ano.
4x
Qwen3 TTS
Standard
Qwen3-TTS je 1,7 miliardy parametru text-to-speech modelu od Alibaby Qwen týmu. Podporuje tři režimy: přednastavené hlasy s emoční kontrolou (9 reproduktorů), hlas klonování z pouhých 3 sekundy zvuku, a jedinečný hlasový design režimu, kde popisujete hlas, který chcete v přirozeném jazyce. To zahrnuje 10 jazyků s vysokou expresivitou a přírodní prosodie.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Ano.
2x
Sesame CSM
Premium
Sezamový CSM (konverzační Speech Model) je 1 miliardový parametrový model určený speciálně pro generování konverzační řeči. Modeluje přirozené vzorce lidské konverzace včetně časování, zpětné reakce, emocionální reakce a konverzační tok. CSM vytváří zvuk, který zní spíše jako přirozený lidský rozhovor než syntetická řeč.
Sesame
Apache 2.0
Slow
en
8GB
Ne.
4x
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
Ne.
Volné
Kokoro
Volné
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Volné
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Volné
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Volné
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Kitten TTS
Volné
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
Standardní
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Ne.
Bark Small
Standardní
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Ne.
CosyVoice 2
Standardní
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Ano.
Dia TTS
Standardní
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Ne.
Parler TTS
Standardní
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Ne.
GLM-TTS
Standardní
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
Ano.
IndexTTS-2
Standardní
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
Ano.
Spark TTS
Standardní
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
Ano.
GPT-SoVITS
Standardní
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Ano.
Orpheus
Standardní
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Ne.
Qwen3 TTS
Standardní
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Ano.
Porovnávací tabulka modelu
| Vzor | Vývojář: | Úroveň | Kvalita: | Rychlost | jazyky | Klonování hlasu | VRAM | Licence: | úvěry | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Volné | Použití | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Volné | Použití | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Volné | Použití | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Volné | Použití | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Použití | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Použití | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Použití | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Použití | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Použití | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | Použití | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | Použití | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | Použití | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Použití | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Použití | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Použití | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Použití | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Použití | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Použití | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Použití | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Použití | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Volné | Použití |
Nejkomplexnější AI text pro jazykovou platformu
Proč si vybrat TTS.ai pro text do řeči?
TTS.ai spojuje nejlepší open-source text-to-speech modely na světě v jediném, snadno použitelné platformě. Na rozdíl od proprietární služby, které vás uzamknou do jediného hlasového motoru, TTS.ai vám dává přístup k 20+ modelů z předních výzkumných laboratoří, včetně Coqui, MyShell, Amfion, NVIDIA, Suno, HuggingFace, Tsinghua University, a další.
Každý model je otevřeným zdrojem pod MIT, Apache 2.0 nebo podobnými povolnými licencemi, které zajišťují, že máte plná komerční práva používat generovaný zvuk ve vašich projektech. Ať už potřebujete rychlou, lehkou syntézu pro aplikace v reálném čase nebo prémiový výstup kvality studia pro audioknihy a podcasty, TTS.ai má ten správný model pro každý případ použití.
Zdarma modely, žádný účet nevyžaduje
Začněte ihned se třemi zdarma TTS modely: Piper (ultra-rychlý, lehký), VITS (vysoce kvalitní neurální syntéza) a MeloTTS (vícejazyčná podpora). Žádné přihlášení, žádná kreditní karta, žádné omezení pro generace. Volné modely podporují angličtinu a více dalších jazyků s přirozeným zvukovým výstupem vhodným pro většinu aplikací.
Zpracování pomocí GPU-Accelated
Všechny modely TTS běží na specializovaných NVIDIA GPU pro rychlé, konzistentní generační časy. Volné modely obvykle generují zvuk za méně než 2 sekundy. Standardní modely jako Kokoro, CosyVoice 2, a Bark průměr 3-5 sekund. Premium modely s nejvyšší kvalitou, jako je Tortoise a Chatterbox, proces za 5-15 sekund v závislosti na délce textu.
30+ Podporované jazyky
Generovat řeč ve více než 30 jazycích včetně angličtina, španělština, francouzština, němčina, italština, portugalština, čínština, japonština, korejština, arabština, hindština, ruština, a mnoho dalších. Několik modelů podporuje křížovou syntézu, což znamená, že můžete generovat řeč v jazyce původní hlas nebyl nikdy vyškolen na. CosyVoice 2 a GPT-SoviTS vynikají při křížově-kulturní hlas klonování.
Vývojář-Ready API
Integrujte TTS.ai do Vašich aplikací s naší OpenAI kompatibilní REST API. Jeden cílový bod pro všechny 20+ modely. Python, JavaScript, CURL a Go SDKs. Streamovací podpora pro aplikace v reálném čase. Dávkové zpracování pro velkoplošnou tvorbu obsahu. Webhooks pro async oznámení. K dispozici na Pro a Enterprise plány.
Často kladené otázky
Co bychom mohli zlepšit? Vaše zpětná vazba nám pomáhá řešit problémy.
Začněte přeměňovat text na projev nyní
Připojte se k tisícům tvůrců s využitím TTS.ai. Získejte 15 000 volných znaků s novým účtem. Bezplatné modely jsou k dispozici bez přihlášení.