Soratra mankany amin'ny feo
Manova ny lahabolana ho teny mivoaka toy ny tena izy amin'ny alalan'ny modely AI loharano misokatra. Afaka ampiasaina maimaimpoana, tsy mila kaonty.
Ampidiro anatin'ny tag SSML ny lahabolana mba hahazoana fifehezana mazava tsara:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Hampiditra marika fanehoana fihetseham-po mba hitondra fiantraikany amin'ny fandefasana (miovaova ny modely fanohanana):
Mamaritra ny fanononana safidy (teny = fanononana):
Antsipirian'ilay modely
Kitten TTS
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
| Mpamorona: | KittenML |
| Lisansa: | Apache 2.0 |
| _Hafainganana: | Fast |
| Kalitao: | |
| Teny | 1 fiteny |
| VRAM | 0GB |
| Fandraisana an-tsoratra feo | Tsy raisina an-tànana |
Torohevitra ho an'ny vokatra tsara kokoa
- Ampiasao ny fanononana mety amin'ny fiatoana sy ny fiteny
- Soraty ny isa sy ny fanononana mba ho mazava kokoa ny fehezanteny
- Hampiditra virtoaly mba hamoronana fiatoana fohy eo anelanelan'ny fehezanteny
- Ampiasao ny ellipsis (...) raha mila fiatoana lava kokoa
- Andramo ny Kokoro na ny CosyVoice 2 ho an'ny vokatra tena voajanahary indrindra
- Ny Dia no ampiasaina amin'ny takila misy mpiteny maro sy ny votoaty podcast
Fampiasàna marika
| Taona | Ny vidin'ny marika 1K |
|---|---|
| Free | 1:1 (tsy voafetra) |
| Stock label | Marika 2x |
| Premium | Marika 4x |
Ahoana ny fomba fiasan'ny AI Text to Speech
Mamorona feo avo lenta amin'ny dingana telo tsotra. Tsy mila fahalalana ara-teknika.
Soraty ny lahabolana
Manorata, apetaho na alefa ny lahabolana tianao ovaina ho teny mivaky. Mandray an-tànana hatramin'ny marika 5000 isan-karazany ho an'ireo mpampiasa efa niditra. Ampiasao ny lahabolana tsotra na ampio tag SSML mba hifehezana ny fehezanteny, ny fiatoana, ary ny fanasongadinana.
Safidio ny modely sy ny feo
Misafidiana modely AI mihoatra ny 20 amin'ny ambaratonga telo. Misafidiana feo mifanaraka amin'ny votoatiny, misafidiana ny teny tianao ampiasaina, manova ny hafainganan'ny famakiana eo anelanelan'ny 0.5x ka hatramin'ny 2.0x, ary misafidy ny endrika famoahana tianao (MP3, WAV, OGG, na FLAC).
Hamorona sy hisintona
Tsindrio ny "Mamorona" dia ho vonona ao anatin'ny segondra vitsy ny feonao. Jereo aloha amin'ny alalan'ny mpilalao mipetaka ao anatiny, vakio amin'ny lamina safidinao, na adikao amin'ny alalan'ny rohy azo zaraina. Ampiasao ny API ho an'ny fiasan'ny batch sy ny fampidirana amin'ny fizotranao.
Soratra mankany amin'ny fiteny
Manova ny fomba famoronan'ny olona, fanjifana, ary fifandraisan'izy ireo amin'ny votoaty am-peo manerana ny indostria am-polony ny lahatsoratra-ho-teny mifototra amin'ny AI.
Ireo modelin'ny fandikana lahabolana rehetra
Famaritana amin'ny antsipiriany ho an'ny modely AI rehetra hita ao amin'ny TTS.ai. Ampitahao ny kalitao, ny hafainganam-pandeha, ny fanohanana ny teny, ary ny endri-javatra mba hahitana ny modely mety indrindra ho an'ny tetikasao.
Kokoro
Free
Kokoro dia modely 82 tapitrisa amin'ny famaritana ny soratra ho teny izay misongadina tsara noho ny lanjany. Na dia kely aza ny habeny, dia mamorona teny tena natiora sy maneho hevitra izy. Manohana fiteny marobe ny Kokoro, anisan'izany ny teny Anglisy, Japoney, Shinoa, ary Koreana miaraka amin'ny feo marobe maneho hevitra. Mandroso haingana dia haingana izy — mamorona feo haingana 100 heny noho ny fotoana tena izy amin'ny GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
Tsia
Free
Piper
Free
Ny Piper dia milina madinika iray hanova ny soratra ho teny namboarin'ny Rhasspy izay mampiasa ny VITS sy ny larynx architecture. Miasa tanteraka amin'ny CPU izy, ka mahatonga azy ho tsara indrindra ho an'ny fitaovana eny amin'ny sisiny, ny fanaraha-maso ny trano, ary ny rindran'asa mila TTS tsy misy fifandraisana. Miaraka amin'ny feo maherin'ny 100 amin'ny teny 30+ ny Piper, manome feo voajanahary amin'ny fiteny amin'ny hafainganam-pandeha tena izy na dia amin'ny Raspberry Pi 4 aza.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
Tsia
Free
VITS
Free
Ny VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) dia fomba TTS mifamatotra miainga avy amin'ny farany ka hatrany amin'ny farany izay mamorona feo miafina miavaka kokoa noho ny modely roa dingana ankehitriny. Mandray ny fiheverana miovaova ampitomboina amin'ny fikorianan'ny normalization sy ny fizotry ny fanazaran-tena mifanohitra izy, ary mahazo fanatsarana goavana amin'ny natiora.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
Tsia
Free
MeloTTS
Free
Ny MeloTTS avy amin'ny MyShell.ai dia tranomboky TTS maro teny izay manohana ny teny Anglisy (Amerikana, Britanika, Indiana, Aostraliana), Espaniola, Frantsay, Shinoa, Japoney, ary Koreana. Tena haingana dia haingana izy io, mandray andraikitra amin'ny teny amin'ny hafainganam-pandeha mitovy amin'ny fotoana tena izy amin'ny CPU ihany. Ny MeloTTS dia natao ho an'ny fampiasana amin'ny famokarana ary manohana ny CPU sy ny GPU.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Tsia
Free
Bark
Standard
Ny Bark avy amin'ny Suno dia modely fanovana lahatsoratra ho feo mifototra amin'ny mpanova izay afaka mamorona teny marobe tena marina sy feo hafa toy ny mozika, ny feo ambadiky ny feo, ary ny vokatry ny feo. Afaka mamorona fifandraisana tsy amin'ny teny toy ny hihomehezana, ny fikorontanana, ary ny mitomany izy io. Manohana mpiteny efa voafaritra mialoha mihoatra ny 100 sy fiteny mihoatra ny 13 ny Bark.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Tsia
2x
Bark Small
Standard
Ny Bark Small dia endrika namboarina tamin'ny maodelin'ny Bark izay mivarotra ny kalitaon'ny feo ho an'ny hafainganam-pandehan'ny fiheverana haingana kokoa sy ny filàna arika ambany kokoa. Mitahiry ny fahaizan'ny Bark hamorona resaka miaraka amin'ny fihetseham-po, ny hihomehezana, ary ny fiteny maro izy.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Tsia
2x
CosyVoice 2
Standard
Ny CosyVoice 2 avy amin'ny Tongyi Lab ao Alibaba dia manana kalitaon'ny feo mitovy amin'ny an'ny olombelona nefa manana fotoana fiatoana ambany indrindra, ka mahatonga azy io ho tsara indrindra ho an'ny fampiharana amin'ny fotoana tena izy. mampiasa fomba fiasa finite scalar quantumization izy io ho an'ny fampifangaroana mivantana ary manohana ny famoronana feo tsy misy fipoahana, fampifangaroana teny maro, ary ny fifehezana ny fihetseham-po amin'ny fomba tsara. mahatratra ny fahaizany ny rafitra TTS marobe amin'ny tsena amin'ny fanadihadiana ny tena.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Eny
2x
Dia TTS
Standard
Ny Dia avy amin'ny Nari Labs dia modely 1.6B soratra-ho-teny natao manokana ho an'ny famoronana adihevitra maro mpiteny. Afaka mamorona resaka miafina eo amin'ny mpiteny roa miaraka amin'ny fihodinan'ny fotoana, ny fiteny, ary ny fiteny ara-pihetseham-po izy. Ny Dia dia mety tsara amin'ny famoronana votoaty tahaka ny podcast, adihevitra amin'ny boky audio, ary AI mifampiresaka.
Nari Labs
Apache 2.0
Medium
en
4GB
Tsia
2x
Parler TTS
Standard
Ny Parler TTS dia modely fandikana lahabolana ho teny izay mampiasa ny famaritana feo avy amin'ny teny natoraly mba hifehezana ny kabary azo. Raha tsy misafidy avy amin'ireo feo efa voafaritra mialoha ianao, dia mamaritra ny feo tianao (ohatra, "feo vehivavy mafana manana feo Britanika kely, miteny milamina sy mazava") ary ny Parler dia mamorona ny kabary mifanaraka amin'io famaritana io. Izany no mahatonga azy ho sarotra ampiasaina amin'ny rindranasa famoronana.
Hugging Face
Apache 2.0
Medium
en
4GB
Tsia
2x
GLM-TTS
Standard
Ny GLM-TTS avy amin'ny Zhipu AI dia rafitra fandikana teny ho teny mivantana, natsangana tamin'ny fomba fanamboarana Llama miaraka amin'ny fifandanjana miverimberina. Manana ny tahan'ny hadisoana amin'ny marika ambany indrindra amin'ireo maodely TTS misokatra izy, izay midika fa manome ny fehezanteny marina indrindra. Ny GLM-TTS dia manohana ny teny Anglisy sy ny teny Sinoa miaraka amin'ny fandikana feo avy amin'ny santionan-teny 3-10 segondra.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
Eny
2x
IndexTTS-2
Standard
IndexTTS-2 dia rafitra fanovana lahatsoratra ho teny mivantana izay miavaka amin'ny famoronana feo tsy misy fipoahana miaraka amin'ny fifehezana ny fihetseham-po tsara. Afaka mamorona teny amin'ny feo misy fihetseham-po manokana toy ny faly, malahelo, tezitra, na matahotra izy io, tsy mila angon-drakitra fanazarantena manokana momba ny fihetseham-po. Mampiasa ny vector fihetseham-po ny modely mba hifehezana amin'ny fomba mazava ny fisehoan'ny fihetseham-po amin'ny teny novokarina.
Index Team
Bilibili Model License
Medium
en, zh
4GB
Eny
2x
Spark TTS
Standard
Ny Spark TTS avy amin'ny SparkAudio dia maodelin'ny soratra mankany amin'ny fitenenana izay mampifangaro ny fandikana feo miaraka amin'ny fihetseham-po azo fehezina sy ny fomba fitenenana. Amin'ny fampiasana feon-kira 5 segondra monja, afaka manitatra feo iray izy ary avy eo mamorona fitenenana miaraka amin'ny fihetseham-po, hafainganam-pandeha ary fomba fiteny samihafa raha mbola mitazona ny maha-izy azy ny feon'ny fandikana. Mampiasa rafitra fifehezana mifototra amin'ny fanontaniana ny Spark TTS.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
Eny
2x
GPT-SoVITS
Standard
Mitambatra amin'ny modelin'ny teny GPT sy ny SoVITS (Singing Voice Inference via Translation and Synthesis) ny GPT-SoVITS mba hahazoana fanangonana feo mahomby. Amin'ny feon-kira 5 segondra monja, afaka mamorona feo sy mamorona kabary vaovao izy ary mitahiry ny toetra tokana an'ilay mpiteny. Tena tsara amin'ny fanangonana feo amin'ny fitenenana sy ny fihira izy.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Eny
2x
Orpheus
Standard
Ny Orpheus dia maodelin'ny soratra mankany amin'ny fitenenana amin'ny ambaratonga lehibe izay mahatratra ny fanehoana fihetseham-po amin'ny ambaratongan'ny olombelona. Nahazo fiofanana tamin'ny angon-drakitra fitenenana isan-karazany maherin'ny 100.000 ora izy, ary misongadina amin'ny famoronana fitenenana miaraka amin'ny fihetseham-po voajanahary, ny fanamafisana, ary ny fomba fiteny. Afaka mamorona fitenenana izay tsy azo lazaina ho hafa noho ny fandraketana nataon'ny olona ny Orpheus.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Tsia
2x
Chatterbox
Premium
Ny Chatterbox avy amin'ny Resemble AI dia maodelin'ny fanitarana feo tsy misy fipoahana. Afaka manova feo rehetra avy amin'ny santionan'ny feo tokana izy io amin'ny fahamarinana mahatalanjona, tsy vitan'ny hoe maka ny feo fotsiny fa ny fomba fiteny sy ny fihetseham-po ihany koa. Ny Chatterbox koa dia manana ny fifehezana ny fihetseham-po, izay mamela anao hanova ny tonon'ny fihetseham-po amin'ny kabary novokarina tsy miankina amin'ny maha-izy ny feo.
Resemble AI
MIT
Medium
en
4GB
Eny
4x
Tortoise TTS
Premium
Ny Tortoise TTS dia rafi-peo maro miverina amin'ny laoniny amin'ny alalan'ny soratra mankany amin'ny feo izay manome lanja ny kalitaon'ny feo fa tsy ny hafainganan'ny feo. Mampiasà rafitra nalaina avy amin'ny DALL-E izy io mba hamoronana feo tena natioraly miaraka amin'ny fiteny tsara sy ny fitoviana amin'ny mpiteny. Raha toa ka maivana kokoa noho ny safidy maro hafa, ny Tortoise kosa dia mamorona ny sasany amin'ireo feo mitambatra tena misy ao amin'ny tontolon'ny loharano misokatra.
James Betker
Apache 2.0
Slow
en
8GB
Eny
4x
StyleTTS 2
Premium
Ny StyleTTS 2 dia mahavita ny fitambarana TTS amin'ny ambaratongan'ny olombelona amin'ny alàlan'ny fampifangaroana ny fiparitahan'ny endrika amin'ny fanazarantena mifanohitra amin'ny fampiasana ny maodelin'ny fiteny be fiteny. Mamorona ny fitenenana izay miteny toy ny tena izy indrindra izy eo amin'ny maodelin'ny mpiteny iray, mifaninana amin'ny fandraketana ny olona. Mampiasa ny maodelin'ny endrika mifototra amin'ny fiparitahana ny StyleTTS 2 mba haka ny fiovan'ny fiteny rehetra.
Columbia University
MIT
Medium
en
4GB
Tsia
4x
OpenVoice
Premium
Ny OpenVoice avy amin'ny MyShell.ai dia mamela ny fandikana feo avy hatrany miaraka amin'ny fifehezana ny fomba fiteny, ny fihetseham-po, ny fiteny, ny fiteny, ny fiatoana, ary ny fiteny. Afaka manitatra feo avy amin'ny horonantsary fohy izy ary mamorona kabary amin'ny teny maro nefa tsy manala ny maha-izy ny mpiteny. Miasa toy ny mpanova feo ihany koa ny OpenVoice, izay mamela ny fanovana feo amin'ny fotoana tena izy.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Eny
4x
Qwen3 TTS
Standard
Qwen3-TTS dia maodely 1.7 miliara parameters text-to-speech avy amin'ny ekipa Qwen ao amin'ny Alibaba. Manaiky fomba telo izy: feo efa voafaritra mialoha miaraka amin'ny fifehezana ny fihetseham-po (mpiteny 9), fandikana feo avy amin'ny 3 segondra monja amin'ny feo, ary fomba iray manokana amin'ny famolavolana feo izay ahafahanao mamaritra ny feo tianao amin'ny teny natoraly.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Eny
2x
Sesame CSM
Premium
Ny Sesame CSM (Conversational Speech Model) dia maodely misy singa 1 miliara namboarina manokana ho an'ny famoronana resadresaka. Izy io dia mamolavola ny endrika natioran'ny resadresaka ataon'ny olombelona, anisan'izany ny fotoana fandraisana anjara, ny valin'ny backchannel, ny fihetseham-po, ary ny fivoahan'ny resadresaka. Ny CSM dia mamorona feo mitovy amin'ny resadresaka natioran'ny olombelona fa tsy ny resadresaka artifisialy.
Sesame
Apache 2.0
Slow
en
8GB
Tsia
4x
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
Tsia
Free
Kokoro
Free
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Free
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Free
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Free
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
Stock label
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Tsia
Bark Small
Stock label
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Tsia
CosyVoice 2
Stock label
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Eny
Dia TTS
Stock label
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Tsia
Parler TTS
Stock label
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Tsia
GLM-TTS
Stock label
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
Eny
IndexTTS-2
Stock label
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
Eny
Spark TTS
Stock label
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
Eny
GPT-SoVITS
Stock label
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Eny
Orpheus
Stock label
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Tsia
Qwen3 TTS
Stock label
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Eny
Tabilao fampitahana modely
| Modely | Mpamorona: | Taona | Kalitao: | _Hafainganana: | Teny | Fandraisana an-tsoratra feo | VRAM | Lisansa: | Ny vidin'ny | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Free | Ampiasao | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Free | Ampiasao | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Free | Ampiasao | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Free | Ampiasao | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Ampiasao | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Ampiasao | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Ampiasao | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Ampiasao | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Ampiasao | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | Ampiasao | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | Ampiasao | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | Ampiasao | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Ampiasao | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Ampiasao | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Ampiasao | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Ampiasao | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Ampiasao | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Ampiasao | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Ampiasao | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Ampiasao | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Free | Ampiasao |
Ny sehatra AI Text to Speech feno indrindra
Nahoana no misafidy ny TTS.ai ho an'ny Soratra ho Fitenenana?
Mitambatra ao anatin'ny sehatra iray, mora ampiasaina, ny maodely tsara indrindra manerantany amin'ny fanehoana lahatsoratra ho amin'ny resaka, ny TTS.ai. tsy toy ny tolotra manokana izay manakana anao amin'ny milina feo tokana, manome anao fidirana amin'ny maodely mihoatra ny 20 avy amin'ireo laboratoara fikarohana lehibe, anisan'izany ny Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, ny Anjerimanontolon'i Tsinghua, ary maro hafa.
Ny modely tsirairay dia loharano misokatra eo ambanin'ny MIT, Apache 2.0, na lisansa mitovy amin'izany, izay manome antoka fa manana zo ara-barotra feno ianao hampiasa ny feo navoaka ao amin'ny tetikasao. Na mila famoronana haingana sy maivana ho an'ny rindran'asa amin'ny fotoana tena izy ianao na vokatra avo lenta ho an'ny boky audio sy podcast, manana ny modely mety amin'ny tranga rehetra ny TTS.ai.
Modely maimaimpoana, tsy mila kaonty
Manomboka avy hatrany amin'ny maodely telo maimaimpoana TTS: Piper (tena haingana, maivana), VITS (fanamboarana neural avo lenta), ary MeloTTS (fanampiana fiteny marobe). Tsy mila misoratra anarana, tsy mila karatra fandoavam-bola, tsy misy fetra amin'ny taranaka. Manohana ny teny Anglisy sy ny fiteny hafa marobe miaraka amin'ny feo voajanahary mifanaraka amin'ny ankamaroan'ny rindrambaiko ny maodely maimaimpoana.
Fandraisana an-tànana alefa amin'ny GPU
Ireo modely TTS rehetra dia mandeha amin'ny GPU NVIDIA manokana mba hahazoana fotoana famoronana haingana sy tsy miova. Ny modely maimaimpoana dia matetika mamorona feo ao anatin'ny 2 segondra. Ny modely mahazatra toy ny Kokoro, CosyVoice 2, ary Bark dia eo amin'ny 3-5 segondra eo ho eo. Ny modely premium manana kalitao avo indrindra, toy ny Tortoise sy Chatterbox, dia miasa ao anatin'ny 5-15 segondra arakaraka ny halavan'ny lahabolana.
Teny 30+ raisina an-tànana
Mamorona kabary amin'ny teny maherin'ny 30, anisan'izany ny teny Anglisy, Espaniola, Frantsay, Alemàna, Italiana, Portiogey, Sinoa, Japoney, Koreana, Arabo, Hindi, Rosiana, ary maro hafa. Maro ny modely manohana ny famoronana kabary amin'ny teny maro, izay midika fa afaka mamorona kabary amin'ny teny iray izay tsy mbola notrehin'ny feo voalohany ianao. Ny CosyVoice 2 sy ny GPT-SoVITS dia tena tsara amin'ny famoronana kabary amin'ny teny maro.
API vonona ho an'ny mpamorona
Ampidiro ao anatin'ny rindranasanao ny TTS.ai miaraka amin'ny API REST mifanaraka amin'ny OpenAI. Endpoint iray ho an'ny maodely 20+ rehetra. Python, JavaScript, cURL, ary Go SDKs. Fanohanana ny streaming ho an'ny rindranasa amin'ny fotoana tena izy. Fandraisana anjara amin'ny famoronana votoaty marobe. Webhooks ho an'ny fampahafantarana async. Azo ampiasaina amin'ny drafitra Pro sy Enterprise.
Fanontaniana mipetraka matetika
Inona no azonay atao mba hanatsarana? Manampy anay hamahana ny olana ny fihetseham-ponao.
Manomboka mamadika lahabolana ho feo izao
Miara-miasa amin'ireo mpamorona an'arivony mampiasa ny TTS.ai. Mahazo marika 15000 maimaimpoana amin'ny alalan'ny kaonty vaovao. Misy ireo modely maimaimpoana azo ampiasaina tsy mila misoratra anarana.