Bezmaksas AI Teksts uz runu
33+ atklātā pirmkoda modeļus, 273+ balsis, 33+ valodas. Konts nav nepieciešams.
Viss, kas jums nepieciešams balss AI
30+ rīki ar atvērta pirmkoda AI modeļiem
33+ AI balss modeļi
Visplašākā atvērtā avota TTS modeļu kolekcija vienā platformā
Kokoro Bezmaksas
Kokoro ir 82 miljoni parametru tekstu-to-speech modelis, kas perforē krietni virs tā svara klases. Neskatoties uz tā sīko izmēru, tas rada ārkārtīgi dabas un izteiksmīgu runu. Kokoro atbalsta vairākas valodas, tostarp angļu, japāņu, ķīniešu un korejiešu ar dažādu izteiksmīgu balsi. Tas darbojas neticami ātri — radot audio gandrīz 100x ātrāk nekā reālā laikā GPU.
Labākais par: Augstas kvalitātes TTS ar minimālu latentumu, straumēšanas lietojumprogrammas
Mēģināt atbrīvot
Piper Bezmaksas
Piper ir viegla teksta-to-speech motors, kas izstrādāts Rhasspy kas izmanto VITS un balsenes arhitektūras. Tas darbojas pilnīgi uz CPU, padarot to ideāli piemērots malas ierīcēm, mājas automatizācijas, un lietojumprogrammas, kas prasa bezsaistes TTS. Ar vairāk nekā 100 balsis 30+ valodās, Piper piedāvā dabas skaņas runu reāllaikā pat uz Aveņu Pi 4.
Labākais par: Ātri priekšskatījumi, pieejamība un iegultās lietojumprogrammas
Mēģināt atbrīvot
VITS Bezmaksas
VITS (Variational Induction with conversarial learning for end-to-end Text-to-Speech) ir paralēla visdažādākā TTS metode, kas rada vairāk dabas skaņas nekā pašreizējie divpakāpju modeļi. Tā pieņem dažādus secinājumus, kas papildināti ar normalizēšanu plūsmas un sacīkstes apmācību procesu, panākot ievērojamu dabas uzlabojumu.
Labākais par: Vispārējs teksts-to-speech ar dabisku prozodi
Mēģināt atbrīvot
MeloTTS Bezmaksas
MeloTTS by MyShell.ai ir daudzvalodu TTS bibliotēka, kas atbalsta angļu (Amerikāņu, Britu, Indijas, Austrālijas), spāņu, franču, ķīniešu, japāņu, un korejiešu. Tas ir ļoti ātri, apstrādājot tekstu gandrīz reālā laikā ātrumu CPU vien. MeloTTS ir paredzēta ražošanas izmantošanu un atbalsta gan CPU un GPU inference.
Labākais par: Ražošanas lietojumprogrammas, kurām nepieciešama ātra, daudzvalodu TTS
Mēģināt atbrīvot
Kani TTS 2 Bezmaksas
Kani-TTS-2 by NineNineSix ir īpaši vieglais 400M parametra modelis, kas veidots uz Liquid AI LFM2 mugurkaula ar NVIDIA NanoCodec. Tas darbojas tikai 3GB VRAM un rada ~10 sekundes runas par A100 (RTF 0.2). Pašreizējais publiskas izlaišanas kuģis ir angļu-tikai `kani- tts-2-en’ kontrolpunkts un neatklāj skaļruni- iegulošo āķi, kas nepieciešams balss klonēšanai — izmantot Chatterbox / IndexTTS2 / F5-TTS klonēšanai, vai Kokoro / MeloTTS neangļu valodā.
Labākais par: Ātra angļu paaudze uz zemas VRAM aparatūras, ātrs priekšskatījums
Mēģināt atbrīvot
OuteTTS Bezmaksas
OuteTTS paplašina lielu valodu modeļus ar teksta-to-speech iespējām, vienlaikus saglabājot sākotnējo arhitektūru. Tā atbalsta vairākas aizmugures, tostarp lama.cpp (CPU/GPU), Hagging Face Transformers, ExLlamaV2, VLLM, un pat pārlūkprogrammas ievadi, izmantojot Transformers.js. Funkcijas nulles-shot balss klonēšana caur skaļruņu profiliem saglabāts kā JSON.
Labākais par: Ekrāna izvēršana, uz pārlūkprogrammām balstīti TTS, vide ar zemu resursu līmeni
Mēģināt atbrīvot
Pocket TTS Bezmaksas
Pocket TTS by Kyutai (Moshi veidotāji) ir kompakts 100M parametra teksta-to-speech modelis, kas perforē krietni virs sava svara. Tas darbojas efektīvi ar CPU, atbalsta nulles staru balss klonēšanu no viena audio parauga un rada dabisku runu. Mazā modeļa izmērs padara to ideālu malu izvietošanai un zema avota vidē.
Labākais par: Viegla izvēršana, tikai procesora vide, ātra balss klonēšana
Mēģināt atbrīvot
Kitten TTS Bezmaksas
Kitten TTS (KittenML) ir īpaši viegla teksta uz smaku modelis, kas veidots uz ONNX bāzes. Ar variantiem no 15M līdz 80M parametriem (25-80 MB uz diska) tas nodrošina augstas kvalitātes balss sintēzi uz CPU bez GPU. Funkcijas 8 iebūvētas balsis, regulējams runas ātrums un iebūvēta teksta iepriekšēja apstrāde skaitļiem, valūtām un vienībām. Ideāli piemērots malu izvietošanai un zemas latenitātes lietojumprogrammām.
Labākais par: Ātrgaitas TTS, malu izvietojums, zemas latences lietojumprogrammas
Mēģināt atbrīvot
Ming-Omni TTS Bezmaksas
Ming-omni-tts-0.5B ar iekļaušanosAI ir kompakts visa modālā runas modelis, kas veidots uz BailingMM blīva mugurkaula ar Patch-by-Patch plūsmas sakritības audio dekoderi. Nodrošina 44,1kHz izvadi (neatkarīga CD kvalitāte), atbalsta nulles smailes balss klonēšanu no 3+ otrās atsauces, un ietver iebūvētu emociju / dialektivitātes / BGM kontrole, izmantojot JSON instrukcijas. Izcila stabilitāte — 0.83% WER par Ķīnas etaloniem.
Labākais par: Augsta uzticība divvalodu narācija, emocionāli kontrolēta balss, ķīniešu audiogrāmatu saturs
Mēģināt atbrīvot
MOSS-TTS Nano Bezmaksas
MOSS-TTS-Nano-100M ir OpenMOSS kompaktais MOSS-TTS saimes 100M-parametra variants, kas koplieto kavējuma-transformatoru arhitektūru. 8B modeļa augstākā kvalitāte ~80x mazākai svēršanai un krasi zemāka pēc pieprasījuma VRAM, padarot to piemērotu brīvās un augstas caurlaidības uzstādīšanai.
Labākais par: Brīvā līmeņa TTS, liela apjoma ražošana, zema latenta interaktīva izmantošana
Mēģināt atbrīvot
Bark Standarta
Transformatoru balstīta teksta-audio modelis, kas rada reālistisku runu, mūziku un skaņas efektus.
Izstrādātājs: Suno · Licence: MIT
Pamēģini to
Bark Small Standarta
Vieglāka versija bark ar ātrāku inclusion un zemāku atmiņas izmantošanu.
Izstrādātājs: Suno · Licence: MIT
Pamēģini to
CosyVoice 2 Standarta
Alibaba straumējamais TTS ar cilvēka paritāti naturalitāti un gandrīz nulles latenci.
Izstrādātājs: Alibaba (Tongyi Lab) · Licence: Apache 2.0
Pamēģini to
Dia TTS Standarta
Vairāku runātāju dialoga paaudzes modelis, kas rada dabiskas sarunas starp runātājiem.
Izstrādātājs: Nari Labs · Licence: Apache 2.0
Pamēģini to
Parler TTS Standarta
Aprakstiet, kāda balss vēlaties dabas valodā, un Parler rada atbilstošu runu.
Izstrādātājs: Hugging Face · Licence: Apache 2.0
Pamēģini to
IndexTTS-2 Standarta
Nulle-shot TTS ar smalki graudainu emociju kontroli un augstu izteiksmi.
Izstrādātājs: Index Team · Licence: Bilibili Model License
Pamēģini to
Spark TTS Standarta
Balss klonēšana TTS ar kontrolējamu emociju un runāšanas stilu, izmantojot pamudinājumus.
Izstrādātājs: SparkAudio · Licence: CC BY-NC-SA 4.0
Pamēģini to
GPT-SoVITS Standarta
Mazshot balss klonēšanas TTS, kas atkārto jebkuru balsi no tikai 5 sekundes audio.
Izstrādātājs: RVC-Boss · Licence: MIT
Pamēģini to
Orpheus Standarta
Cilvēka līmeņa emocionālo TTS modelis apguvis 100K runas stundas.
Izstrādātājs: Canopy Labs · Licence: Llama 3.2 Community
Pamēģini to
Qwen3 TTS Standarta
Alibaba daudzvalodu TTS ar iepriekš iestatītām balsīm un balss dizainu no teksta.
Izstrādātājs: Alibaba (Qwen) · Licence: Apache 2.0
Pamēģini to
VieNeu-TTS-v2 Standarta
Vjetnamiešu + Angļu kods-switching TTS ar 7 iepriekš iestatītas balsis un nulles-shot balss klonēšana. CPU tikai, nav GPU nepieciešams.
Izstrādātājs: Phạm Nguyễn Ngọc Bảo · Licence: Apache 2.0
Pamēģini to
Chatterbox Turbo Standarta
Ātrāka čatterbox ar sub-200m latentumu un paralinguistiskas tags smieties, klepus, un vairāk.
Izstrādātājs: Resemble AI · Licence: MIT
Pamēģini to
VoxCPM Standarta
TTS bez tokenaizera, kas ražo 44.1kHz audio ar konteksts-aparatūru punktu konsistences.
Izstrādātājs: OpenBMB · Licence: Apache 2.0
Pamēģini to
VibeVoice Standarta
Microsoft modelis ilgtermiņa multi skaļruņu saturam, piemēram, podcast un audiogrāmatām.
Izstrādātājs: Microsoft · Licence: MIT
Pamēģini to
CosyVoice3 Standarta
Nākamās paaudzes daudzvalodu TTS ar divstraumu, emociju kontroli un nulles kadru balss klonēšanu.
Izstrādātājs: Alibaba (FunAudioLLM) · Licence: Apache 2.0
Pamēģini to
NAMAA Saudi TTS Standarta
Pirmā atvērtā Saūda Arābijas TTS. Native Saūda Arābijas dialekts ar Chatterbox kvalitātes balss klonēšanu.
Izstrādātājs: NAMAA Space · Licence: MIT
Pamēģini to
Darwin TTS Standarta
Krustveida Qwen3-TTS variants ar FFN atsvariem, kas sajaukti no Qwen3-1,7B valodas modeļa asākai daudzvalodu klonēšanai.
Izstrādātājs: FINAL-Bench · Licence: Apache 2.0
Pamēģini to
MOSS-TTSD Standarta
Vairāku skaļruņu dialoga turpināšanās modelis — ģenerēt podcast tipa sarunas ar līdz 5 skaļruņiem un 60 minūtes ar saskaņotu audio.
Izstrādātājs: OpenMOSS · Licence: Apache 2.0
Pamēģini to
CosyVoice 2
Alibaba straumējamais TTS ar cilvēka paritāti naturalitāti un gandrīz nulles latenci.
Valodas: en, zh, ja, ko, fr, de, it, es
Clone Balss
IndexTTS-2
Nulle-shot TTS ar smalki graudainu emociju kontroli un augstu izteiksmi.
Valodas: en, zh
Clone Balss
Spark TTS
Balss klonēšana TTS ar kontrolējamu emociju un runāšanas stilu, izmantojot pamudinājumus.
Valodas: en, zh
Clone Balss
GPT-SoVITS
Mazshot balss klonēšanas TTS, kas atkārto jebkuru balsi no tikai 5 sekundes audio.
Valodas: en, zh, ja, ko
Clone Balss
Chatterbox
Mūsdienu nulles-shot balss klonēšana ar emociju kontroli no Reemble AI.
Valodas: en
Clone Balss
Tortoise TTS
Daudzbalsu teksts-to-speech koncentrējas uz kvalitāti ar autoregesīvu arhitektūru.
Valodas: en
Clone Balss
OpenVoice
Instant balss klonēšana ar granulu kontroli pār stilu, emocijām un akcentu.
Valodas: en, zh, ja, ko, fr, es
Clone Balss
VieNeu-TTS-v2
Vjetnamiešu + Angļu kods-switching TTS ar 7 iepriekš iestatītas balsis un nulles-shot balss klonēšana. CPU tikai, nav GPU nepieciešams.
Valodas: vi, en
Clone Balss
Chatterbox Turbo
Ātrāka čatterbox ar sub-200m latentumu un paralinguistiskas tags smieties, klepus, un vairāk.
Valodas: en
Clone Balss
VoxCPM
TTS bez tokenaizera, kas ražo 44.1kHz audio ar konteksts-aparatūru punktu konsistences.
Valodas: en, zh
Clone Balss
OuteTTS
LLM balstītas TTS, kas darbojas uz CPU, GPU, vai pārlūkprogramma, izmantojot llama.cpp un Transformers.js.
Valodas: en
Clone Balss
Pocket TTS
Viegls Kyutai 100M parametru modelis ar balss klonēšanu no viena parauga.
Valodas: en, fr
Clone Balss
CosyVoice3
Nākamās paaudzes daudzvalodu TTS ar divstraumu, emociju kontroli un nulles kadru balss klonēšanu.
Valodas: en, zh, ja, ko, de, es, fr, it, ru
Clone Balss
NAMAA Saudi TTS
Pirmā atvērtā Saūda Arābijas TTS. Native Saūda Arābijas dialekts ar Chatterbox kvalitātes balss klonēšanu.
Valodas: ar
Clone Balss
Darwin TTS
Krustveida Qwen3-TTS variants ar FFN atsvariem, kas sajaukti no Qwen3-1,7B valodas modeļa asākai daudzvalodu klonēšanai.
Valodas: en, ko, ja, zh
Clone Balss
MOSS-TTSD
Vairāku skaļruņu dialoga turpināšanās modelis — ģenerēt podcast tipa sarunas ar līdz 5 skaļruņiem un 60 minūtes ar saskaņotu audio.
Valodas: en, zh
Clone Balss
Ming-Omni TTS
Compact 0.5B visa modālā runas modelis no inclusionAI ar augstu uzticamību 44,1kHz izvadi un nulles kadru balss klonēšanu.
Valodas: en, zh
Clone Balss
MOSS-TTS Nano
Tiny 100M MOSS-TTS variants — tā pati arhitektūra, 80x mazāka, brīvā līmeņa latentums.
Valodas: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Clone BalssIzstrādātājs- pirmais API
Ar OpenAI saderīgu REST API. Viens mērķa kritērijs, 22+ modeļi. Streaming atbalsts reālā laika lietojumprogrammām.
- Ar OpenAI savietojams formāts
- TTS plūsmas reāllaika lietojumprogrammām
- Partijas apstrāde lielām darbavietām
- Webhook paziņojumi
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Vienkārša, pārredzama cenu noteikšana
Sākt bez maksas. Scale kā jūs augt.
Bezmaksas
15 000 rakstzīmju + 5 000/dienā
- 7 bezmaksas modeļi, ieskaitot Kokoro
- 5 000 rakstzīmju paaudzē
- Ietverta API piekļuve
Palaist
500 kredīti/mēnesis
- Visi 22+ modeļi
- 100 000 rakstzīmju paaudzē
- Balss klonēšana
Pro
2 000 kredīti/mēnesis
- Viss iesākumā
- API piekļuve
- Prioritārā apstrāde
Bieži uzdoti jautājumi
Ko mēs varam uzlabot? Jūsu atgriezeniskā saite palīdz mums atrisināt problēmas.
Sākt izmantojot AI balsi šodien
Pievienojies radītājiem, izstrādātājiem, un uzņēmumiem, izmantojot TTS.ai