Slobodna AI Tekst-u-govor

33+ modeli otvorenog koda, 273+ glasovi, 33+ Nema potrebe za računom.

17K+
kreatori
70K+
generacije
33+
AI modeli
273+
glasovi
0/500 znakovi · Prijavite se za 5.000 po generaciji → Slobodan
Volite TTS.ai?

Sve što trebate za glasovnu AI

30+ alata podržanih modelima UI otvorenog koda

33+ AI Voice Models

Najopsežnija kolekcija modela TTS otvorenog koda na jednoj platformi

KokoroKokoro Slobodan

Kokoro je model tekst-u-govor sa 82 miliona parametara koji je daleko iznad svoje klase težine. Uprkos svojoj maloj veličini, on proizvodi izuzetno prirodan i izražajan govor. Kokoro podržava više jezika uključujući engleski, japanski, kineski i korejski sa različitim izražajnim glasovima. Radi nevjerojatno brzo — generirajući zvuk gotovo 100 puta brže nego u stvarnom vremenu na GPU.

Najbolje za: Visokokvalitetni TTS sa minimalnom latencijom, aplikacije za streaming

Probaj besplatno

PiperPiper Slobodan

Piper je lagan motor za pretvorbu teksta u govor razvijen od strane Rhasspy koji koristi VITS i larynx arhitekture. Radi u potpunosti na CPU, što ga čini idealnim za edge uređaje, automatizaciju doma, i aplikacije koje zahtijevaju offline TTS. Sa preko 100 glasova na preko 30 jezika, Piper isporučuje prirodno zvučan govor u realnom vremenu čak i na Raspberry Pi 4.

Najbolje za: Brzi pregledi, pristupačnost i ugrađene aplikacije

Probaj besplatno

VITSVITS Slobodan

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) je paralelna metoda koja generira prirodniji zvuk od trenutnih dvofaznih modela.Uzima varijacionalnu inferencu pojačanu normalizacijskim tokovima i adversarialnim procesom učenja, postižući značajno poboljšanje prirodnosti.

Najbolje za: Opća svrha tekst-u-govor s prirodnom prozodijom

Probaj besplatno

MeloTTSMeloTTS Slobodan

MeloTTS od MyShell.ai je višejezična TTS biblioteka koja podržava engleski (američki, britanski, indijski, australijski), španski, francuski, kineski, japanski i korejski. Iznimno je brza, obrađuje tekst skoro u realnom vremenu samo na CPU-u. MeloTTS je dizajniran za produkcijsku upotrebu i podržava i CPU i GPU zaključivanje.

Najbolje za: Produkcijske aplikacije trebaju brz, višejezični TTS

Probaj besplatno

Kani TTS 2Kani TTS 2 Slobodan

Kani-TTS-2 od NineNineSix je ultra-lagan 400M parametar model izgrađen na Liquid AI LFM2 backbone sa NVIDIA NanoCodec. On radi u samo 3GB VRAM i proizvodi ~10 sekundi govora u ~2 sekundi na A100 (RTF 0.2). Trenutno javno izdanje isporučuje samo englesku `kani-tts-2-en` kontrolnu tačku i ne izlaže zvučnika-ugradnju kuke potrebne za kloniranje glasa — koristite Chatterbox / IndexTTS2 / F5-TTS za kloniranje, ili Kokoro / MeloTTS za ne-engleski.

Najbolje za: Brzo stvaranje engleskog na hardveru sa malo VRAM-a, brzi pregledi

Probaj besplatno

OuteTTSOuteTTS Slobodan

OuteTTS proširuje velike jezičke modele sa mogućnostima tekst-u-govor, a istovremeno čuva originalnu arhitekturu. Podržava višestruke backendeve uključujući llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, pa čak i zaključivanje preglednika putem Transformers.js.

Najbolje za: Edge implementacija, TTS zasnovan na pregledniku, okruženja sa niskim resursima

Probaj besplatno

Pocket TTSPocket TTS Slobodan

Pocket TTS od Kyutai (kreatori Moshi) je kompaktan 100M parametara tekst-u-govor model koji je puno iznad svoje težine. Radi efikasno na CPU, podržava kloniranje glasa bez snimanja iz jednog audio uzorka, i proizvodi prirodno zvučan govor. Mala veličina modela ga čini idealnim za edge implementaciju i okruženja sa niskim resursima.

Najbolje za: Lako raspoređivanje, okruženja samo sa CPU-om, brzo kloniranje glasa

Probaj besplatno

Kitten TTSKitten TTS Slobodan

Kitten TTS by KittenML je ultra-lagani model tekst-u-govor izgrađen na ONNX. Sa varijantama od 15M do 80M parametara (25-80 MB na disku), on isporučuje visokokvalitetnu sintezu glasa na CPU bez potrebe za GPU. Ima 8 ugrađenih glasova, podesivu brzinu govora, i ugrađenu preprocesažu teksta za brojeve, valute i jedinice. Idealno za edge implementaciju i aplikacije sa niskim latencijama.

Najbolje za: Brzi, lagani TTS, edge implementacija, aplikacije sa niskim latencijama

Probaj besplatno

Ming-Omni TTSMing-Omni TTS Slobodan

Ming-omni-tts-0.5B od inclusionAI je kompaktan omni-modalni govorni model izgrađen na BailingMM gustoj okosnici sa Patch-by-Patch audio dekoderom koji odgovara toku. Obezbjeđuje 44.1kHz izlaz (blizu CD kvaliteta), podržava kloniranje glasa sa nultim udarom od 3+ sekunde reference, i uključuje ugrađenu kontrolu emocija / dijalekta / BGM putem JSON instrukcija. Odlična stabilnost — 0.83% WER na kineskim referentnim vrijednostima.

Najbolje za: High-fidelity bilingual narration, emo-controlled voice acting, Chinese audiobook content

Probaj besplatno

MOSS-TTS NanoMOSS-TTS Nano Slobodan

MOSS-TTS-Nano-100M je OpenMOSS-ova kompaktna 100M-parametarska varijanta MOSS-TTS porodice, koja dijeli arhitekturu kašnjenja-transformatora. Izmjenjuje vrhunski kvalitet modela 8B za ~80x manje težine i dramatično niži VRAM po zahtjevu, što ga čini pogodnim za free-tier i visoko-propusni raspored. Isti 20-jezični doseg.

Najbolje za: Free-tier TTS, proizvodnja velikog volumena, interaktivna upotreba sa niskom latencijom

Probaj besplatno

BarkBark Standardni

Tekst-u-zvuk model zasnovan na transformatorima koji generira realističan govor, muziku i zvučne efekte.

Programer: Suno · Licenca: MIT

Probaj.

Bark SmallBark Small Standardni

Laganiji oblik Bark-a sa bržim zaključavanjem i manjom upotrebom memorije.

Programer: Suno · Licenca: MIT

Probaj.

CosyVoice 2CosyVoice 2 Standardni

Alibaba-in skalabilni streaming TTS sa ljudskom paritetom prirodnosti i skoro nultom latencijom.

Programer: Alibaba (Tongyi Lab) · Licenca: Apache 2.0

Probaj.

Dia TTSDia TTS Standardni

Multi-speaker dijaloški model koji stvara prirodne razgovore između govornika.

Programer: Nari Labs · Licenca: Apache 2.0

Probaj.

Parler TTSParler TTS Standardni

Opisujte glas koji želite u prirodnom jeziku i Parler će generirati odgovarajući govor.

Programer: Hugging Face · Licenca: Apache 2.0

Probaj.

IndexTTS-2IndexTTS-2 Standardni

Zero-shot TTS sa fino zrnatom kontrolom emocija i visokom ekspresivnošću.

Programer: Index Team · Licenca: Bilibili Model License

Probaj.

Spark TTSSpark TTS Standardni

Kloniranje glasa TTS sa kontroliranim emocijama i stilom govora putem naredbi.

Programer: SparkAudio · Licenca: CC BY-NC-SA 4.0

Probaj.

GPT-SoVITSGPT-SoVITS Standardni

Nekoliko snimki kloniranja glasa TTS koji replicira bilo koji glas od samo 5 sekundi zvuka.

Programer: RVC-Boss · Licenca: MIT

Probaj.

OrpheusOrpheus Standardni

Emocionalni TTS model na ljudskom nivou obučen na 100K sati govornih podataka.

Programer: Canopy Labs · Licenca: Llama 3.2 Community

Probaj.

Qwen3 TTSQwen3 TTS Standardni

Alibaba's multilingual TTS with preset voices and voice design from text.

Programer: Alibaba (Qwen) · Licenca: Apache 2.0

Probaj.

VieNeu-TTS-v2VieNeu-TTS-v2 Standardni

Vijetnamski + engleski kod-prebacivanje TTS sa 7 unaprijed postavljenih glasova i kloniranje glasa bez snimanja. Samo CPU, nije potreban GPU.

Programer: Phạm Nguyễn Ngọc Bảo · Licenca: Apache 2.0

Probaj.

Chatterbox TurboChatterbox Turbo Standardni

Brži Chatterbox sa latencijom ispod 200 ms i paralingvističkim oznakama za smijeh, kašalj i drugo.

Programer: Resemble AI · Licenca: MIT

Probaj.

VoxCPMVoxCPM Standardni

Tokenizer-free TTS produces 44.1kHz audio with context-aware paragraph consistency.

Programer: OpenBMB · Licenca: Apache 2.0

Probaj.

VibeVoiceVibeVoice Standardni

Microsoftov model za dugotrajni multi-speaker sadržaj kao što su podcasti i audioknjige.

Programer: Microsoft · Licenca: MIT

Probaj.

CosyVoice3CosyVoice3 Standardni

Sljedeća generacija višejezičnog TTS-a sa bi-streamingom, kontrolom emocija i kloniranjem glasa bez snimanja.

Programer: Alibaba (FunAudioLLM) · Licenca: Apache 2.0

Probaj.

NAMAA Saudi TTSNAMAA Saudi TTS Standardni

Prvi otvoreni saudijski arapski TTS. Nativni saudijski dijalekt sa kloniranjem glasa kvalitete Chatterbox.

Programer: NAMAA Space · Licenca: MIT

Probaj.

Darwin TTSDarwin TTS Standardni

Cross-modal Qwen3-TTS varijanta sa FFN ponderima pomiješana sa Qwen3-1.7B jezičkim modelom za oštrije višejezično kloniranje.

Programer: FINAL-Bench · Licenca: Apache 2.0

Probaj.

MOSS-TTSDMOSS-TTSD Standardni

Multi-speaker dialogue continuation model — generira podcast-style razgovore sa do 5 govornika i 60 minuta koherentnog zvuka.

Programer: OpenMOSS · Licenca: Apache 2.0

Probaj.

ChatterboxChatterbox Premium

Najmodernije kloniranje glasa sa kontrolom emocija od Resemble AI.

Kvaliteta:

Probaj.

Tortoise TTSTortoise TTS Premium

Višeglasni tekst-u-govor fokusiran je na kvalitetu sa autoregresivnom arhitekturom.

Kvaliteta:

Probaj.

StyleTTS 2StyleTTS 2 Premium

Human-level text-to-speech through style diffusion and adversary training.

Kvaliteta:

Probaj.

OpenVoiceOpenVoice Premium

Instant kloniranje glasa sa granularnom kontrolom stila, emocija i naglaska.

Kvaliteta:

Probaj.

Sesame CSMSesame CSM Premium

Konverzacijski govorni model koji generira prirodni dijalog sa odgovarajućim vremenom i emocijama.

Kvaliteta:

Probaj.

CosyVoice 2CosyVoice 2

Alibaba-in skalabilni streaming TTS sa ljudskom paritetom prirodnosti i skoro nultom latencijom.

Jezici: en, zh, ja, ko, fr, de, it, es

Glas

IndexTTS-2IndexTTS-2

Zero-shot TTS sa fino zrnatom kontrolom emocija i visokom ekspresivnošću.

Jezici: en, zh

Glas

Spark TTSSpark TTS

Kloniranje glasa TTS sa kontroliranim emocijama i stilom govora putem naredbi.

Jezici: en, zh

Glas

GPT-SoVITSGPT-SoVITS

Nekoliko snimki kloniranja glasa TTS koji replicira bilo koji glas od samo 5 sekundi zvuka.

Jezici: en, zh, ja, ko

Glas

ChatterboxChatterbox

Najmodernije kloniranje glasa sa kontrolom emocija od Resemble AI.

Jezici: en

Glas

Tortoise TTSTortoise TTS

Višeglasni tekst-u-govor fokusiran je na kvalitetu sa autoregresivnom arhitekturom.

Jezici: en

Glas

OpenVoiceOpenVoice

Instant kloniranje glasa sa granularnom kontrolom stila, emocija i naglaska.

Jezici: en, zh, ja, ko, fr, es

Glas

VieNeu-TTS-v2VieNeu-TTS-v2

Vijetnamski + engleski kod-prebacivanje TTS sa 7 unaprijed postavljenih glasova i kloniranje glasa bez snimanja. Samo CPU, nije potreban GPU.

Jezici: vi, en

Glas

Chatterbox TurboChatterbox Turbo

Brži Chatterbox sa latencijom ispod 200 ms i paralingvističkim oznakama za smijeh, kašalj i drugo.

Jezici: en

Glas

VoxCPMVoxCPM

Tokenizer-free TTS produces 44.1kHz audio with context-aware paragraph consistency.

Jezici: en, zh

Glas

OuteTTSOuteTTS

LLM-based TTS koji radi na CPU, GPU, ili pregledniku preko llama.cpp i Transformers.js.

Jezici: en

Glas

Pocket TTSPocket TTS

100M parametar model od strane Kyutai sa kloniranjem glasa iz jednog uzorka.

Jezici: en, fr

Glas

CosyVoice3CosyVoice3

Sljedeća generacija višejezičnog TTS-a sa bi-streamingom, kontrolom emocija i kloniranjem glasa bez snimanja.

Jezici: en, zh, ja, ko, de, es, fr, it, ru

Glas

NAMAA Saudi TTSNAMAA Saudi TTS

Prvi otvoreni saudijski arapski TTS. Nativni saudijski dijalekt sa kloniranjem glasa kvalitete Chatterbox.

Jezici: ar

Glas

Darwin TTSDarwin TTS

Cross-modal Qwen3-TTS varijanta sa FFN ponderima pomiješana sa Qwen3-1.7B jezičkim modelom za oštrije višejezično kloniranje.

Jezici: en, ko, ja, zh

Glas

MOSS-TTSDMOSS-TTSD

Multi-speaker dialogue continuation model — generira podcast-style razgovore sa do 5 govornika i 60 minuta koherentnog zvuka.

Jezici: en, zh

Glas

Ming-Omni TTSMing-Omni TTS

1995. godine je predstavljena verzija 1.0.0.0, koja je imala 4.1 MB RAM-a, 4.0.1.0 pogon i 4.1.2.0 grafičku karticu.

Jezici: en, zh

Glas

MOSS-TTS NanoMOSS-TTS Nano

Tiny 100M MOSS-TTS varijanta — ista arhitektura, 80x manja, free-tier latencija.

Jezici: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Glas

Developer-First API

OpenAI-kompatibilni REST API. Jedna krajnja tačka, 22+ modela. Podrška za streaming aplikacija u realnom vremenu.

  • OpenAI-kompatibilni format
  • Streaming TTS za aplikacije u stvarnom vremenu
  • Serijska obrada za velike zadatke
  • Webhook obavijesti
Prikaži API dokumentaciju
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Jednostavno, transparentno određivanje cijena

Počnite besplatno, povećavajte kako rastete.

Slobodan

$0

15,000 znakova + 5,000/dan

  • 7 slobodnih modela uključujući Kokoro
  • 5000 znakova po generaciji
  • API pristup uključen
Prijavite se besplatno

Starter

$9/mj

500 kredita/mjesečno

  • Sve 22+ modela
  • 100.000 znakova po generaciji
  • Kloniranje glasa
Počni
Najpopularnije

Pro

$29/mj

2,000 kredita/mjesečno

  • Sve u Starteru
  • API pristup
  • Prioritetna obrada
Get Pro

Posao

$99/mj

10.000 kredita/mjesečno

  • Sve u Pro
  • Bulk API
  • Prioritetni red
Get Business

Prikaži sve planove uključujući kreditne pakete →

Često postavljana pitanja

TTS.ai je najopsežnija AI glasovna platforma, nudeći 22+ modela tekst-u-govor, kloniranje glasa, govor-u-tekst i audio alate.Svi modeli su otvorenog koda bez proizvođača zaključavanja.

Da! TTS.ai nudi besplatno pretvaranje teksta u govor sa Kokoro, Piper, VITS, i MeloTTS modelima. Nema potrebe za računom. Prijavite se da biste dobili 15 besplatnih kredita i pristup svim modelima. Plaćeni planovi počinju od $9/mjesečno.

Za brzinu, koristite Kokoro ili Piper. Za kvalitet, pokušajte CosyVoice 2 ili StyleTTS 2. Za kloniranje glasa, koristite Chatterbox ili GPT-SoVITS. Za dijalog, koristite Dia TTS. Pokušajte više modela na istom tekstu da biste ih usporedili.

Da. OpenAI-kompatibilno REST API za TTS, STT, kloniranje glasa, i audio alate. Uključeno u svaki plan uključujući i besplatni, sa ograničenjima brzine koja se skaliraju po nivou (Besplatni: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Poslovni: 300). Pogledajte dokumentaciju na tts.ai/api/.

Kvaliteta glasa varira od modela do modela. Premium modeli kao što su CosyVoice 2, StyleTTS 2, i Chatterbox proizvode govor gotovo ljudskog kvaliteta s prirodnom intonacijom i emocijama. Besplatni modeli kao što je Kokoro nude izvrsnu kvalitetu za većinu slučajeva upotrebe.

TTS.ai podržava 30+ jezika kroz svoju biblioteku modela. engleski ima najširu podršku modela, ali modeli kao što su CosyVoice 2 pokrivaju kineski, japanski i korejski; GPT-SoVITS upravlja kineskim, japanskim, korejskim i engleskim; i MeloTTS podržava engleski, španski, francuski, kineski, japanski i korejski.

Da. Sva obrada se dešava na našim namjenskim GPU serverima. Ne pohranjujemo vaš unos teksta ili generirani audio nakon isporuke. Uploadani uzorci glasa za kloniranje koriste se samo za tekuću sesiju i ne zadržavaju se. Mi nikada ne dijelimo vaše podatke sa trećim stranama niti ih koristimo za treniranje modela.

Da. Svi zvukovi generirani na TTS.ai su vaši za komercijalnu upotrebu, uključujući i YouTube videozapise, podcaste, audioknjige, aplikacije, reklame i proizvode. Naši modeli su otvoreni kod pod permisivnim licencama (MIT, Apache 2.0). Nema potrebnih prava ili priznanja.

TTS.ai generira zvuk u WAV formatu po zadanim postavkama za maksimalnu kvalitetu. Možete konvertirati u MP3, FLAC, OGG, ili M4A koristeći naš besplatni Audio Converter alat. API podržava određivanje vašeg željenog izlaznog formata direktno u zahtjevu.

Učitaj kratki audio uzorak (manje od 5 sekundi) glasa koji želiš klonirati, zatim upiši bilo koji tekst za generiranje govora u tom glasu. Modeli kao što su Chatterbox, GPT-SoVITS, i CosyVoice 2 podržavaju kloniranje glasa. Klonirani glas snima ton, naglasak, i stil govora.

Besplatni modeli (Kokoro, Piper, VITS, MeloTTS) ne zahtijevaju račun i koštaju nula kredita. Standardni modeli (2 kredita/1K znakova) uključuju Bark, CosyVoice 2, F5-TTS, i Dia. Premium modeli (4 kredita/1K znakova) uključuju OpenVoice, Chatterbox, StyleTTS 2, i Tortoise. Plaćeni modeli općenito nude viši kvalitet, više glasova, i dodatne mogućnosti kao što je kloniranje glasa.

Da. API podržava paketnu obradu za pretvaranje velikih količina teksta u govor. Pošaljite više zahtjeva i dohvaćajte rezultate asinkrono koristeći UUID-ove zadataka. Poslovni plan ($99/mjesečno) i viši uključuju prioritetni pristup redu za bržu paketnu obradu. Idealno za proizvodnju audioknjiga, sadržaj tečajeva i velike projekte s naglaskom.
4.1/5 (42)

Šta možemo da poboljšamo? Vaše povratne informacije nam pomažu da riješimo probleme.

Počnite koristiti AI Voice danas

Pridružite se kreatorima, programerima i kompanijama koje koriste TTS.ai