Zahtjev za greškom / osobinama

AI tekst za govor

Pretvori tekst u prirodno-zvučni govor s open-source AI modeli. Besplatno koristiti, nije potreban račun.

Slobodno se prijavite

Još nemamo TTS glasove na vašem jeziku. Pomozite nam dodati svoje! Prodaj svoj glas

0/500 znakovi · Prijavite se na 5000 po generaciji →

Upišite se za 5000 ograničenja znakova

SSML način (Sintetike govora Obilježavanje jezika za finu kontrolu)

Umotaj svoj tekst u SSML oznake za preciznu kontrolu:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Oznake emocija / stila

Dodavanje oznaka emocija u utjecaj isporuke (modelska podrška varira):

Rječnik izgovora

Definiši vlastite izgovore (riječ = izgovor):

Ton 0

-12 +12

AI model

Glas

Jezik

Izlazni format

Brzina 1.0x

0.5x 2.0x

Besplatno s Piper, VITS, Melotts

Ovdje će se pojaviti vaš generirani zvuk. Odaberite model, unesite tekst i kliknite Generirati.

Detalji modela

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Razvojnik:	KittenML
Dozvola:	Apache 2.0
Brzina	Fast
Kvaliteta:
jezici	1 jezik
VRAM	0GB
Kloniranje glasa	Nije podržano

Osobine:

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

Najbolje za:: Fast lightweight TTS, edge deployment, low-latency applications

Savjeti za bolje rezultate

Koristite odgovarajuću interpunkciju za prirodne pauze i intonaciju
Izreci brojeve i skraćenice za jasniji izgovor
Dodaj zarez za stvaranje kratkih pauza između fraza
Koristite elipsu (...) za duže dramatične pauze
Pokušajte Kokoro ili CosyVoice 2 za najprirodnije rezultate
Dia za višezvučni dijalog i podcast sadržaj

Upotreba karaktera

Nivo	Troškovi po 1K oznakama
Slobodno	0 kredita (neograničeno)
Standardno	2 kredita / 1K znakova
Premium	4 kredita / 1K znakova

Dobavi još znakova

Kako AI tekst radi govora

Generirati profesionalne kvalitete glasova u tri jednostavna koraka. Nije potrebno tehničko znanje.

Korak 1

Unesite vaš tekst

Upišite, umetnite ili ubacite tekst koji želite pretvoriti u govor. Podrška do 5.000 znakova po generaciji za prijavljene korisnike. Koristite običan tekst ili dodati SSML oznake za naprednu kontrolu nad izgovorom, pauzama, i naglasak.

Korak 2

Odaberite model i glas

Odaberite iz 20+ AI modela preko tri stupnja. Odaberite glas koji odgovara vašem sadržaju, odaberite svoj ciljni jezik, prilagodite brzinu reprodukcije od 0,5x do 2.0x, i odaberite vaš omiljeni izlazni format (MP3, WAV, OGG, ili FLAC).

Korak 3

Generiraj & preuzimanje

Kliknite Generirati i vaš zvuk je spreman u sekundama. Pregled s ugrađenim igračem, preuzimanje u odabranom obliku ili kopiranje dijeljenog linka. Koristite API za obradu serije i integraciju u vaš radni tok.

Slučaji korištenja teksta u govoru

AI-pojačan tekst-na-speech transformira način na koji ljudi stvaraju, konzumiraju, i interakciju sa audio sadržajem kroz desetine industrija.

Audio knjige

Pretvori cijele knjige u prirodno-zvučne audio knjige s studio kvalitetu naracije. Multi-speaker podrška s Dia za karakter dijalog.

Video

Kreirajte profesionalne glasove za YouTube, TikTok, Instagram Reels i Shorts. 100+ glasova ili klonirajte vlastite.

Podcasti

Generirati podcast epizode iz skripta s više glasova AI. Koristite Dia za prirodne dvogovorne razgovore.

Igranje

AI glas koji djeluje za indie igre, vizuelne romane i interaktivnu fantastiku. NCC dijalog, cutcene glasove, 30+ jezika.

E-učenje

Pretvori materijale tečaja, predavanja, i trening sadržaja u audio. Višejezična podrška za globalne platforme.

Pristupačnost

Učinite web stranice, dokumente i aplikacije pristupačnim. Screen reader API integracija i članak-na-audio pretvorbu.

IVR & Telefonski sustavi

Power IVR sustavi, telefonski meniji, i usluga korisnika s prirodnim AI glasovima. Nisko-latence streaming za pozivne centre.

Društveni mediji

TikTok naracije, Instagram Reels, Twitter/X komentar, YouTube Shorts. Brzo generacija s besplatnim modelima.

Streaming

Twitch TTS upozorenja, chat-to-voice, AI su-hostovi, i Discord roboti. Niska latencija, 100+ glasova, StreamElements kompatibilan.

Tržište

Ad Voiceovers, objašnjenja video, proizvod demos, i prodajne prezentacije. Skaliraj audio sadržaja proizvodnju kroz kampanje.

Dubbing & Lokalizacija

Prevedite i dub video na 30+ jezika s AI glasom uparena. Auto-transcription i zvučnika otkrivanje.

Meditacija i wellness

Vodio meditacije, priče spavanja, vježbe disanja, i afirmacije s miran, umirujuće AI glasove.

Prikaži sve slučajeve korištenja i alate

Modeli cijelog teksta za govor

Detaljne specifikacije za svaki AI model dostupan na TTS.ai. Usporedite kvalitetu, brzinu, jezičnu podršku i značajke kako biste pronašli savršen model za vaš projekt.

Kokoro

Free

Kokoro je 82 milijuna parametara text-to-speech model koji udara mnogo iznad svoje težine klase. Unatoč svojoj malenoj veličini, ona proizvodi izuzetno prirodan i ekspresivan govor. Kokoro podržava više jezika, uključujući engleski, japanski, kineski i korejski, s različitim izrazitivnim glasovima. To radi nevjerojatno brzo – stvaranje audio gotovo 100x brže od real-time na GPU.

Razvojnik::
Hexgrad

Dozvola::
Apache 2.0

Brzina:
Fast

Kvaliteta::

jezici:
en, ja, zh, fr, it, pt, es, hi

VRAM:
1.5GB

Kloniranje glasa:
Ne.

Troškovi po 1K oznakama:
Slobodno

82M parametra Ultra-brzo Ekspresivni glasovi Višejezični Podrška za streamiranje

Najbolje za:: visokokvalitetni TTS s minimalnom latencijom, streaming aplikacije

Pokušaj Kokoro

Piper

Free

Piper je lagani tekst-na-špeech motor razvijen od strane Rhaspy koji koristi VITS i grkljan arhitekture. To radi u cijelosti na CPU, što je idealan za rubne uređaje, kućna automatizacija, i aplikacije zahtijeva offline TTS. Sa preko 100 glasova preko 30+ jezika, Piper donosi prirodno-zvučni govor na realnom vremenu brzine čak i na Raspberry Pi 4.

Razvojnik::
Rhasspy

Dozvola::
MIT

Brzina:
Fast

Kvaliteta::

jezici:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

Kloniranje glasa:
Ne.

Troškovi po 1K oznakama:
Slobodno

CPU-prijateljski Odspojen sposoban 100+ glasova 30+ jezika Podrška za SSML

Najbolje za:: Brzi pregledi, pristupačnost i ugrađene aplikacije

Pokušaj Piper

VITS

Free

VITS (Varicionalni zaključak s protivrečnim učenjem za kraj-na-kraj Tekst-na- govor) je paralelna metoda kraj-na-kraj TTS koja stvara više prirodnog zvučnog zvuka nego trenutni dvostupenjski modeli. Prihvaća varijacionalni zaključak pojačan s normalizacijskim tokovi i procesom protivrečnog treninga, što postiže značajno poboljšanje prirodnosti.

Razvojnik::
Jaehyeon Kim et al.

Dozvola::
MIT

Brzina:
Fast

Kvaliteta::

jezici:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

VRAM:
1GB

Kloniranje glasa:
Ne.

Troškovi po 1K oznakama:
Slobodno

Sinteza krajnjeg do kraja Prirodna prozodija Brzi zaključak Višestruki zvučnici

Najbolje za:: Općenamenski tekst-na-speech s prirodnom prozodijom

Pokušaj VITS

MeloTTS

Free

MeloTTS by MyShell.ai je višejezična TTS biblioteka koja podupire engleski (američki, britanski, indijanski, australijski), španjolski, francuski, kineski, japanski i korejski. To je izuzetno brzo, obrada teksta pri skoro realnom vremenu samo na CPU. MeloTTS je dizajniran za proizvodnju korištenja i podržava i CPU i GPU zaključak.

Razvojnik::
MyShell.ai

Dozvola::
MIT

Brzina:
Fast

Kvaliteta::

jezici:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

Kloniranje glasa:
Ne.

Troškovi po 1K oznakama:
Slobodno

Optimizirani CPU-om Višejezični Višestruki naglasak Proizvodnja spremna Niska zastarelost

Najbolje za:: Proizvodnja zahtjeva za brzim, višejezičnim TTS-om

Pokušaj MeloTTS

Bark

Standard

Bark by Suno je transformatorski tekst-to-audio model koji može generirati vrlo realan, višejezični govor, kao i drugi audio poput glazbe, pozadinske buke i zvučni efekti. To može proizvesti neverbalne komunikacije poput smijeha, uzdaha i plakanja. Bark podržava preko 100 zvučnika pretpostavljanja i 13+ jezika.

Razvojnik::
Suno

Dozvola::
MIT

Brzina:
Slow

Kvaliteta::

jezici:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

Kloniranje glasa:
Ne.

Troškovi po 1K oznakama:
2x

Zvučni efekti Smijeh/uzdiše Izrada glazbe 100+ zvučnika Višejezični

Najbolje za:: Kreativan audio sadržaj, audio knjige s emocijama, zvučni efekti

Pokušaj Bark

Bark Small

Standard

Bark Small je destilirana verzija Bark modela koji mijenja neku kvalitetu zvuka za znatno brže brze zaključke i manje zahtjeve memorije. Zadržava mogućnost Bark stvaranja govora emocijama, smijehom i više jezika.

Razvojnik::
Suno

Dozvola::
MIT

Brzina:
Medium

Kvaliteta::

jezici:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

Kloniranje glasa:
Ne.

Troškovi po 1K oznakama:
2x

Lagano Brže od punog Barka Emocionalni govor Višejezični

Najbolje za:: Brzi kreativni audio kada je puna Bark je prespor

Pokušaj Bark Small

CosyVoice 2

Standard

CosyVoice 2 od Alibaba Tongyi Lab postiže kvalitetu govora u usporedbi s ljudima s iznimno niskom latentnošću, što ga čini idealnim za aplikacije u realnom vremenu. Koristi konačni skalar kvantizacijski pristup za streaming sintezu i podržava kloniranje glasa nula-shot, unakrsno-jezičnu sintezu i fino-zrele kontrole emocija. Ona nadmašuje mnoge komercijalne TTS sustave u subjektivnim procjenama.

Razvojnik::
Alibaba (Tongyi Lab)

Dozvola::
Apache 2.0

Brzina:
Medium

Kvaliteta::

jezici:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
2x

Streaming kloniranje nula metaka Međujezični Kontrola emocija Ljudski paritet

Najbolje za:: Prijave u realnom vremenu, streaming TTS, glasovni pomoćnici

Pokušaj CosyVoice 2

Dia TTS

Standard

Dia by Nari Labs je parametar 1.6B tekst-to-speech model dizajniran posebno za stvaranje multi-speeker dijaloga. Može proizvesti prirodno-zvučni razgovore između dva zvučnika s odgovarajućim okretanjem, prozodijom i emocionalnim izrazom. Dia je idealna za stvaranje sadržaja podcast-stila, audioknjiga dijaloga i interaktivnog razgovornog AL.

Razvojnik::
Nari Labs

Dozvola::
Apache 2.0

Brzina:
Medium

Kvaliteta::

jezici:
en

VRAM:
4GB

Kloniranje glasa:
Ne.

Troškovi po 1K oznakama:
2x

Višezvočnik Izrada dijaloga Prirodno zaokretanje Emocionalni izraz 1.6B parametri

Najbolje za:: Podcasti, audioknjiški dijalogi, razgovorni sadržaj

Pokušaj Dia TTS

Parler TTS

Standard

Parler TTS je tekst-to-speech model koji koristi prirodni jezik opisi glasova za kontrolu generiranog govora. Umjesto da birate iz predpostavljenih glasova, opisujete glas koji želite (npr. "topli ženski glas s blagim britanskim naglaskom, govori polako i jasno") i Parler generira govor koji odgovara tom opisu. To ga čini jedinstveno fleksibilnim za kreativne aplikacije.

Razvojnik::
Hugging Face

Dozvola::
Apache 2.0

Brzina:
Medium

Kvaliteta::

jezici:
en

VRAM:
4GB

Kloniranje glasa:
Ne.

Troškovi po 1K oznakama:
2x

Opis glasa Kontrola prirodnog jezika Flexibilno stvaranje glasa Nije potreban predefinirani glasovi

Najbolje za:: Kreativne aplikacije u kojima trebate vlastite glasovne karakteristike

Pokušaj Parler TTS

GLM-TTS

Standard

GLM-TTS od Zhipu AI je tekst-to-speech sustav izgrađen na Llama arhitekturi s tokom poklapanja. To postiže najnižu znakovnu pogrešku među modelima otvorenog izvora TTS, što znači da proizvodi najtočniji izgovor. GLM-TTS podržava engleski i kineski s kloniranjem glasa od 3-10 sekunde audio uzoraka.

Razvojnik::
Zhipu AI

Dozvola::
GLM-4 License

Brzina:
Medium

Kvaliteta::

jezici:
en, zh

VRAM:
4GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
2x

Najniža stopa greške Kloniranje glasa Poklapanje toka Prirodna prozodija

Najbolje za:: Aplikacije koje zahtijevaju maksimalnu preciznost izgovora

Pokušaj GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 je napredni tekst-na-speech sustav koji nadmašuje na nula-shot sintezu glasa s fino-zrele kontrole emocija. To može generirati govor s specifičnim emocionalnim tonovima kao što su sretni, tužni, ljuti, ili strah ne zahtijevajući podatke o emocijama specifične za obuku. Model koristi emocionalne vektore za precizno kontrolu emocionalnog izražavanja generiranog govora.

Razvojnik::
Index Team

Dozvola::
Bilibili Model License

Brzina:
Medium

Kvaliteta::

jezici:
en, zh

VRAM:
4GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
2x

Kontrola emocija Nula-shot Vektori emocija Izrazan govor Fino zrela kontrola

Najbolje za:: Emocionalno ekspresni sadržaj, audio knjige, virtualni pomoćnici

Pokušaj IndexTTS-2

Spark TTS

Standard

Spark TTS by SparkAudio je tekstualni model koji kombinira kloniranje glasa s kontrolnim emocijama i stilom govora. Koristeći samo 5 sekundi referentnog zvuka, može klonirati glas i zatim generirati govor s različitim emocijama, brzinama i stilovima istovremeno održavajući klonirani glasovni identitet. Spark TTS koristi brzi sustav kontrole.

Razvojnik::
SparkAudio

Dozvola::
CC BY-NC-SA 4.0

Brzina:
Medium

Kvaliteta::

jezici:
en, zh

VRAM:
4GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
2x

Kloniranje glasa Kontrola emocija Kontrola stila Zahtijevano 5-sekundni kloniranje

Najbolje za:: Stvaranje sadržaja s kloniranim glasovima i emocionalnom kontrolom

Pokušaj Spark TTS

GPT-SoVITS

Standard

GPT-SoviTS kombinira GPT-stil modeliranje jezika sa SoVITS-om (Pjevanje govora putem prijevoda i sintetiza) za kloniranje snažnih nekoliko snimljenih glasova. Sa samo 5 sekundi referentnog zvuka, može točno klonirati glas i generirati novi govor istovremeno očuvajući zvučnikove jedinstvene karakteristike. Izvrsno je i pri govoru i pjevanje sinteze glasa.

Razvojnik::
RVC-Boss

Dozvola::
MIT

Brzina:
Slow

Kvaliteta::

jezici:
en, zh, ja, ko

VRAM:
6GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
2x

5-sekundni kloniranje Pjevački glas Malokratno učenje Visoka vjernost Međujezični

Najbolje za:: kloniranje glasa, sinteza pjevanja, replikacija glasa stvaratelja sadržaja

Pokušaj GPT-SoVITS

Orpheus

Standard

Orfeus je obimni tekstualni model koji postiže emocionalni izraz na ljudskoj razini. Treniran na više od 100.000 sati različitih govornih podataka, izuzetan je u stvaranju govora s prirodnim emocijama, naglaskom i govornim stilovima. Orfeus može proizvesti govor koji je praktički nerazličit od ljudskih snimki.

Razvojnik::
Canopy Labs

Dozvola::
Llama 3.2 Community

Brzina:
Medium

Kvaliteta::

jezici:
en

VRAM:
4GB

Kloniranje glasa:
Ne.

Troškovi po 1K oznakama:
2x

Emocije na ljudskoj razini 100K sati treninga Prirodni naglasak Izrazan govor

Najbolje za:: Kvalitetni emocionalni govor, audio knjige, gluma glasa

Pokušaj Orpheus

Chatterbox

Premium

Chatterbox od Resemble AI je vrhunski nulti-shot kloniranje glasa model. To može replicirati svaki glas iz jednog zvučnog uzorka s iznimnom preciznošću, hvatanje ne samo timbre, nego i govorni stil i emocionalne nijanse. Chatterbox također sadrži fino-zrele kontrole emocija, omogućuje vam da prilagodite emocionalni ton generiranog govora nezavisno od glasovnog identiteta.

Razvojnik::
Resemble AI

Dozvola::
MIT

Brzina:
Medium

Kvaliteta::

jezici:
en

VRAM:
4GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
4x

kloniranje nula metaka Kontrola emocija Visoka vjernost Prijenos stila kloniranje jednog uzorka

Najbolje za:: Profesionalno kloniranje glasa s emocionalnom kontrolom, stvaranje sadržaja

Pokušaj Chatterbox

Tortoise TTS

Premium

Tortoise TTS je automatski regresivan višeglasni tekst-na-špik sustav koji prioriteti kvalitetu zvuka nad brzinom. Koristi DALL-E-inspiriranu arhitekturu za generiranje visoko prirodnog govora s izvrsnom prozodijom i zvučnikom sličnosti. Iako sporiji od mnogih alternativa, Tortoise proizvodi neke od najrealističnijih sintetičkih govora dostupnih u otvorenom ekosistemu.

Razvojnik::
James Betker

Dozvola::
Apache 2.0

Brzina:
Slow

Kvaliteta::

jezici:
en

VRAM:
8GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
4x

Najviša kvaliteta Višeglasni Arhitektura DALL-E Kloniranje glasa Automatski regresivan

Najbolje za:: Audiobooks, premium sadržaj, kvalitetne aplikacije

Pokušaj Tortoise TTS

StyleTTS 2

Premium

StyleTTS 2 postiže sintezu ljudske razine TTS-a kombiniranjem stilske difuzije s adversarialnim treningom koristeći velike modele govornog jezika. Ona stvara najprirodniji zvučni govor među modelima jednogovornika, rivalirajući ljudske snimke. StyleTTS 2 koristi modeliranje stila na bazi difuzije kako bi uhvatila cijeli spektar ljudskih varijacija govora.

Razvojnik::
Columbia University

Dozvola::
MIT

Brzina:
Medium

Kvaliteta::

jezici:
en

VRAM:
4GB

Kloniranje glasa:
Ne.

Troškovi po 1K oznakama:
4x

Ljudska razina Difuzija stila Osposobljavanje protivnika Prirodna varijacija Visoka vjernost

Najbolje za:: Sinteza jednozvučnog govornika za studio kvalitete, profesionalna naracija

Pokušaj StyleTTS 2

OpenVoice

Premium

OpenVoice by MyShell.ai omogućava instant kloniranje glasa s granularnom kontrolom nad glasovnim stilom, emocijama, naglaskom, ritmom, pauzama i intonacijom. To može klonirati glas iz kratkog audio klipa i generirati govor u više jezika istovremeno održavajući zvučnički identitet. OpenVoice također funkcionira kao konverter glasa, omogućavajući transformaciju glasa u realnom vremenu.

Razvojnik::
MyShell.ai / MIT

Dozvola::
MIT

Brzina:
Medium

Kvaliteta::

jezici:
en, zh, ja, ko, fr, es

VRAM:
4GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
4x

Trenutno kloniranje Pretvaranje glasa Kontrola emocija Kontrola akcenta Višejezični

Najbolje za:: Glasovno kloniranje s fino-zrnatom kontrolom stila, pretvorbom glasa

Pokušaj OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS je 1,7 milijardi parametara tekst-to-speech model iz Alibabovog tima Qwen. Podržava tri načina: predefinirani glasovi s kontrolom emocija (9 zvučnika), kloniranje glasa od samo 3 sekunde zvuka i jedinstven način dizajna glasa u kojem opisujete glas koji želite na prirodnom jeziku. Pokriva 10 jezika s visokom ekspresnošću i prirodnom prozodijom.

Razvojnik::
Alibaba (Qwen)

Dozvola::
Apache 2.0

Brzina:
Medium

Kvaliteta::

jezici:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
2x

Kloniranje glasa 9 predpostavljenih glasova Dizajn glasa iz teksta Kontrola emocija 10 jezika

Najbolje za:: Višejezični sadržaj s kloniranjem glasa ili prilagođenim dizajnom glasa

Pokušaj Qwen3 TTS

Sesame CSM

Premium

Sezam CSM (Conversational Speech Model) je 1 milijardu parametar model dizajniran posebno za stvaranje razgovornog govora. Ona modelira prirodne uzorke ljudskog razgovora uključujući okretanje vremena, reakcije pozadine, emocionalne reakcije i razgovorni protok. CSM stvara zvuk koji zvuči kao prirodni ljudski razgovor, a ne sintetički govor.

Razvojnik::
Sesame

Dozvola::
Apache 2.0

Brzina:
Slow

Kvaliteta::

jezici:
en

VRAM:
8GB

Kloniranje glasa:
Ne.

Troškovi po 1K oznakama:
4x

Razgovorno Prirodno vrijeme Okretanje Backchannel Parametri 1B

Najbolje za:: AI pomoćnici, chatboti, razgovorne AI aplikacije

Pokušaj Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo by Resemble AI je nadogradnja parametra 350M na Chatterbox, dostavljajući do 6x brzine u realnom vremenu s pod-200ms latency. Podržava paralinguistične oznake poput [smjeh], [kašlja] i [cuckle] izravno u tekstu. Uključuje Perth vodeno označavanje na svim generiranim zvukom za praćenje provencije.

Razvojnik::
Resemble AI

Dozvola::
MIT

Brzina:
Fast

Kvaliteta::

jezici:
en

VRAM:
2GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
2x

Pod-200ms latencija Paralinguističke oznake 6x u realnom vremenu Kloniranje glasa Vodna oznaka

Najbolje za:: Realnovremenski glasovni agenti, izraziti govor s prirodnim zvukovima

Pokušaj Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1.5 od OpenBMB je novi model bez žetonizera TTS koji radi u kontinuiranom prostoru umjesto diskretnih žetona. Proizvodi visoku vjernost 44.1kHz audio, podržava kloniranje glasa od 3-10 sekundi i održava konzistentnost među paragrafima. Prekriženi kloniranje omogućuje vam primjenu engleskog glasa na kineski govor i obrnuto.

Razvojnik::
OpenBMB

Dozvola::
Apache 2.0

Brzina:
Fast

Kvaliteta::

jezici:
en, zh

VRAM:
4GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
2x

44.1kHz audio Bez tokenizera Kloniranje u međujezičnom jeziku Kontekstno svjestan LoRA fino uklapanje

Najbolje za:: Zvuk visoke vjernosti, audioknjige, dugoformni sadržaj s dosljednošću glasa

Pokušaj VoxCPM

Kani TTS 2

Free

Kani-TTS-2 od NineNineSix je ultra-lagani model parametra 400M izgrađen na tekućoj AI LFM2 kičmi s NVIDIA NanoCodec. Ona radi samo u 3GB VRAM i proizvodi ~10 sekundi govora u ~2 sekundi na A100 (RTF 0.2). Trenutno javno izdanje brodova samo engleski `kani-tts-2-en' kontrolni punkt i ne otkriva udicu za ulaganje zvučnika potrebnu za kloniranje glasa — koristiti Chatterbox / IndexTTS2 / F5-TTS za kloniranje, ili Kokoro / MelotTS za ne-engleski.

Razvojnik::
NineNineSix

Dozvola::
Apache 2.0

Brzina:
Fast

Kvaliteta::

jezici:
en

VRAM:
3GB

Kloniranje glasa:
Ne.

Troškovi po 1K oznakama:
Slobodno

3GB VRAM Ultra-brzo Lagano NanoCodec Slobodno

Najbolje za:: Brzo engleska generacija na niskom VRAM hardveru, brzi pregledi

Pokušaj Kani TTS 2

OuteTTS

Free

OutetTS proširuje velike jezičke modele s tekst-u-peech mogućnosti pri očuvanju originalne arhitekture. Ona podržava više pozadina uključujući llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, pa čak i zaključak preglednika preko Transformers.js. Mogućnosti nulto-shoot kloniranja glasa kroz zvučnike profile spremljene kao JSON.

Razvojnik::
OuteAI

Dozvola::
Apache 2.0

Brzina:
Fast

Kvaliteta::

jezici:
en

VRAM:
2GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
Slobodno

Zaključak o CPU-u Zaključak preglednika Kloniranje glasa Višestruke pozadine Profili zvučnika

Najbolje za:: Raspoređivanje ruba, TTS na bazi preglednika, okruženja s niskim izvorima

Pokušaj OuteTTS

VibeVoice

Standard

VibeVoice od Microsofta dolazi u dvije varijante: model 1.5B za dugoformni sadržaj (do 90 minuta, 4 zvučnika) i model Realtime 0.5B za streaming s ~200ms prvom audio latency. varijanta 1.5B nadmašuje na podcastima i audio knjigama s konzistencijom zvučnika preko dugih pasusa. Napomena: Microsoft uklonjen TTS kod iz repozitorija i generiran audio uključuje čujene AI izgovore.

Razvojnik::
Microsoft

Dozvola::
MIT

Brzina:
Fast

Kvaliteta::

jezici:
en, zh

VRAM:
4GB

Kloniranje glasa:
Ne.

Troškovi po 1K oznakama:
2x

Višezvočnik Do 90 min Izrada podcasta Konzistencija zvučnika 200ms streaming

Najbolje za:: Podcasti, audioknjige, dugoformni višezvučni sadržaj

Pokušaj VibeVoice

Pocket TTS

Free

Pocket TTS by Kyutai (kreatori Moshi) je kompaktan model 100M parametara tekst-to-speech koji udara mnogo iznad svoje težine. Ona radi učinkovito na CPU, podržava kloniranje glasa nula-shot iz jednog zvučnog uzorka, i proizvodi prirodno-zvučni govor. Mala veličina modela čini ga idealnim za raspoređivanje ruba i niske izvorne sredine.

Razvojnik::
Kyutai

Dozvola::
MIT

Brzina:
Fast

Kvaliteta::

jezici:
en, fr

VRAM:
1GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
Slobodno

Parametri 100M Zaključak o CPU-u Kloniranje glasa kloniranje jednog uzorka Spremni za rub

Najbolje za:: Lagano raspoređivanje, CPU-samo okruženja, brzo kloniranje glasa

Pokušaj Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML je ultra-lagani tekst-to-speech model izgrađen na ONNX. Sa varijantama od 15M do 80M parametra (25-80 MB na disku), pruža visokokvalitetan sintezu glasa na CPU bez potrebe za GPU. Značajke 8 ugrađenih glasova, prilagodljiva brzina govora, i ugrađeni tekst preoblikovanje za brojeve, valute i jedinice. Idealno za raspoređivanje rubova i niske zalate aplikacije.

Razvojnik::
KittenML

Dozvola::
Apache 2.0

Brzina:
Fast

Kvaliteta::

jezici:
en

VRAM:
0GB

Kloniranje glasa:
Ne.

Troškovi po 1K oznakama:
Slobodno

Zaključak samo CPU-a Pod veličinom 80MB modela 8 ugrađenih glasova Kontrola brzine Na osnovu ONNX-a 24kHz izlaz

Najbolje za:: Brzi lagani TTS, raspoređivanje rubova, niske kasnije aplikacije

Pokušaj Kitten TTS

CosyVoice3

Standard

CosyVoice3 je najnovija evolucija iz Alibaba FunAudioLLM tim. Ona sadrži dvostruke zaključke s ~150ms latence, instruction-based kontrola za emocije/brzina/obim, i poboljšana sličnost govornika za nulto-shot kloniranje. Podržava 9 jezika plus 18 kineskih dijalekata. RL-tuned varijanta dostavlja najmodernije prozodi.

Razvojnik::
Alibaba (FunAudioLLM)

Dozvola::
Apache 2.0

Brzina:
Fast

Kvaliteta::

jezici:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
2x

Dvostruko strujanje Kontrola emocija Kloniranje glasa Kontrola brzine i volumena Sljedeća uputa

Najbolje za:: Višejezična proizvodnja TTS, aplikacije u realnom vremenu, kloniranje glasa

Pokušaj CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS je saudijski arapski fin-tune od Resemble AI-a ChatterboxMultilingual. Treniran od strane NAMAA prostor na autentičnom saudijsko-dijalektan govor, proizvodi prirodni moderni standardni arapski i saudijski kolokvijalni izgovor da generični višejezični modeli ne mogu odgovarati. Nasljeduje Chatterbox je nulto-shot kloniranje glasa i emocije kontrola putem referentnih audio ups. Prve otvorene težine arapski TTS raspoređen na TTS.ai.

Razvojnik::
NAMAA Space

Dozvola::
MIT

Brzina:
Medium

Kvaliteta::

jezici:
ar

VRAM:
6GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
2x

Saudijski arapski dijalekt Moderni standardni arapski kloniranje glasa s nultim udarcem Kontrola emocija Izgovor

Najbolje za:: Arapski sadržaj za saudijsku publiku, MSA narration, Khaleeji-dialektne glasovne agente, arapski audiobooks

Pokušaj NAMAA Saudi TTS

Darwin TTS

Standard

Darwin-TTS-1,7B-Cross by WINAL-Bench je istraživačka varijanta Qwen3-TTS-1,7B gdje se 84 toaker-FFN tenzori (8,6%) mješaju na α=3% s odgovarajućim tenzorima iz Qwen3-1,7B-Base. Mješavina je izgrađena bez preosposobljavanja i proizvodi primjetno krupnije unakrsno-jezično kloniranje glasa preko korejskog, engleskog, japanskog i kineskog jezika. Operira se u nultom glasno-klonskom modu (3 sekunde referentni audio).

Razvojnik::
FINAL-Bench

Dozvola::
Apache 2.0

Brzina:
Medium

Kvaliteta::

jezici:
en, ko, ja, zh

VRAM:
7GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
2x

Kloniranje glasa Međujezični FFN-krvav 4 temeljna jezika Qwen3 kičma

Najbolje za:: Kloniranje međujezičnog glasa između engleskog / korejskog / japanskog / kineskog s jednim referentnim glasom

Pokušaj Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 iz OpenMOSS je 7B dijalog tekst-na-speech model koji nastavlja razgovore iz kratkog zvučnog promicanja. Podržava do 5 simultanih zvučnika putem [S1] / [S2] oznaka, kloniranje nula glasova od 3-10 referentnog zvuka, te do 60 minuta koherentnog multi-turn dijaloga preko 20 jezika. Odstup od MOSS-TTS — TTSD je specijaliziran za podcast/audiobook/dubbing radni tokovi.

Razvojnik::
OpenMOSS

Dozvola::
Apache 2.0

Brzina:
Medium

Kvaliteta::

jezici:
en, zh

VRAM:
12GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
2x

Višezvučni dijalog Do 5 zvučnika 60min koherentnog zvuka Kloniranje glasa optimiziran podcastom

Najbolje za:: Podcasti, audioknjige, dijalog nazvan, razgovorni sadržaj s više glasova

Pokušaj MOSS-TTSD

Ming-Omni TTS

Free

Ming-omni-tts-0.5B inclusionAI je kompaktan svemodalni model govora izgrađen na BailingMM gustoj kičmi s Patch-by-Patch tok-parting audio dekoder. Dostavlja 44.1kHz izlaz (približna kvaliteta CD-a), podržava kloniranje glasa iz 3+ sekunde referenci, te uključuje ugrađene emocije / dijalekt / BGM kontrola putem JSON upute. Odlična stabilnost — 0,83% WER na kineskim mjerilima.

Razvojnik::
inclusionAI

Dozvola::
Apache 2.0

Brzina:
Medium

Kvaliteta::

jezici:
en, zh

VRAM:
3GB

Kloniranje glasa:
-Da. -Da.

Troškovi po 1K oznakama:
Slobodno

44.1kHz izlaz Kloniranje glasa Kontrola emocija Kontrola dialekta Generacija BGM-a Kompaktno 0,5B

Najbolje za:: Visoka vjernost dvojezična naracija, emocionalno kontrolirani glas gluma, kineski audiobook sadržaj

Pokušaj Ming-Omni TTS

Kokoro

Slobodno

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Razvojnik::
Hexgrad

Dozvola::
Apache 2.0

Brzina:
Fast

Kvaliteta::

jezici: en, ja, zh, fr, it, pt, es, hi

Najbolje za:: High-quality TTS with minimal latency, streaming applications

Pokušaj slobodno

Piper

Slobodno

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Razvojnik::
Rhasspy

Dozvola::
MIT

Brzina:
Fast

Kvaliteta::

jezici: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

Najbolje za:: Quick previews, accessibility, and embedded applications

Pokušaj slobodno

VITS

Slobodno

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Razvojnik::
Jaehyeon Kim et al.

Dozvola::
MIT

Brzina:
Fast

Kvaliteta::

jezici: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

Najbolje za:: General-purpose text-to-speech with natural prosody

Pokušaj slobodno

MeloTTS

Slobodno

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Razvojnik::
MyShell.ai

Dozvola::
MIT

Brzina:
Fast

Kvaliteta::

jezici: en, es, fr, zh, ja, ko

Najbolje za:: Production applications needing fast, multilingual TTS

Pokušaj slobodno

Kani TTS 2

Slobodno

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

Razvojnik::
NineNineSix

Dozvola::
Apache 2.0

Brzina:
Fast

Kvaliteta::

jezici: en

Najbolje za:: Fast English generation on low-VRAM hardware, quick previews

Pokušaj slobodno

OuteTTS

Slobodno

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Razvojnik::
OuteAI

Dozvola::
Apache 2.0

Brzina:
Fast

Kvaliteta::

jezici: en

Najbolje za:: Edge deployment, browser-based TTS, low-resource environments

Pokušaj slobodno

Pocket TTS

Slobodno

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

Razvojnik::
Kyutai

Dozvola::
MIT

Brzina:
Fast

Kvaliteta::

jezici: en, fr

Najbolje za:: Lightweight deployment, CPU-only environments, quick voice cloning

Pokušaj slobodno

Kitten TTS

Slobodno

Razvojnik::
KittenML

Dozvola::
Apache 2.0

Brzina:
Fast

Kvaliteta::

jezici: en

Najbolje za:: Fast lightweight TTS, edge deployment, low-latency applications

Uzorak	Razvojnik:	Nivo	Brzina	jezici	VRAM	Dozvola:	krediti
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	Slobodno	Koristi
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	Slobodno	Koristi
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	Slobodno	Koristi
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Slobodno	Koristi
Bark	Suno	Standard	Slow	13	5GB	MIT	2	Koristi
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Koristi
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Koristi
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Koristi
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Koristi
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	Koristi
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Koristi
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Koristi
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	Koristi
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Koristi
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Koristi
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	Koristi
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Koristi
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	Koristi
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Koristi
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	Koristi
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	Koristi
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	Koristi
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	Slobodno	Koristi
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Slobodno	Koristi
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	Koristi
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Slobodno	Koristi
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Slobodno	Koristi
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	Koristi
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	Koristi
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	Koristi
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	Koristi
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	Slobodno	Koristi

Najsveobuhvatniji AI tekst govornoj platformi

Zašto odabrati TTS.ai za tekst za govor?

TTS.ai ujedinjuje najbolje svjetske modele otvorenog izvora tekst-na-špeech u jednoj, lako korištenoj platformi. Za razliku od vlasničkih usluga koje vas zaključavaju u jednoglasni motor, TTS.ai vam daje pristup 20+ modela iz vodećih istraživačkih laboratorija, uključujući Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua Sveučilište, i više.

Svaki model je otvoren izvor pod MIT-om, Apache 2.0 ili sličnim popustljivim licencama, osiguravajući da imate puna komercijalna prava da koristite generirani audio u svojim projektima. Bilo da vam je potrebna brza, lagana sinteza za aplikacije u realnom vremenu ili vrhunski studio kvalitetni izlaz za audiobooke i podcaste, TTS.ai ima pravi model za svaku upotrebu.

Besplatni modeli, Nema potrebe za računom

Započnite odmah s tri besplatna TTS modela: Piper (ultra-brza, lagana), VITS (visoka kvaliteta neuronske sinteze) i Melotts (višejezična podrška). Nema prijavljivanja, bez kreditne kartice, bez ograničenja na generacije. Besplatni modeli podržavaju engleski i više drugih jezika s prirodnim zvukom izlaza pogodan za većinu aplikacija.

GPU-približena obrada

Svi modeli TTS pokrenuti na posvećene NVIDIA GPUs za brze, dosljedne generacije puta. Besplatni modeli obično generirati audio u manje od 2 sekunde. Standardni modeli kao Kokoro, CosyVoice 2, i Bark prosječno 3-5 sekundi. Premium modeli s najvišom kvalitetom, kao što su Tortoise i Chatterbox, proces u 5-15 sekundi ovisno o dužini teksta.

30+ Jezici podržani

Generirati govor na više od 30 jezika, uključujući engleski, španjolski, francuski, njemački, talijanski, portugalski, kineski, japanski, korejski, arapski, hindi, ruski, i mnogi drugi. Nekoliko modela podržavaju međujezičnu sintezu, što znači da možete generirati govor na jeziku na kojem originalni glas nikada nije obučen. CosyVoice 2 i GPT-SoviTS excelira na križ-jezično kloniranje glasa.

Programer-Ready API

Iнтегрirajte TTS.ai u vaše aplikacije s našim OpenAI kompatibilnim REST API. Jedna ishodna točka za sve 20+ modela. Python, JavaScript, cURL i Go SDKs. Streaming support for real-time aplikacije. Party obrada za generiranje velikog sadržaja. Webhooks za asinhic obavijesti. API pristup uključen na svaki plan uključujući besplatno.

Česta pitanja

Tekst na govor (TTS) je AI tehnologija koja pretvara pisani tekst u prirodno zvučni govorni audio. Moderni neuronski TTS modeli poput Kokoro, Chatterbox i CosyVoice 2 koriste duboko učenje za proizvodnju govora koji zvuči nevjerojatno ljudski, s prirodnom prozodijom, emocijama i ritmom.

To ovisi o vašim potrebama. Za brze preglede, koristite Piper ili MeloTTS (besplatno, brzo). Za visoku kvalitetu pokušajte Kokoro ili CosyVoice 2 (standardni stupanj). Za kloniranje glasa, koristite Chatterbox ili GPT-SoviTS (premij). Za dijalog/podcast sadržaj, probajte Dia TTS. Svaki model ima različite prednosti – eksperiment za pronaći najbolje odgovarajuće.

Da! TTS.ai nudi besplatni tekst-to-speech s Kokoro, Piper, VITS, i Melotts modelima. Nema računa potreban za do 500 znakova i 3 generacije na sat. Prijavite se za besplatni račun za dobivanje 15.000 znakova i pristup svim modelima.

Naši TTS modeli kolektivno podržavaju 30+ jezika uključujući engleski, španjolski, francuski, njemački, talijanski, portugalski, kineski, japanski, korejski, arapski, ruski, hindi, i mnoge druge. Razpoloživost jezika varira prema modelu.

Da, zvuk generiran kroz TTS.ai može se koristiti komercijalno. Svi naši modeli koriste licence otvorenog izvora (MIT, Apache 2.0). Provjerite pojedinačne licence modela za određene uvjete. Preporučujemo pregled licence određenog modela koji koristite za vaš projekt.

TTS.ai podržava MP3, WAV, OGG, i FLAC izlazni formati. MP3 je uobičajeno za web reprodukciju. WAV se preporučuje za daljnju obradu zvuka. Možete konvertirati između formata koristeći naš Audio Converter alat.

kloniranje glasa koristi AI za repliciranje određenog glasa iz kratkog zvučnog uzorka (obično 5-30 sekundi). Ubacite jasan snimak ciljnog glasa i modele kao što su Chatterbox, GPT-SoviTS, ili OpenVoice će stvoriti novi govor u tom glasu. Kvaliteta se poboljšava s čistijim, dužim referentnim zvukom.

Besplatni korisnici mogu generirati do 500 znakova po zahtjevu. Registrirani korisnici dobivaju do 5000 znakova po zahtjevu. Za duže tekstove, zvuk se generira u komadima i šiva zajedno automatski. API korisnici mogu obraditi do 10.000 znakova po zahtjevu.

Podrška SSML-a (Sustave govora Markup Language) varira prema modelu. Piper i neki drugi modeli podržavaju osnovne SSML oznake za pauze, naglasak i kontrolu izgovora. Za modele bez native SSML podrške, možete koristiti prirodnu interpukciju i linijske pauze za utjecaj prozodi.

Da, većina modela podržava prilagodbu brzine od 0,5x do 2.0x. Neki modeli poput Barka i Parlera također omogućuju kontrolu brzine i stila. Možete postaviti parametre brzine u panelu naprednih postavki ili putem API brzine parametra.

Da, obrada serije je dostupna kroz naš API. Možete podnijeti više tekstualnih segmenta u jednom API pozivu ili skripti, a svaka će biti obrađena i vraćena kao zasebne zvučne datoteke. Ovo je idealno za audiobook poglavlja, e-učenje modula, ili igre dijaloške skripte.

Generirajte API ključ s vaše ploče s računom, zatim poslati zahtjeve POST na naš REST API ishod s vašim tekstom, modelom i glasovnim parametrima. Mi pružamo primjere koda u Pythonu, JavaScriptu i cURL. API je kompatibilan s OpenAI, tako da postojeće integracije rade s minimalnim promjenama.

5.0/5 (4)

Započni pretvaranje teksta u govor sada

Pridružite se tisućama tvoraca koji koriste TTS.ai. Dobiti 15.000 besplatnih znakova s novim računom. Besplatni modeli dostupni bez prijave.

Slobodno se prijavite Pogledaj cijene

AI tekst za govor

Reci svojim prijateljima!

Detalji modela

Kitten TTS

Savjeti za bolje rezultate

Upotreba karaktera

Kako AI tekst radi govora

Unesite vaš tekst

Odaberite model i glas

Generiraj & preuzimanje

Slučaji korištenja teksta u govoru

Audio knjige

Video

Podcasti

Igranje

E-učenje

Pristupačnost

IVR & Telefonski sustavi

Društveni mediji

Streaming

Tržište

Dubbing & Lokalizacija

Meditacija i wellness

Modeli cijelog teksta za govor

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3