Free AI Àkọlé sí Àkọ́kọ́

22+ open-source models, 100+ voices, 32+ Àwọn ìtàn. Kò ní kọ̀ǹpútà kan tí a fẹ́.

0/500 Àwọn àmì-àṣírí Àìfihàn
Kò ní kaadí ẹ̀yàn 50 free credits 32+ Àwọn èdè Àwọn Ìṣàmúlò-ètò
0:00 / 0:00
Download Audio Líǹkì náà kù nínú 24h
Gẹ́gẹ́ bí TTS.ai? Ṣàfihàn àwọn ọrẹ́ rẹ̀!

Gbogbo àwòrán tí o fẹ̀ fún àwòrán AI

26 àwọn ìrísí-lẹ́tà tí 24+ àwọn ìṣàmúlò-ètò AI tí a ṣí

Àwọn ìṣàmúlò-ètò àwọn àwòrán

Àwọn ìṣàmúlò-ètò TTS ìṣàmúlò-ètò mìíràn nínú pánẹ́ẹ̀lì kan

Kokoro Free

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Tí o darà fún: High-quality TTS with minimal latency, streaming applications

Wòye

Piper Free

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Tí o darà fún: Quick previews, accessibility, and embedded applications

Wòye

VITS Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Tí o darà fún: General-purpose text-to-speech with natural prosody

Wòye

MeloTTS Free

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Tí o darà fún: Àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò tí fẹ́ ìṣàmúlò-ètò TTS àìpẹ̀, àwọn ìṣàmúlò-ètò mìíràn

Wòye

Bark Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Alábòójútó: Suno · Àwọn Àmì-ìwé: MIT

Wòyé

Bark Small Standard

Lighter version of Bark with faster inference and lower memory usage.

Alábòójútó: Suno · Àwọn Àmì-ìwé: MIT

Wòyé

CosyVoice 2 Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Alábòójútó: Alibaba (Tongyi Lab) · Àwọn Àmì-ìwé: Apache 2.0

Wòyé

Dia TTS Standard

Módélù ìṣàfilọ́lẹ̀ àgbèkalẹ̀ àwọn ìṣàfilọ́lẹ̀ mìíràn tí n ṣẹ̀dá àgbèkalẹ̀ ìṣàfilọ́lẹ̀ inú àwọn ìṣàfilọ́lẹ̀.

Alábòójútó: Nari Labs · Àwọn Àmì-ìwé: Apache 2.0

Wòyé

Parler TTS Standard

Describe the voice you want in natural language and Parler generates matching speech.

Alábòójútó: Hugging Face · Àwọn Àmì-ìwé: Apache 2.0

Wòyé

IndexTTS-2 Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Alábòójútó: Index Team · Àwọn Àmì-ìwé: Apache 2.0

Wòyé

Spark TTS Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Alábòójútó: SparkAudio · Àwọn Àmì-ìwé: Apache 2.0

Wòyé

GPT-SoVITS Standard

Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.

Alábòójútó: RVC-Boss · Àwọn Àmì-ìwé: MIT

Wòyé

Orpheus Standard

Human-level emotional TTS model trained on 100K hours of speech data.

Alábòójútó: Canopy Labs · Àwọn Àmì-ìwé: Llama 3.2 Community

Wòyé

Qwen3 TTS Standard

Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.

Alábòójútó: Alibaba (Qwen) · Àwọn Àmì-ìwé: Apache 2.0

Wòyé

Chatterbox Premium

Iṣàfilọ́lẹ̀ àwòrán tí kò ní ìṣàfilọ́lẹ̀ pẹ̀lú ìṣàfilọ́lẹ̀ ìrànwọ́ láti inú Resemble AI.

Ìgúnrégé:

Wòyé

Tortoise TTS Premium

Àkọlé àwòrán-si-ìgbàkalẹ̀-ìgbàkalẹ̀-ìgbàkalẹ̀-ìgbàkalẹ̀-ìgbàkalẹ̀-ìgbàkalẹ̀-ìgbàkalẹ̀-ìgbàkalẹ̀

Ìgúnrégé:

Wòyé

StyleTTS 2 Premium

Human-level text-to-speech through style diffusion and adversarial training.

Ìgúnrégé:

Wòyé

OpenVoice Premium

Ìṣàmúlò-ètò àwọn àwòrán láàyè-ètò ní pàtó àwọn ìṣàmúlò-ètò, àwọn ìrànwọ́, àti àwọn ìṣàfihàn.

Ìgúnrégé:

Wòyé

CosyVoice 2

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Àwọn èdè: en, zh, ja, ko, fr, de, it, es

Àwọn Àmì-ìwé

IndexTTS-2

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Àwọn èdè: en, zh

Àwọn Àmì-ìwé

Spark TTS

Voice cloning TTS with controllable emotion and speaking style via prompts.

Àwọn èdè: en, zh

Àwọn Àmì-ìwé

GPT-SoVITS

Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.

Àwọn èdè: en, zh, ja, ko

Àwọn Àmì-ìwé

Chatterbox

Iṣàfilọ́lẹ̀ àwòrán tí kò ní ìṣàfilọ́lẹ̀ pẹ̀lú ìṣàfilọ́lẹ̀ ìrànwọ́ láti inú Resemble AI.

Àwọn èdè: en

Àwọn Àmì-ìwé

Tortoise TTS

Àkọlé àwòrán-si-ìgbàkalẹ̀-ìgbàkalẹ̀-ìgbàkalẹ̀-ìgbàkalẹ̀-ìgbàkalẹ̀-ìgbàkalẹ̀-ìgbàkalẹ̀-ìgbàkalẹ̀

Àwọn èdè: en

Àwọn Àmì-ìwé

OpenVoice

Ìṣàmúlò-ètò àwọn àwòrán láàyè-ètò ní pàtó àwọn ìṣàmúlò-ètò, àwọn ìrànwọ́, àti àwọn ìṣàfihàn.

Àwọn èdè: en, zh, ja, ko, fr, de, es, it

Àwọn Àmì-ìwé

Qwen3 TTS

Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.

Àwọn èdè: en, zh, ja, ko, de, fr, ru, pt, es, it

Àwọn Àmì-ìwé

Àwọn Ìṣàmúlò-ètò

API REST OpenAI-ọ̀pọ̀. Ààyè kan, 22+ àwọn ìṣàmúlò-ètò. Ààyè fún àwọn ìṣàmúlò-ètò ìgbáyàn.

  • Ìgúnrégé tí a bá fẹ́
  • Ìṣàfilọ́lẹ̀ TTS fún àwọn ìṣàmúlò-ètò ìtàn
  • Ìṣàmúlò-ètò àwọn iṣẹ́ nlà
  • Àwọn ìsàlẹ̀-ilà Webhook
Àwọn Àkọsílẹ̀
Python
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts/",
    headers={"Authorization": "Bearer sk-tts-xxx"},
    json={
        "model": "kokoro",
        "text": "Hello from TTS.ai!",
        "voice": "af_bella",
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

Simple, Transparent Pricing

Bẹ́ẹ̀nì. Ṣẹ̀dà bí o tí wúlò.

Àìfihàn

$0

Àwọn ẹ̀yàn 50

  • Kokoro, Piper, VITS, MeloTTS
  • Àwọn àmì-ìwé àwọn àmì-ìwé
  • 3 ọjọ/aago (kò ní kọ̀ǹpútà)
Ṣàfihàn

Ìṣàmúlò-ètò

$9/Àwọn ààyè-iṣẹ́

500 credits/month

  • Gbogbo àwọn àwòrán 22+
  • Àwọn àmì-ìwé àwọn àmì-ìwé
  • Àwọn Àmì-ìwé
Ṣẹ̀dà
Àwọn Àkọ́gbégbé

Àwọn Ìṣàmúlò-ètò

$29/Àwọn ààyè-iṣẹ́

2,000 credits/month

  • Gbogbo àwòrán nínú Aṣàfilọ́lẹ̀
  • Ààyè-iṣẹ́ API
  • Àwọn Ìṣàmúlò-ètò
Gba Pro

Àwọn Ìṣàfilọ́lẹ̀

$99/Àwọn ààyè-iṣẹ́

10,000 credits/month

  • Ohun gbogbo nínú Pro
  • Aṣàfilọ́lẹ̀ API
  • Àwọn ìṣàmúlò-ètò
Àwọn Ìṣàmúlò-ètò

View all plans including credit packs →

Àwọn Àtòjọ-ẹ̀yàn

TTS.ai ní pánẹ́ẹ̀lì àwòrán AI tí o pọ̀ jú lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́lọ́wọ́

Ya! TTS.ai nfun ọrọ-si-ọrọ ọfẹ pẹlu awọn awoṣe Kokoro, Piper, VITS, ati MeloTTS. Ko si akọọlẹ ti o nilo. Ṣabẹwo lati gba awọn owo-ori ọfẹ 50 ati wọle si gbogbo awọn awoṣe. Awọn eto ti a sanwo bẹrẹ ni $ 9 / oṣu.

Fún ìjánu-ìjánu, lo Kokoro tàbí Piper. Fún ìjánu-ìjánu, lo CosyVoice 2 tàbí StyleTTS 2. Fún ìjánu-ìjánu àwòrán, lo Chatterbox tàbí GPT-SoVITS. Fún àgbèkalẹ̀, lo Dia TTS. Ló àwọn ìṣàmúlò-ètò mìíràn lórí àyọkà náà láti pàtó.

Ya. OpenAI-compatible REST API for TTS, STT, voice cloning, and audio tools. Available on Pro ($29/mo) and Enterprise ($99/mo) plans. View documentation at tts.ai/api/.

Àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò

TTS.ai gbọ́dọ̀ kọ̀ọ̀kan 30+ àwọn èdè lọ́wọ́lọ́wọ́ ìṣàmúlò-ètò rẹ̀. Gẹ́ẹ̀lì ní ìrànwọ́ ìṣàmúlò-ètò tí o pọ̀ jú lọ́wọ́lọ́wọ́, ṣugbọn àwọn ìṣàmúlò-ètò bí CosyVoice 2 gbọ́dọ̀ kọ̀ọ̀kan Chinese, Japanese, and Korean; GPT-SoVITS gbọ́dọ̀ kọ̀ọ̀kan Chinese, Japanese, Korean, and English; àti MeloTTS gbọ́dọ̀ kọ̀ọ̀kan English, Spanish, French, Chinese, Japanese, and Korean.

Ya. Gbogbo àwọn ìṣàmúlò-ètò náà tí wa nínú àwọn sáà GPU wà. A kò fi àwọn àgbéwọlé àyọkà rẹ̀ àti àwọn àwòrán tí a ṣẹ̀dà sípò. Àwọn ààyè àwọn ìṣàmúlò-ètò àwòrán tí a fi pamọ́ fún ìṣàmúlò-ètò lọ́wọ́lọ́wọ́ ní pàtó fún sáà lọ́wọ́lọ́wọ́ náà. A kò pẹ̀lú àwọn ààyè rẹ̀ pẹ̀lú àwọn ìṣàmúlò-ètò mìíràn tàbí a kò lò fún ìṣàmúlò-ètò.

Yes. All audio generated on TTS.ai is yours to use commercially, including for YouTube videos, podcasts, audiobooks, apps, advertisements, and products. Our models are open source under permissive licenses (MIT, Apache 2.0). No royalties or attribution required.

TTS.ai ṣẹ̀dà àwòrán nínú ìṣàmúlò-ètò WAV nípa ìpéwọ̀n fún ìgúnrégé tí o ga jú lọ. O lè yipadà sí MP3, FLAC, OGG, tàbí M4A láti lò àtòjọ-ẹ̀yàn Àwòrán ọ̀fẹ́ wa. API náà gbọ́dọ̀ kọ̀ọ̀kan àwọn ìṣàmúlò-ètò ìjánu-ìṣàfilọ́lẹ̀ rẹ̀ nínú ibeerè náà.

Upload a short audio sample (as little as 5 seconds) of the voice you want to clone, then type any text to generate speech in that voice. Models like Chatterbox, GPT-SoVITS, and CosyVoice 2 support voice cloning. The cloned voice captures tone, accent, and speaking style.

Àwọn àwọn ìṣàmúlò-ètò ọ̀fẹ́ (Kokoro, Piper, VITS, MeloTTS) kò niló àwọn ìṣàmúlò-ètò mìíràn àti àwọn àwọn ìṣàmúlò-ètò tí kò ní iye. Àwọn àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò (2 àwọn ìṣàmúlò-ètò/1K àwọn àmì-àṣírí) àti Bark, CosyVoice 2, F5-TTS, àti Dia. Àwọn ìṣàmúlò-ètò Premium (4 àwọn ìṣàmúlò-ètò/1K àwọn àmì-àṣírí) àti OpenVoice, Chatterbox, StyleTTS 2, àti Tortoise. Àwọn ìṣàmúlò-ètò tí a pàyàn ní pàtó àwọn àwọn ìṣàmúlò-ètò àti àwọn ààyè-ètò àti àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò.

Òyà. API náà gbá ìṣàmúlò-ètò bátìnì fún ìṣàmúlò-ètò nlà àwọn àkọ́lé láti inú àkọ́kọ́. Fi àwọn ìṣàmúlò-ètò lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́ lọ́wọ́lọ́wọ́ lórí àwọn iṣẹ́ UUID. Àwọn ìṣàmúlò-ètò ile-iṣẹ́ ($99/móòdù) ní àwọn ìṣàmúlò-ètò fún ìṣàmúlò-ètò bátìnì tí a fẹ́ fún ìṣàmúlò-ètò bátìnì. Ó jẹ́ ìṣàmúlò-ètò tí a lò fún ìṣàmúlò-ètò àwọn àkọ́kọ́, àwọn àkọ́kọ́ kọ̀ǹpútà kọ̀ǹpútà, àtí àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò nlà.
5.0/5 (1)

Ṣàfihàn àwòrán AI

Ṣàfikún àwọn ìṣàfilọ́lẹ̀, àwọn ìṣàfilọ́lẹ̀, àti àwọn ile-iṣẹ́ láti lo TTS.ai