AI Voice Library
Browse, preview, and compare 100+ AI voices across 24+ models. Find the perfect voice for your project.
Àwọn Àwòrán
101 voices found
Kò ní àwọn àwòrán mìíràn tí wọ́ inú àwọn ìṣàmúlò-ètò rẹ̀. Jẹ́ kí o fi àwọn ìpéwọ̀n ìṣàfihàn rẹ̀ pamọ́.
Voices by AI Model
Each TTS model has its own set of voices with unique characteristics. Some models support voice cloning, allowing you to use any voice as a reference.
Bark
28 voices
Àwọn ìkúndùǹ
Àwọn ìṣàfilọ́lẹ̀
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
Chatterbox
1 voices
Àwọn ìṣàmúlò-ètò
Àwọn ìṣàfilọ́lẹ̀
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
Default
English
CosyVoice 2
5 voices
Àwọn ìkúndùǹ
Àwọn ìṣàfilọ́lẹ̀
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
Dia TTS
2 voices
Àwọn ìkúndùǹ
Àwọn ìṣàfilọ́lẹ̀
Multi-speaker dialog generation model that creates natural conversations between speakers.
GPT-SoVITS
1 voices
Àwọn ìkúndùǹ
Àwọn ìṣàfilọ́lẹ̀
Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.
Default
Chinese
IndexTTS-2
1 voices
Àwọn ìkúndùǹ
Àwọn ìṣàfilọ́lẹ̀
Zero-shot TTS with fine-grained emotion control and high expressiveness.
Default
English
Kokoro
26 voices
Àìfihàn
Àwọn ìṣàfilọ́lẹ̀
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
MeloTTS
7 voices
Àìfihàn
Àwọn ìṣàfilọ́lẹ̀
High-quality multilingual text-to-speech that runs on CPU with minimal latency.
OpenVoice
1 voices
Àwọn ìṣàmúlò-ètò
Àwọn ìṣàfilọ́lẹ̀
Instant voice cloning with granular control over style, emotion, and accent.
Default
English
Orpheus
8 voices
Àwọn ìkúndùǹ
Àwọn ìṣàfilọ́lẹ̀
Human-level emotional TTS model trained on 100K hours of speech data.
Parler TTS
1 voices
Àwọn ìkúndùǹ
Àwọn ìṣàfilọ́lẹ̀
Describe the voice you want in natural language and Parler generates matching speech.
Default
English
Piper
7 voices
Àìfihàn
Àwọn ìṣàfilọ́lẹ̀
A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.
Qwen3 TTS
9 voices
Àwọn ìkúndùǹ
Àwọn ìṣàfilọ́lẹ̀
Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.
Spark TTS
1 voices
Àwọn ìkúndùǹ
Àwọn ìṣàfilọ́lẹ̀
Voice cloning TTS with controllable emotion and speaking style via prompts.
Default
English
StyleTTS 2
1 voices
Àwọn ìṣàmúlò-ètò
Àwọn ìṣàfilọ́lẹ̀
Human-level text-to-speech through style diffusion and adversarial training.
Default
English
Tortoise TTS
1 voices
Àwọn ìṣàmúlò-ètò
Àwọn ìṣàfilọ́lẹ̀
Multi-voice text-to-speech focused on quality with autoregressive architecture.
Random
English
VITS
1 voices
Àìfihàn
Àwọn ìṣàfilọ́lẹ̀
Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.
Default
EnglishÀwọn àwòrán AI
Voice Quality Tiers
TTS.ai offers voices across three quality tiers. Free-tier voices from Piper, VITS, and MeloTTS deliver fast, good-quality synthesis at no cost. Standard-tier voices from models like Kokoro and CosyVoice 2 offer more natural prosody and emotion. Premium-tier voices from OpenVoice, Chatterbox, and StyleTTS 2 provide the most realistic, human-like speech available in open-source TTS.
Àwọn Àwòrán
Many voices support multiple languages. Some models like CosyVoice 2 and GPT-SoVITS support cross-lingual synthesis, where a voice trained in one language can speak naturally in another. The language filter above lets you find voices that natively support your target language, ensuring the best pronunciation and intonation.
Voice Cloning
Some models support voice cloning, which means you can use any voice as a reference to create speech that sounds like that person. Upload a short audio sample (10-30 seconds) and the model will adapt to match the voice characteristics. Models that support cloning include GPT-SoVITS, CosyVoice 2, and Chatterbox.
Ṣàfihàn Àwòrán
Àwòrán tí o dara jù dájú àwọn ìṣàmúlò-ètò rẹ̀. Fún àwọn àkọlé àwòrán àti àwọn pódíẹ̀tì, ló àwọn àwòrán àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò. Fún àwọn àwòrán ere, ṣàfihàn àwọn àwòrán àwọn ìṣàmúlò-ètò. Fún ìṣàfihàn àwọn ìṣàmúlò-ètò láàyè-iṣẹ́, àwọn àwòrán àwọn ìṣàmúlò-ètò ọ̀fẹ́ gbá àwọn ààyè-ètò láàyè-ètò nípa àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn
Àwọn Àtòjọ-ẹ̀yàn
Ṣàfihàn, Ṣẹ̀dà, àti Ìṣàmúlò-ètò Àwòrán Rẹ̀
Preview any voice, then use it directly in Text to Speech. Sign up free and get 50 credits to try premium voices.