AI gratuit Texte au discours
33+ modèles open-source, 273+ des voix, 33+ Aucun compte n'est requis.
Tout ce dont vous avez besoin pour la voix AI
30+ outils alimentés par des modèles d'IA open-source
33+ Modèles de voix d'IA
La collection la plus complète de modèles TTS open-source en une seule plateforme
Kokoro Gratuit
Kokoro est un modèle text-to-speech de 82 millions de paramètres qui frappe bien au-dessus de sa classe de poids. Malgré sa petite taille, il produit un langage remarquablement naturel et expressif. Kokoro prend en charge plusieurs langues dont l'anglais, le japonais, le chinois et le coréen avec une variété de voix expressives.
Meilleur pour: TTS de haute qualité avec latence minimale, applications de streaming
Essayer gratuitement
Piper Gratuit
Piper est un moteur text-to-speech léger développé par Rhasspy qui utilise les architectures VITS et larynx. Il fonctionne entièrement sur CPU, ce qui le rend idéal pour les périphériques de bord, la domotique et les applications nécessitant TTS hors ligne. Avec plus de 100 voix dans plus de 30 langues, Piper offre un langage sonore naturel à des vitesses en temps réel même sur un Raspberry Pi 4.
Meilleur pour: Aperçus rapides, accessibilité et applications intégrées
Essayer gratuitement
VITS Gratuit
VITS (Variational Inférence with adversarial learning for de bout en bout Text-to-Speech) est une méthode TTS parallèle de bout en bout qui génère plus de sonorisation naturelle que les modèles en deux étapes actuels. Il adopte l'inférence variationnelle augmentée avec des flux de normalisation et un processus de formation contradictoire, permettant une amélioration significative de la naturalité.
Meilleur pour: Texte à usage général avec prosodie naturelle
Essayer gratuitement
MeloTTS Gratuit
MeloTTS by MyShell.ai est une bibliothèque multilingue TTS qui soutient l'anglais (américain, britannique, indien, australien), l'espagnol, le français, le chinois, le japonais et le coréen. Il est extrêmement rapide, le traitement du texte à une vitesse presque en temps réel sur CPU seul. MeloTTS est conçu pour l'utilisation de la production et supporte à la fois l'inférence CPU et GPU.
Meilleur pour: Applications de production nécessitant des TTS rapides et multilingues
Essayer gratuitement
Kani TTS 2 Gratuit
Kani-TTS-2 de NineNineSix est un modèle de paramètre ultra-léger de 400M construit sur une colonne vertébrale liquide AI LFM2 avec NVIDIA NanoCodec. Il fonctionne en seulement 3GB VRAM et produit ~10 secondes de parole en ~2 secondes sur un A100 (RTF 0.2). La version publique actuelle expédie un point de contrôle anglais seulement `kani-tts-2-en` et n'expose pas le crochet d'enceinte nécessaire au clonage vocal — utilisez Chatterbox / IndexTTS2 / F5-TTS pour le clonage, ou Kokoro / MeloTTS pour les non-Anglais.
Meilleur pour: Génération d'anglais rapide sur matériel à faible VRAM, prévisualisations rapides
Essayer gratuitement
OuteTTS Gratuit
OuteTTS étend les grands modèles de langage avec des capacités de texte à parole tout en préservant l'architecture originale. Il prend en charge plusieurs backends tels que lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, et même inférence de navigateur via Transformers.js.
Meilleur pour: Déploiement d'Edge, TTS basé sur navigateur, environnements à faibles ressources
Essayer gratuitement
Pocket TTS Gratuit
Pocket TTS by Kyutai (créateurs de Moshi) est un modèle compact de 100M de texte à discours qui frappe bien au-dessus de son poids. Il fonctionne efficacement sur CPU, prend en charge le clonage vocal zéro-shot à partir d'un seul échantillon audio, et produit une parole sonore naturelle. La petite taille du modèle le rend idéal pour le déploiement des bords et les environnements à faible ressources.
Meilleur pour: Déploiement léger, environnements CPU seulement, clonage vocal rapide
Essayer gratuitement
Kitten TTS Gratuit
Kitten TTS by KittenML est un modèle text-to-speech ultra-léger construit sur ONNX. Avec des variantes de 15M à 80M paramètres (25-80 MB sur disque), il offre une synthèse vocale de haute qualité sur CPU sans avoir besoin d'un GPU. Caractéristiques 8 voix intégrées, vitesse de parole réglable, et prétraitement de texte intégré pour les nombres, les devises et les unités. Idéal pour le déploiement des bords et les applications à faible latence.
Meilleur pour: TTS léger rapide, déploiement des bords, applications à faible latence
Essayer gratuitement
Ming-Omni TTS Gratuit
Ming-omni-tts-0.5B par inclusionAI est un modèle de parole omnimodal compact construit sur l'épine dorsale dense de BailingMM avec un décodeur audio d'appariement de flux Patch-by-Patch. Fournit une sortie de 44,1kHz (près de la qualité CD), supporte le clonage vocal zéro-shot à partir d'une deuxième référence de 3+, et comprend l'émotion intégrée / le dialecte / le contrôle BGM via les instructions JSON. Excellente stabilité — 0,83% WER sur les repères chinois.
Meilleur pour: Narration bilingue haute fidélité, action vocale contrôlée par l'émotion, contenu du livre audio chinois
Essayer gratuitement
MOSS-TTS Nano Gratuit
MOSS-TTS-Nano-100M est la variante compacte de 100M-paramètre d'OpenMOSS de la famille MOSS-TTS, partageant l'architecture de transformateur de retard. Trace la qualité de pointe du modèle 8B pour ~80x des poids plus petits et considérablement plus bas par demande VRAM, ce qui le rend adapté pour les déploiements à niveau libre et à haut débit. Même portée de 20 langues.
Meilleur pour: TTS à niveau libre, production à haut volume, utilisation interactive à faible latence
Essayer gratuitement
Bark Norme
Modèle transformateur texte-audio qui génère des effets réalistes de la parole, de la musique et du son.
Développeur & #160;: Suno · Licence & #160;: MIT
Essaie.
Bark Small Norme
Version plus légère de Bark avec inférence plus rapide et utilisation de la mémoire inférieure.
Développeur & #160;: Suno · Licence & #160;: MIT
Essaie.
CosyVoice 2 Norme
Le TTS en streaming évolutif d'Alibaba avec la naturelité humaine-parité et la latence quasi nulle.
Développeur & #160;: Alibaba (Tongyi Lab) · Licence & #160;: Apache 2.0
Essaie.
Dia TTS Norme
Modèle de génération de dialogue multi haut-parleurs qui crée des conversations naturelles entre les haut-parleurs.
Développeur & #160;: Nari Labs · Licence & #160;: Apache 2.0
Essaie.
Parler TTS Norme
Décrivez la voix que vous voulez dans le langage naturel et Parler génère la parole correspondante.
Développeur & #160;: Hugging Face · Licence & #160;: Apache 2.0
Essaie.
IndexTTS-2 Norme
TTS zéro-shot avec un contrôle d'émotion à grain fin et une haute expressivité.
Développeur & #160;: Index Team · Licence & #160;: Bilibili Model License
Essaie.
Spark TTS Norme
Le clonage de la voix TTS avec une émotion contrôlable et un style de parole via des invites.
Développeur & #160;: SparkAudio · Licence & #160;: CC BY-NC-SA 4.0
Essaie.
GPT-SoVITS Norme
Closonnage de voix à faible capture TTS qui reproduit n'importe quelle voix à partir de seulement 5 secondes d'audio.
Développeur & #160;: RVC-Boss · Licence & #160;: MIT
Essaie.
Orpheus Norme
Modèle TTS émotionnel au niveau humain formé sur 100 K heures de données de la parole.
Développeur & #160;: Canopy Labs · Licence & #160;: Llama 3.2 Community
Essaie.
Qwen3 TTS Norme
TTS multilingue d'Alibaba avec voix prédéfinies et conception vocale à partir du texte.
Développeur & #160;: Alibaba (Qwen) · Licence & #160;: Apache 2.0
Essaie.
VieNeu-TTS-v2 Norme
Vietnamien + anglais code-switching TTS avec 7 voix prédéfinies et le clonage voix zéro-shot. CPU-seulement, pas de GPU requis.
Développeur & #160;: Phạm Nguyễn Ngọc Bảo · Licence & #160;: Apache 2.0
Essaie.
Chatterbox Turbo Norme
Plus rapide Chatterbox avec sous-200ms latence et des étiquettes paralinguistiques pour rires, toux, et plus encore.
Développeur & #160;: Resemble AI · Licence & #160;: MIT
Essaie.
VoxCPM Norme
TTS sans tokenizer produisant 44,1kHz audio avec cohérence de paragraphe contextuelle.
Développeur & #160;: OpenBMB · Licence & #160;: Apache 2.0
Essaie.
VibeVoice Norme
Modèle Microsoft pour les contenus multi-parleurs de longue durée comme les podcasts et les livres audio.
Développeur & #160;: Microsoft · Licence & #160;: MIT
Essaie.
CosyVoice3 Norme
TTS multilingue de nouvelle génération avec bi-streaming, contrôle des émotions, et le clonage voix zéro-shot.
Développeur & #160;: Alibaba (FunAudioLLM) · Licence & #160;: Apache 2.0
Essaie.
NAMAA Saudi TTS Norme
Premier TTS saoudien-arabe ouvert. Dialecte saoudien natif avec clonage vocal de qualité Chatterbox.
Développeur & #160;: NAMAA Space · Licence & #160;: MIT
Essaie.
Darwin TTS Norme
Variante modal Qwen3-TTS avec poids FFN mélangés avec le modèle de langage Qwen3-1.7B pour un clonage multilingue plus net.
Développeur & #160;: FINAL-Bench · Licence & #160;: Apache 2.0
Essaie.
MOSS-TTSD Norme
Modèle de continuation du dialogue multi haut-parleurs – générer des conversations de type podcast avec jusqu'à 5 haut-parleurs et 60 minutes d'audio cohérent.
Développeur & #160;: OpenMOSS · Licence & #160;: Apache 2.0
Essaie.
CosyVoice 2
Le TTS en streaming évolutif d'Alibaba avec la naturelité humaine-parité et la latence quasi nulle.
Langues: en, zh, ja, ko, fr, de, it, es
Voix clonée
IndexTTS-2
TTS zéro-shot avec un contrôle d'émotion à grain fin et une haute expressivité.
Langues: en, zh
Voix clonée
Spark TTS
Le clonage de la voix TTS avec une émotion contrôlable et un style de parole via des invites.
Langues: en, zh
Voix clonée
GPT-SoVITS
Closonnage de voix à faible capture TTS qui reproduit n'importe quelle voix à partir de seulement 5 secondes d'audio.
Langues: en, zh, ja, ko
Voix clonée
Chatterbox
Closonnage de voix ultramoderne avec contrôle de l'émotion de la part de Resemblez à l'IA.
Langues: en
Voix clonée
Tortoise TTS
Multi-voix texte-à-parler axé sur la qualité avec l'architecture autorégressive.
Langues: en
Voix clonée
OpenVoice
Le clonage de la voix instantanée avec contrôle granulaire sur le style, l'émotion et l'accent.
Langues: en, zh, ja, ko, fr, es
Voix clonée
VieNeu-TTS-v2
Vietnamien + anglais code-switching TTS avec 7 voix prédéfinies et le clonage voix zéro-shot. CPU-seulement, pas de GPU requis.
Langues: vi, en
Voix clonée
Chatterbox Turbo
Plus rapide Chatterbox avec sous-200ms latence et des étiquettes paralinguistiques pour rires, toux, et plus encore.
Langues: en
Voix clonée
VoxCPM
TTS sans tokenizer produisant 44,1kHz audio avec cohérence de paragraphe contextuelle.
Langues: en, zh
Voix clonée
OuteTTS
TTS basé sur LLM qui fonctionne sur CPU, GPU, ou navigateur via lama.cpp et Transformers.js.
Langues: en
Voix clonée
Pocket TTS
Modèle de paramètre léger 100M par Kyutai avec clonage vocal à partir d'un seul échantillon.
Langues: en, fr
Voix clonée
CosyVoice3
TTS multilingue de nouvelle génération avec bi-streaming, contrôle des émotions, et le clonage voix zéro-shot.
Langues: en, zh, ja, ko, de, es, fr, it, ru
Voix clonée
NAMAA Saudi TTS
Premier TTS saoudien-arabe ouvert. Dialecte saoudien natif avec clonage vocal de qualité Chatterbox.
Langues: ar
Voix clonée
Darwin TTS
Variante modal Qwen3-TTS avec poids FFN mélangés avec le modèle de langage Qwen3-1.7B pour un clonage multilingue plus net.
Langues: en, ko, ja, zh
Voix clonée
MOSS-TTSD
Modèle de continuation du dialogue multi haut-parleurs – générer des conversations de type podcast avec jusqu'à 5 haut-parleurs et 60 minutes d'audio cohérent.
Langues: en, zh
Voix clonée
Ming-Omni TTS
Modèle omnimodal compact 0.5B de la parole de l'inclusionAI avec une sortie haute fidélité 44,1kHz et le clonage vocal zéro-shot.
Langues: en, zh
Voix clonée
MOSS-TTS Nano
Tiny 100M MOSS-TTS variante — même architecture, 80x plus petit, latence de plein air.
Langues: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Voix clonéeDéveloppeur-Première API
API REST compatible OpenAI. Un endpoint, 22+ modèles. Support de streaming pour les applications en temps réel.
- Format compatible OpenAI
- Streaming TTS pour les applications en temps réel
- Traitement par lots pour des emplois importants
- Notifications Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Tarifs simples et transparents
Commencez gratuitement. Échellez à mesure que vous grandissez.
Gratuit
15 000 caractères + 5 000 par jour
- 7 modèles gratuits dont Kokoro
- 5 000 ombles par génération
- Accès API inclus
Démarreur
500 crédits/mois
- Tous les modèles 22+
- 100 000 chars par génération
- Clonage de la voix
Pour
2 000 crédits/mois
- Tout dans Starter
- Accès à l'API
- Traitement prioritaire
Entreprises
10 000 crédits/mois
- Tout en Pro
- API en vrac
- file d'attente prioritaire
Afficher tous les plans, y compris les paquets de caractères →
Foire aux questions
Que pourrions-nous améliorer? Vos commentaires nous aident à résoudre les problèmes.
Commencez à utiliser AI Voice aujourd'hui
Rejoignez les créateurs, les développeurs et les entreprises utilisant TTS.ai