AI gratuit Texte au discours
31+ modèles open-source, 231+ des voix, 34+ Aucun compte n'est requis.
Tout ce dont vous avez besoin pour la voix AI
30+ outils alimentés par des modèles d'IA open-source
31+ Modèles de voix d'IA
La collection la plus complète de modèles TTS open-source en une seule plateforme
Kokoro Gratuit
Kokoro est un modèle text-to-speech de 82 millions de paramètres qui frappe bien au-dessus de sa classe de poids. Malgré sa petite taille, il produit un langage remarquablement naturel et expressif. Kokoro prend en charge plusieurs langues dont l'anglais, le japonais, le chinois et le coréen avec une variété de voix expressives.
Meilleur pour: TTS de haute qualité avec latence minimale, applications de streaming
Essayer gratuitement
Piper Gratuit
Piper est un moteur text-to-speech léger développé par Rhasspy qui utilise les architectures VITS et larynx. Il fonctionne entièrement sur CPU, ce qui le rend idéal pour les périphériques de bord, la domotique et les applications nécessitant TTS hors ligne. Avec plus de 100 voix dans plus de 30 langues, Piper offre un langage sonore naturel à des vitesses en temps réel même sur un Raspberry Pi 4.
Meilleur pour: Aperçus rapides, accessibilité et applications intégrées
Essayer gratuitement
VITS Gratuit
VITS (Variational Inférence with adversarial learning for de bout en bout Text-to-Speech) est une méthode TTS parallèle de bout en bout qui génère plus de sonorisation naturelle que les modèles en deux étapes actuels. Il adopte l'inférence variationnelle augmentée avec des flux de normalisation et un processus de formation contradictoire, permettant une amélioration significative de la naturalité.
Meilleur pour: Texte à usage général avec prosodie naturelle
Essayer gratuitement
MeloTTS Gratuit
MeloTTS by MyShell.ai est une bibliothèque multilingue TTS qui soutient l'anglais (américain, britannique, indien, australien), l'espagnol, le français, le chinois, le japonais et le coréen. Il est extrêmement rapide, le traitement du texte à une vitesse presque en temps réel sur CPU seul. MeloTTS est conçu pour l'utilisation de la production et supporte à la fois l'inférence CPU et GPU.
Meilleur pour: Applications de production nécessitant des TTS rapides et multilingues
Essayer gratuitement
OuteTTS Gratuit
OuteTTS étend les grands modèles de langage avec des capacités de texte à parole tout en préservant l'architecture originale. Il prend en charge plusieurs backends tels que lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, et même inférence de navigateur via Transformers.js.
Meilleur pour: Déploiement d'Edge, TTS basé sur navigateur, environnements à faibles ressources
Essayer gratuitement
Pocket TTS Gratuit
Pocket TTS by Kyutai (créateurs de Moshi) est un modèle compact de 100M de texte à discours qui frappe bien au-dessus de son poids. Il fonctionne efficacement sur CPU, prend en charge le clonage vocal zéro-shot à partir d'un seul échantillon audio, et produit une parole sonore naturelle. La petite taille du modèle le rend idéal pour le déploiement des bords et les environnements à faible ressources.
Meilleur pour: Déploiement léger, environnements CPU seulement, clonage vocal rapide
Essayer gratuitement
Kitten TTS Gratuit
Kitten TTS by KittenML est un modèle text-to-speech ultra-léger construit sur ONNX. Avec des variantes de 15M à 80M paramètres (25-80 MB sur disque), il offre une synthèse vocale de haute qualité sur CPU sans avoir besoin d'un GPU. Caractéristiques 8 voix intégrées, vitesse de parole réglable, et prétraitement de texte intégré pour les nombres, les devises et les unités. Idéal pour le déploiement des bords et les applications à faible latence.
Meilleur pour: TTS léger rapide, déploiement des bords, applications à faible latence
Essayer gratuitement
Bark Norme
Modèle transformateur texte-audio qui génère des effets réalistes de la parole, de la musique et du son.
Développeur & #160;: Suno · Licence & #160;: MIT
Essaie.
Bark Small Norme
Version plus légère de Bark avec inférence plus rapide et utilisation de la mémoire inférieure.
Développeur & #160;: Suno · Licence & #160;: MIT
Essaie.
CosyVoice 2 Norme
Le TTS en streaming évolutif d'Alibaba avec la naturelité humaine-parité et la latence quasi nulle.
Développeur & #160;: Alibaba (Tongyi Lab) · Licence & #160;: Apache 2.0
Essaie.
Dia TTS Norme
Modèle de génération de dialogue multi haut-parleurs qui crée des conversations naturelles entre les haut-parleurs.
Développeur & #160;: Nari Labs · Licence & #160;: Apache 2.0
Essaie.
Parler TTS Norme
Décrivez la voix que vous voulez dans le langage naturel et Parler génère la parole correspondante.
Développeur & #160;: Hugging Face · Licence & #160;: Apache 2.0
Essaie.
GLM-TTS Norme
Atteint le taux d'erreur de caractère le plus bas parmi les modèles TTS open-source.
Développeur & #160;: Zhipu AI · Licence & #160;: GLM-4 License
Essaie.
IndexTTS-2 Norme
TTS zéro-shot avec un contrôle d'émotion à grain fin et une haute expressivité.
Développeur & #160;: Index Team · Licence & #160;: Bilibili Model License
Essaie.
Spark TTS Norme
Le clonage de la voix TTS avec une émotion contrôlable et un style de parole via des invites.
Développeur & #160;: SparkAudio · Licence & #160;: CC BY-NC-SA 4.0
Essaie.
GPT-SoVITS Norme
Closonnage de voix à faible capture TTS qui reproduit n'importe quelle voix à partir de seulement 5 secondes d'audio.
Développeur & #160;: RVC-Boss · Licence & #160;: MIT
Essaie.
Orpheus Norme
Modèle TTS émotionnel au niveau humain formé sur 100 K heures de données de la parole.
Développeur & #160;: Canopy Labs · Licence & #160;: Llama 3.2 Community
Essaie.
Qwen3 TTS Norme
Le TTS multilingue d'Alibaba avec clonage vocal, voix prédéfinies et design vocal à partir du texte.
Développeur & #160;: Alibaba (Qwen) · Licence & #160;: Apache 2.0
Essaie.
Chatterbox Turbo Norme
Plus rapide Chatterbox avec sous-200ms latence et des étiquettes paralinguistiques pour rires, toux, et plus encore.
Développeur & #160;: Resemble AI · Licence & #160;: MIT
Essaie.
Dia 2 Norme
Streaming-premier TTS conversationnel avec le dialogue multi-parleurs et des indices paralinguistiques.
Développeur & #160;: Nari Labs · Licence & #160;: Apache 2.0
Essaie.
VoxCPM Norme
TTS sans tokenizer produisant 44,1kHz audio avec cohérence de paragraphe contextuelle.
Développeur & #160;: OpenBMB · Licence & #160;: Apache 2.0
Essaie.
TADA Norme
TTS à hallucination zéro avec double alignement text-acoustique, 5x plus rapide que les TTS LLM comparables.
Développeur & #160;: Hume AI · Licence & #160;: MIT
Essaie.
VibeVoice Norme
Modèle Microsoft pour les contenus multi-parleurs de longue durée comme les podcasts et les livres audio.
Développeur & #160;: Microsoft · Licence & #160;: MIT
Essaie.
CosyVoice3 Norme
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Développeur & #160;: Alibaba (FunAudioLLM) · Licence & #160;: Apache 2.0
Essaie.
CosyVoice 2
Le TTS en streaming évolutif d'Alibaba avec la naturelité humaine-parité et la latence quasi nulle.
Langues: en, zh, ja, ko, fr, de, it, es
Voix clonée
GLM-TTS
Atteint le taux d'erreur de caractère le plus bas parmi les modèles TTS open-source.
Langues: en, zh
Voix clonée
IndexTTS-2
TTS zéro-shot avec un contrôle d'émotion à grain fin et une haute expressivité.
Langues: en, zh
Voix clonée
Spark TTS
Le clonage de la voix TTS avec une émotion contrôlable et un style de parole via des invites.
Langues: en, zh
Voix clonée
GPT-SoVITS
Closonnage de voix à faible capture TTS qui reproduit n'importe quelle voix à partir de seulement 5 secondes d'audio.
Langues: en, zh, ja, ko
Voix clonée
Chatterbox
Closonnage de voix ultramoderne avec contrôle de l'émotion de la part de Resemblez à l'IA.
Langues: en
Voix clonée
Tortoise TTS
Multi-voix texte-à-parler axé sur la qualité avec l'architecture autorégressive.
Langues: en
Voix clonée
OpenVoice
Le clonage de la voix instantanée avec contrôle granulaire sur le style, l'émotion et l'accent.
Langues: en, zh, ja, ko, fr, de, es, it
Voix clonée
Qwen3 TTS
Le TTS multilingue d'Alibaba avec clonage vocal, voix prédéfinies et design vocal à partir du texte.
Langues: en, zh, ja, ko, de, fr, ru, pt, es, it
Voix clonée
Chatterbox Turbo
Plus rapide Chatterbox avec sous-200ms latence et des étiquettes paralinguistiques pour rires, toux, et plus encore.
Langues: en
Voix clonée
VoxCPM
TTS sans tokenizer produisant 44,1kHz audio avec cohérence de paragraphe contextuelle.
Langues: en, zh
Voix clonée
OuteTTS
TTS basé sur LLM qui fonctionne sur CPU, GPU, ou navigateur via lama.cpp et Transformers.js.
Langues: en
Voix clonée
Pocket TTS
Modèle de paramètre léger 100M par Kyutai avec clonage vocal à partir d'un seul échantillon.
Langues: en, fr
Voix clonée
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Langues: en, zh, ja, ko, de, es, fr, it, ru
Voix clonée
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
Langues: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
Voix clonée
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
Langues: en, zh
Voix clonéeDéveloppeur-Première API
API REST compatible OpenAI. Un endpoint, 22+ modèles. Support de streaming pour les applications en temps réel.
- Format compatible OpenAI
- Streaming TTS pour les applications en temps réel
- Traitement par lots pour des emplois importants
- Notifications Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Tarifs simples et transparents
Commencez gratuitement. Échellez à mesure que vous grandissez.
Gratuit
15 crédits
- Kokoro, Piper, VITS, MeloTTS
- Limite de 500 caractères
- 3 g/heure (pas de compte)
Démarreur
500 crédits/mois
- Tous les modèles 22+
- 100 000 chars par génération
- Clonage de la voix
Pour
2 000 crédits/mois
- Tout dans Starter
- Accès à l'API
- Traitement prioritaire
Entreprises
10 000 crédits/mois
- Tout en Pro
- API en vrac
- file d'attente prioritaire
Afficher tous les plans, y compris les paquets de caractères →
Foire aux questions
Que pourrions-nous améliorer? Vos commentaires nous aident à résoudre les problèmes.
Commencez à utiliser AI Voice aujourd'hui
Rejoignez les créateurs, les développeurs et les entreprises utilisant TTS.ai