AI gratuit Texte au discours

31+ modèles open-source, 231+ des voix, 34+ Aucun compte n'est requis.

8K+
créateurs
30K+
générations
31+
Modèles d'IA
231+
voix
0/500 caractères · Sign up for 5,000 per generation → Gratuit
Vous aimez TTS.ai ? Parlez-en à vos amis !

Tout ce dont vous avez besoin pour la voix AI

30+ outils alimentés par des modèles d'IA open-source

31+ Modèles de voix d'IA

La collection la plus complète de modèles TTS open-source en une seule plateforme

KokoroKokoro Gratuit

Kokoro est un modèle text-to-speech de 82 millions de paramètres qui frappe bien au-dessus de sa classe de poids. Malgré sa petite taille, il produit un langage remarquablement naturel et expressif. Kokoro prend en charge plusieurs langues dont l'anglais, le japonais, le chinois et le coréen avec une variété de voix expressives.

Meilleur pour: TTS de haute qualité avec latence minimale, applications de streaming

Essayer gratuitement

PiperPiper Gratuit

Piper est un moteur text-to-speech léger développé par Rhasspy qui utilise les architectures VITS et larynx. Il fonctionne entièrement sur CPU, ce qui le rend idéal pour les périphériques de bord, la domotique et les applications nécessitant TTS hors ligne. Avec plus de 100 voix dans plus de 30 langues, Piper offre un langage sonore naturel à des vitesses en temps réel même sur un Raspberry Pi 4.

Meilleur pour: Aperçus rapides, accessibilité et applications intégrées

Essayer gratuitement

VITSVITS Gratuit

VITS (Variational Inférence with adversarial learning for de bout en bout Text-to-Speech) est une méthode TTS parallèle de bout en bout qui génère plus de sonorisation naturelle que les modèles en deux étapes actuels. Il adopte l'inférence variationnelle augmentée avec des flux de normalisation et un processus de formation contradictoire, permettant une amélioration significative de la naturalité.

Meilleur pour: Texte à usage général avec prosodie naturelle

Essayer gratuitement

MeloTTSMeloTTS Gratuit

MeloTTS by MyShell.ai est une bibliothèque multilingue TTS qui soutient l'anglais (américain, britannique, indien, australien), l'espagnol, le français, le chinois, le japonais et le coréen. Il est extrêmement rapide, le traitement du texte à une vitesse presque en temps réel sur CPU seul. MeloTTS est conçu pour l'utilisation de la production et supporte à la fois l'inférence CPU et GPU.

Meilleur pour: Applications de production nécessitant des TTS rapides et multilingues

Essayer gratuitement

OuteTTSOuteTTS Gratuit

OuteTTS étend les grands modèles de langage avec des capacités de texte à parole tout en préservant l'architecture originale. Il prend en charge plusieurs backends tels que lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, et même inférence de navigateur via Transformers.js.

Meilleur pour: Déploiement d'Edge, TTS basé sur navigateur, environnements à faibles ressources

Essayer gratuitement

Pocket TTSPocket TTS Gratuit

Pocket TTS by Kyutai (créateurs de Moshi) est un modèle compact de 100M de texte à discours qui frappe bien au-dessus de son poids. Il fonctionne efficacement sur CPU, prend en charge le clonage vocal zéro-shot à partir d'un seul échantillon audio, et produit une parole sonore naturelle. La petite taille du modèle le rend idéal pour le déploiement des bords et les environnements à faible ressources.

Meilleur pour: Déploiement léger, environnements CPU seulement, clonage vocal rapide

Essayer gratuitement

Kitten TTSKitten TTS Gratuit

Kitten TTS by KittenML est un modèle text-to-speech ultra-léger construit sur ONNX. Avec des variantes de 15M à 80M paramètres (25-80 MB sur disque), il offre une synthèse vocale de haute qualité sur CPU sans avoir besoin d'un GPU. Caractéristiques 8 voix intégrées, vitesse de parole réglable, et prétraitement de texte intégré pour les nombres, les devises et les unités. Idéal pour le déploiement des bords et les applications à faible latence.

Meilleur pour: TTS léger rapide, déploiement des bords, applications à faible latence

Essayer gratuitement

BarkBark Norme

Modèle transformateur texte-audio qui génère des effets réalistes de la parole, de la musique et du son.

Développeur & #160;: Suno · Licence & #160;: MIT

Essaie.

Bark SmallBark Small Norme

Version plus légère de Bark avec inférence plus rapide et utilisation de la mémoire inférieure.

Développeur & #160;: Suno · Licence & #160;: MIT

Essaie.

CosyVoice 2CosyVoice 2 Norme

Le TTS en streaming évolutif d'Alibaba avec la naturelité humaine-parité et la latence quasi nulle.

Développeur & #160;: Alibaba (Tongyi Lab) · Licence & #160;: Apache 2.0

Essaie.

Dia TTSDia TTS Norme

Modèle de génération de dialogue multi haut-parleurs qui crée des conversations naturelles entre les haut-parleurs.

Développeur & #160;: Nari Labs · Licence & #160;: Apache 2.0

Essaie.

Parler TTSParler TTS Norme

Décrivez la voix que vous voulez dans le langage naturel et Parler génère la parole correspondante.

Développeur & #160;: Hugging Face · Licence & #160;: Apache 2.0

Essaie.

GLM-TTSGLM-TTS Norme

Atteint le taux d'erreur de caractère le plus bas parmi les modèles TTS open-source.

Développeur & #160;: Zhipu AI · Licence & #160;: GLM-4 License

Essaie.

IndexTTS-2IndexTTS-2 Norme

TTS zéro-shot avec un contrôle d'émotion à grain fin et une haute expressivité.

Développeur & #160;: Index Team · Licence & #160;: Bilibili Model License

Essaie.

Spark TTSSpark TTS Norme

Le clonage de la voix TTS avec une émotion contrôlable et un style de parole via des invites.

Développeur & #160;: SparkAudio · Licence & #160;: CC BY-NC-SA 4.0

Essaie.

GPT-SoVITSGPT-SoVITS Norme

Closonnage de voix à faible capture TTS qui reproduit n'importe quelle voix à partir de seulement 5 secondes d'audio.

Développeur & #160;: RVC-Boss · Licence & #160;: MIT

Essaie.

OrpheusOrpheus Norme

Modèle TTS émotionnel au niveau humain formé sur 100 K heures de données de la parole.

Développeur & #160;: Canopy Labs · Licence & #160;: Llama 3.2 Community

Essaie.

Qwen3 TTSQwen3 TTS Norme

Le TTS multilingue d'Alibaba avec clonage vocal, voix prédéfinies et design vocal à partir du texte.

Développeur & #160;: Alibaba (Qwen) · Licence & #160;: Apache 2.0

Essaie.

Chatterbox TurboChatterbox Turbo Norme

Plus rapide Chatterbox avec sous-200ms latence et des étiquettes paralinguistiques pour rires, toux, et plus encore.

Développeur & #160;: Resemble AI · Licence & #160;: MIT

Essaie.

Dia 2Dia 2 Norme

Streaming-premier TTS conversationnel avec le dialogue multi-parleurs et des indices paralinguistiques.

Développeur & #160;: Nari Labs · Licence & #160;: Apache 2.0

Essaie.

VoxCPMVoxCPM Norme

TTS sans tokenizer produisant 44,1kHz audio avec cohérence de paragraphe contextuelle.

Développeur & #160;: OpenBMB · Licence & #160;: Apache 2.0

Essaie.

TADATADA Norme

TTS à hallucination zéro avec double alignement text-acoustique, 5x plus rapide que les TTS LLM comparables.

Développeur & #160;: Hume AI · Licence & #160;: MIT

Essaie.

VibeVoiceVibeVoice Norme

Modèle Microsoft pour les contenus multi-parleurs de longue durée comme les podcasts et les livres audio.

Développeur & #160;: Microsoft · Licence & #160;: MIT

Essaie.

CosyVoice3CosyVoice3 Norme

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Développeur & #160;: Alibaba (FunAudioLLM) · Licence & #160;: Apache 2.0

Essaie.

ChatterboxChatterbox Prime

Closonnage de voix ultramoderne avec contrôle de l'émotion de la part de Resemblez à l'IA.

Qualité:

Essaie.

Tortoise TTSTortoise TTS Prime

Multi-voix texte-à-parler axé sur la qualité avec l'architecture autorégressive.

Qualité:

Essaie.

StyleTTS 2StyleTTS 2 Prime

Le texte à la parole au niveau humain grâce à la diffusion de style et à la formation contradictoire.

Qualité:

Essaie.

OpenVoiceOpenVoice Prime

Le clonage de la voix instantanée avec contrôle granulaire sur le style, l'émotion et l'accent.

Qualité:

Essaie.

Sesame CSMSesame CSM Prime

Modèle conversationnel de la parole générant le dialogue naturel avec le timing approprié et l'émotion.

Qualité:

Essaie.

MOSS-TTSMOSS-TTS Prime

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Qualité:

Essaie.

MegaTTS3MegaTTS3 Prime

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Qualité:

Essaie.

CosyVoice 2CosyVoice 2

Le TTS en streaming évolutif d'Alibaba avec la naturelité humaine-parité et la latence quasi nulle.

Langues: en, zh, ja, ko, fr, de, it, es

Voix clonée

GLM-TTSGLM-TTS

Atteint le taux d'erreur de caractère le plus bas parmi les modèles TTS open-source.

Langues: en, zh

Voix clonée

IndexTTS-2IndexTTS-2

TTS zéro-shot avec un contrôle d'émotion à grain fin et une haute expressivité.

Langues: en, zh

Voix clonée

Spark TTSSpark TTS

Le clonage de la voix TTS avec une émotion contrôlable et un style de parole via des invites.

Langues: en, zh

Voix clonée

GPT-SoVITSGPT-SoVITS

Closonnage de voix à faible capture TTS qui reproduit n'importe quelle voix à partir de seulement 5 secondes d'audio.

Langues: en, zh, ja, ko

Voix clonée

ChatterboxChatterbox

Closonnage de voix ultramoderne avec contrôle de l'émotion de la part de Resemblez à l'IA.

Langues: en

Voix clonée

Tortoise TTSTortoise TTS

Multi-voix texte-à-parler axé sur la qualité avec l'architecture autorégressive.

Langues: en

Voix clonée

OpenVoiceOpenVoice

Le clonage de la voix instantanée avec contrôle granulaire sur le style, l'émotion et l'accent.

Langues: en, zh, ja, ko, fr, de, es, it

Voix clonée

Qwen3 TTSQwen3 TTS

Le TTS multilingue d'Alibaba avec clonage vocal, voix prédéfinies et design vocal à partir du texte.

Langues: en, zh, ja, ko, de, fr, ru, pt, es, it

Voix clonée

Chatterbox TurboChatterbox Turbo

Plus rapide Chatterbox avec sous-200ms latence et des étiquettes paralinguistiques pour rires, toux, et plus encore.

Langues: en

Voix clonée

VoxCPMVoxCPM

TTS sans tokenizer produisant 44,1kHz audio avec cohérence de paragraphe contextuelle.

Langues: en, zh

Voix clonée

OuteTTSOuteTTS

TTS basé sur LLM qui fonctionne sur CPU, GPU, ou navigateur via lama.cpp et Transformers.js.

Langues: en

Voix clonée

Pocket TTSPocket TTS

Modèle de paramètre léger 100M par Kyutai avec clonage vocal à partir d'un seul échantillon.

Langues: en, fr

Voix clonée

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Langues: en, zh, ja, ko, de, es, fr, it, ru

Voix clonée

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Langues: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Voix clonée

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Langues: en, zh

Voix clonée

Développeur-Première API

API REST compatible OpenAI. Un endpoint, 22+ modèles. Support de streaming pour les applications en temps réel.

  • Format compatible OpenAI
  • Streaming TTS pour les applications en temps réel
  • Traitement par lots pour des emplois importants
  • Notifications Webhook
Afficher les docs de l'API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Tarifs simples et transparents

Commencez gratuitement. Échellez à mesure que vous grandissez.

Gratuit

$0

15 crédits

  • Kokoro, Piper, VITS, MeloTTS
  • Limite de 500 caractères
  • 3 g/heure (pas de compte)
Inscription gratuite

Démarreur

$9/L'objectif est d'améliorer la qualité de l'eau et la qualité de l'eau.

500 crédits/mois

  • Tous les modèles 22+
  • 100 000 chars par génération
  • Clonage de la voix
Commencer
Les plus populaires

Pour

$29/L'objectif est d'améliorer la qualité de l'eau et la qualité de l'eau.

2 000 crédits/mois

  • Tout dans Starter
  • Accès à l'API
  • Traitement prioritaire
Obtenez Pro

Entreprises

$99/L'objectif est d'améliorer la qualité de l'eau et la qualité de l'eau.

10 000 crédits/mois

  • Tout en Pro
  • API en vrac
  • file d'attente prioritaire
Obtenir des affaires

Afficher tous les plans, y compris les paquets de caractères →

Foire aux questions

TTS.ai est la plate-forme vocale AI la plus complète, offrant 22+ modèles texte à parole, clonage vocal, parole à texte et outils audio. Tous les modèles sont open source sans verrouillage de fournisseur.

Oui! TTS.ai offre un sms-to-speech gratuit avec les modèles Kokoro, Piper, VITS et MeloTTS. Aucun compte requis. Inscrivez-vous pour obtenir 15 000 caractères gratuits et accéder à tous les modèles.

Pour la vitesse, utilisez Kokoro ou Piper. Pour la qualité, essayez CosyVoice 2 ou StyleTTS 2. Pour le clonage vocal, utilisez Chatterbox ou GPT-SOVITS. Pour la boîte de dialogue, utilisez Dia TTS. Essayez plusieurs modèles sur le même texte à comparer.

Oui. API REST compatible OpenAI pour TTS, STT, clonage vocal et outils audio. Disponible sur les plans Pro (29/mo) et Enterprise (99$/mo). Voir la documentation à tts.ai/api/.

La qualité de la voix varie selon le modèle. Les modèles Premium comme CosyVoice 2, StyleTTS 2, et Chatterbox produisent un langage de qualité presque humaine avec une intonation et une émotion naturelles.

TTS.ai prend en charge 30+ langues dans sa bibliothèque modèle. L'anglais a le support modèle le plus large, mais les modèles comme CosyVoice 2 couvrent le chinois, le japonais et le coréen; GPT-SoVITS gère le chinois, le japonais, le coréen et l'anglais; et MeloTTS prend en charge l'anglais, l'espagnol, le français, le chinois, le japonais et le coréen.

Oui. Tout le traitement se fait sur nos serveurs GPU dédiés. Nous ne stockons pas votre entrée de texte ou généré audio après la livraison. Les échantillons de voix téléchargés pour le clonage ne sont utilisés que pour la session en cours et ne sont pas conservés. Nous ne partageons jamais vos données avec des tiers ou ne les utilisons pas pour former des modèles.

Oui. Tout l'audio généré sur TTS.ai est à vous d'utiliser commercialement, y compris pour les vidéos YouTube, podcasts, audiobooks, applications, publicités et produits. Nos modèles sont open source sous licence permissive (MIT, Apache 2.0). Pas de redevances ou d'attribution requise.

TTS.ai génère de l'audio au format WAV par défaut pour une qualité maximale. Vous pouvez convertir en MP3, FLAC, OGG, ou M4A à l'aide de notre outil de convertisseur audio gratuit. L'API prend en charge la spécification de votre format de sortie préféré directement dans la demande.

Téléchargez un court échantillon audio (aussi peu que 5 secondes) de la voix que vous voulez cloner, puis tapez n'importe quel texte pour générer la parole dans cette voix. Des modèles comme Chatterbox, GPT-SoVITS et CosyVoice 2 supportent le clonage de la voix. La voix clonée capture le ton, l'accent et le style de parole.

Les modèles gratuits (Kokoro, Piper, VITS, MeloTTS) ne nécessitent aucun compte et coûtent zéro caractère. Les modèles standard (2 000 caractères/1K d'entrée) incluent Bark, CosyVoice 2, F5-TTS et Dia. Les modèles Premium (4 000 caractères/1K d'entrée) incluent OpenVoice, Chatterbox, StyleTTS 2 et Tortoise. Les modèles payants offrent généralement une qualité supérieure, plus de voix et des fonctionnalités supplémentaires comme le clonage vocal.

Oui. L'API prend en charge le traitement par lots pour convertir de grands volumes de texte en langage. Soumettre plusieurs demandes et récupérer les résultats asynchronement en utilisant les UUIDs de travail. Les plans d'entreprise (99 $/mois) incluent l'accès en file d'attente prioritaire pour un traitement par lots plus rapide.
4.1/5 (21)

Que pourrions-nous améliorer? Vos commentaires nous aident à résoudre les problèmes.

Commencez à utiliser AI Voice aujourd'hui

Rejoignez les créateurs, les développeurs et les entreprises utilisant TTS.ai