AI gratuit Texte au discours

Paramètres 82M Ultra-rapide Voix expressives Multilingue Appui à la diffusion de l'information

Modèle de paramètre léger 82M offrant un langage de qualité studio avec inférence rapide.

Rapide · 1.5GB VRAM Essaie.

Piper

CPU-friendly Offline capable Plus de 100 voix 35+ langues Appui au SSML

Un système de texte neural à la parole rapide et local optimisé pour Raspberry Pi et les appareils embarqués.

Rapide · 0 (CPU only) VRAM Essaie.

VITS

Synthèse de bout en bout Prosodie naturelle Inférence rapide Haut-parleurs multiples

Autoencodeur de variation conditionnelle avec apprentissage contradictoire pour le texte de bout en bout à la parole.

Rapide · 1GB VRAM Essaie.

MeloTTS

Optimisé par le CPU Multilingue Accents multiples Prête à la production Faible latence

De haute qualité multilingue texte-à-parler qui fonctionne sur CPU avec latence minimale.

Rapide · 0.5GB (GPU optional) VRAM Essaie.

Bark

Effets sonores Rire/soupir Génération de musique Plus de 100 orateurs Multilingue

Modèle transformateur texte-audio qui génère des effets réalistes de la parole, de la musique et du son.

Lentement · 5GB VRAM Essaie.

Bark Small

Légèreté Plus rapide que l'écorce complète Discours émotionnel Multilingue

Version plus légère de Bark avec inférence plus rapide et utilisation de la mémoire inférieure.

Moyenne · 2GB VRAM Essaie.

CosyVoice 2

Streaming Closonnage zéro-shot Linguistique translingue Contrôle de l'émotion Parité humaine

Le TTS en streaming évolutif d'Alibaba avec la naturelité humaine-parité et la latence quasi nulle.

Dia TTS

Haut-parleurs multiples Génération de dialogues Tournage naturel Expression émotionnelle Paramètres 1.6B

Modèle de génération de dialogue multi haut-parleurs qui crée des conversations naturelles entre les haut-parleurs.

Parler TTS

Description de la voix Contrôle du langage naturel Création vocale flexible Pas de voix prédéfinies nécessaires

Décrivez la voix que vous voulez dans le langage naturel et Parler génère la parole correspondante.

Indic Parler TTS

11 langues indiennes Description de la voix Contrôle du langage naturel Prononciation indicative authentique

Discours de haute qualité pour 8+ langues indiennes avec contrôle de la voix en langage naturel.

Lentement · 8GB VRAM Essaie.

KhanomTan TTS

TTS thaïlandais Haut-parleurs multiples Votre architecture TTS Licence de sécurité commerciale

Thai-premier texte-à-parler avec un choix de voix de haut-parleur.

Rapide · 2GB VRAM Essaie.

IndexTTS-2

Contrôle de l'émotion Cap zéro Vecteurs d'émotion Discours express Contrôle à grains fins

TTS zéro-shot avec un contrôle d'émotion à grain fin et une haute expressivité.

Spark TTS

Closonnage de la voix Contrôle de l'émotion Contrôle de style Sur la base d'un système rapide 5 secondes de clonage

Le clonage de la voix TTS avec une émotion contrôlable et un style de parole via des invites.

GPT-SoVITS

5 secondes de clonage Voix chantante Apprentissage à petite échelle Haute fidélité Linguistique translingue

Closonnage de voix à faible capture TTS qui reproduit n'importe quelle voix à partir de seulement 5 secondes d'audio.

Lentement · 6GB VRAM Essaie.

Orpheus

émotion au niveau de l'homme Formation de 100 K heures L'accent sur la nature Discours express

Modèle TTS émotionnel au niveau humain formé sur 100 K heures de données de la parole.

Chatterbox

Closonnage zéro-shot Contrôle de l'émotion Haute fidélité Transfert de style Un seul échantillon de clonage

Closonnage de voix ultramoderne avec contrôle de l'émotion de la part de Resemblez à l'IA.

Tortoise TTS

Qualité la plus élevée Multi-voix Architecture DALL-E Closonnage de la voix Autorégression

Multi-voix texte-à-parler axé sur la qualité avec l'architecture autorégressive.

Lentement · 8GB VRAM Essaie.

StyleTTS 2

Niveau humain Diffusion de style Formation de l'adversaire Variation naturelle Haute fidélité

Le texte à la parole au niveau humain grâce à la diffusion de style et à la formation contradictoire.

OpenVoice

Closonnage instantané Conversion vocale Contrôle de l'émotion Contrôle rapide Multilingue

Le clonage de la voix instantanée avec contrôle granulaire sur le style, l'émotion et l'accent.

Qwen3 TTS

9 voix prédéfinies Conception vocale à partir du texte Contrôle de l'émotion 10 langues

TTS multilingue d'Alibaba avec voix prédéfinies et conception vocale à partir du texte.

Moyenne · 7GB VRAM Essaie.

VieNeu-TTS-v2

7 voix prédéfinies (accents nord et sud) Interrupteur de code en-Vi Closonnage de la voix (3-5s de référence) Podcast / prise en charge multi haut-parleurs CPU seulement — pas de GPU requis

Vietnamien + anglais code-switching TTS avec 7 voix prédéfinies et le clonage voix zéro-shot. CPU-seulement, pas de GPU requis.

Rapide · CPU VRAM Essaie.

Sesame CSM

Conversationnel Calendrier naturel Tournage Canal arrière Paramètres 1B

Modèle conversationnel de la parole générant le dialogue naturel avec le timing approprié et l'émotion.

Lentement · 8GB VRAM Essaie.

Chatterbox Turbo

Latence inférieure à 200 ms Balises paralinguistiques 6x temps réel Closonnage de la voix Marquage des eaux

Plus rapide Chatterbox avec sous-200ms latence et des étiquettes paralinguistiques pour rires, toux, et plus encore.

Rapide · 2GB VRAM Essaie.

VoxCPM

44,1kHz audio Sans tokenizer Closonnage translingue Connaissance du contexte LORA réglage fin

TTS sans tokenizer produisant 44,1kHz audio avec cohérence de paragraphe contextuelle.

Rapide · 4GB VRAM Essaie.

Kani TTS 2

3 Go VRAM Ultra-rapide Légèreté NanoCodec Gratuit

Ultra-léger modèle TTS anglais 400M fonctionnant en seulement 3 Go VRAM.

Rapide · 3GB VRAM Essaie.

OuteTTS

Inférence du CPU Inférence du navigateur Plusieurs moteurs de recherche Profils des conférenciers

TTS basé sur LLM qui fonctionne sur CPU, GPU, ou navigateur via lama.cpp et Transformers.js.

Lentement · 2GB VRAM Essaie.

VibeVoice

Haut-parleurs multiples Jusqu'à 90 min Génération de podcasts Cohérence des orateurs 200ms en streaming

Modèle Microsoft pour les contenus multi-parleurs de longue durée comme les podcasts et les livres audio.

Rapide · 4GB VRAM Essaie.

Pocket TTS

Paramètres 100M Inférence du CPU Closonnage de la voix Closonnage à un seul échantillon Prête à monter

Modèle de paramètre léger 100M par Kyutai avec clonage vocal à partir d'un seul échantillon.

Rapide · 1GB VRAM Essaie.

Kitten TTS

Inférence du CPU seulement Taille du modèle de moins de 80 Mo 8 voix intégrées Contrôle de vitesse Basé sur l'ONNX Sortie 24kHz

Ultra-léger TTS de moins de 80 Mo. Fonctionne sur CPU sans GPU.

Rapide · 0GB VRAM Essaie.

CosyVoice3

Bi-streaming Contrôle de l'émotion Closonnage de la voix Contrôle de vitesse/volume Instruction suivant

TTS multilingue de nouvelle génération avec bi-streaming, contrôle des émotions, et le clonage voix zéro-shot.

Rapide · 4GB VRAM Essaie.

NAMAA Saudi TTS

Dialecte arabe saoudien Arabe moderne standard Closonnage voix zéro-shot Contrôle de l'émotion Prononciation autochtone

Premier TTS saoudien-arabe ouvert. Dialecte saoudien natif avec clonage vocal de qualité Chatterbox.

Moyenne · 6GB VRAM Essaie.

Darwin TTS

Closonnage de la voix Linguistique translingue FN-bled-fn-bled 4 langues de base Qwen3 colonne vertébrale

Variante modal Qwen3-TTS avec poids FFN mélangés avec le modèle de langage Qwen3-1.7B pour un clonage multilingue plus net.

Moyenne · 7GB VRAM Essaie.

MOSS-TTSD

Dialogue multi-parleurs Jusqu'à 5 orateurs 60min audio cohérent Closonnage de la voix Podcast-optimisé

Modèle de continuation du dialogue multi haut-parleurs – générer des conversations de type podcast avec jusqu'à 5 haut-parleurs et 60 minutes d'audio cohérent.

Moyenne · 12GB VRAM Essaie.

Ming-Omni TTS

44,1kHz sortie Closonnage de la voix Contrôle de l'émotion Contrôle du dialecte Génération de MBS Compact 0,5B

Modèle omnimodal compact 0.5B de la parole de l'inclusionAI avec une sortie haute fidélité 44,1kHz et le clonage vocal zéro-shot.

Moyenne · 3GB VRAM Essaie.

MOSS-TTS Nano