Free AI Text a veu

Paràmetres 82M Ultra- ràpid veus Expressives Multilingüe Implementació de corrent de dades

Un paràmetre lleuger pel 82M donant un discurs a la qualitat de l'estudi amb la inferència ardent.

Ràpid · 1.5GB VRAM Intenta-ho

Piper

amigable de la CPU No es pot fora de línia 100+ veus 30+ llengües Implementació de SSML

Un text neural ràpid, local per al sistema de parla optimitzat per a dispositius Raspbery Pi i encastats.

Ràpid · 0 (CPU only) VRAM Intenta-ho

VITS

Sintetitzador final a final prosodi natural Inferència ràpida Múltiples parlants

Modificador de variació condicional amb aprenentatge de adversaris per al text final a veu.

Ràpid · 1GB VRAM Intenta-ho

MeloTTS

CPU-optimitzat Multilingüe Múltiples accents Complement de produccióComment Baix retardenc

Un text multilingüe d'alta qualitat que dirigeix a la CPU amb un retard mínim.

Ràpid · 0.5GB (GPU optional) VRAM Intenta-ho

Bark

Efectes de so Manifestant/sghing Generació de música 100+ portaveus Multilingüe

Model de text auudio basat en transformador que genera un discurs realista, música i efectes sonors.

Lenta · 5GB VRAM Intenta-ho

Bark Small

Lleuger Més ràpid que la barra completa Pronunciació Emocional Multilingüe

Versió més lleugera de Bark amb un ús més ràpid de la inferència i menor de memòria.

Mitjà · 2GB VRAM Intenta-ho

CosyVoice 2

Corrent de dades Reescriptura de Zero- e Cross-lingüe Control d'emoció Memòria humana

TTS escalables d'Alibaba amb naturalitat humana i retard de zero.

Dia TTS

Multiparlador Generació de diàlegs Reductor de torn natural Expressió Emocional Paràmetres 1. 6B

Model de generació de diàlegs multiparlants que creen converses naturals entre els altaveus.

Parler TTS

Descripció de la veu Control d' idioma natural Creació flexible de veu No es necessiten veus preestablertes

Descriu la veu que voleu en llenguatge natural i en Parler genera un discurs coincident.

Indic Parler TTS

11 llengües índies Descripció de la veu Control d' idioma natural Pronúnte d' autorització@ item Spelling dictionary

La parla d'alta qualitat de 8+ llengües índies amb el control de veu natural en anglès.

Lenta · 8GB VRAM Intenta-ho

KhanomTan TTS

TTS Tailand. kgm Múltiples parlants La vostra arquitectura TTS Llicència de seguretat de l'skuny

Un primer text tailandès amb veu d'altaveu.

Ràpid · 2GB VRAM Intenta-ho

IndexTTS-2

Control d'emoció Zero- error Vectors emotions Pronunciador Expressiu Control fi-graginat

TTS d'alt control d'emoció i expressitives altes.

Spark TTS

clonació de veu Control d'emoció Control d' estil Pregunta- basat en Una clonació de 5 segons

TTS de veu clonant amb emocions controlables i parlant estil via fuques.

GPT-SoVITS

Una clonació de 5 segons Singing veu Uns pocs exercicis d' aprenentatge Alta fidelitat Cross-lingüe

TTS de veu simple clonant que replica qualsevol veu des de només 5 segons d'àudio.

Lenta · 6GB VRAM Intenta-ho

Orpheus

emocions de nivell humà 100K hores d' entrenament En èmfasi natural Pronunciador Expressiu

Model TTS emocionals de nivell humà entrenats en 100 K hores de dades de parla.

Chatterbox

Reescriptura de Zero- e Control d'emoció Alta fidelitat Transferència d' estil clonació d' una mostra única

Una clonació de la veu de l'estat d'un punt de mira amb el control d'emoció de la IA.

Tortoise TTS

Alta qualitat Multi-iceCity name (optional, probably does not need a translation) arquitectura DAL- E clonació de veu Regresament automàtic

Conjunt de text a veu multi-vocatiu en qualitat amb arquitectura autogresiu.

Lenta · 8GB VRAM Intenta-ho

StyleTTS 2

Nivell humà Difusió d' estil Exercici adversari variació natural Alta fidelitat

Text a veu humana a través de la difusió d' estil i entrenament adversari.

OpenVoice

clonació instantània Conversió de veu Control d'emoció Control elevat Multilingüe

Una clonació de veu instantània amb un control molt gran sobre l' estil, les emocions i l'accent.

Qwen3 TTS

clonació de veu 9 veus preestablertes Disseny de veu des del text Control d'emoció

TTS multilingüe de l'Alibaba amb una clonació de veu, veus preestablertes i disseny de veu des del text.

Mitjà · 7GB VRAM Intenta-ho

VieNeu-TTS-v2

7 veus preestablertes (North + accents sud) En- Vi- constant el codi clonació de veu (3- 5 referència) Implementació de podcast / multi- altaveus només la GPU sense necessitat de CPU

vietnamita + English TTS amb 7 veus preestablertes i clonades de veu zero.

Ràpid · CPU VRAM Intenta-ho

Sesame CSM

Conversal Temps natural Reductor de torn Recanal enrere Paràmetres 1B

Model de discurs conversaal que genera un diàleg natural amb temps i emocions apropiades.

Lenta · 8GB VRAM Intenta-ho

Chatterbox Turbo

Sub- 200ms retardencs Etiquetes Paralingüística 6x en temps real clonació de veu Marca d' aigua

Caixa de xat ràpid amb etiquetes de retard i de paralingüística per riure, tos i més.

Ràpid · 2GB VRAM Intenta-ho

VoxCPM

àudio 44. 1kHz Tokenzer- free Substituïble Cross-lingüe Gestió de contextName LRA fi- tundingCity name (optional, probably does not need a translation)

L'àudio Tokenzerzer-freeTS produeix 44.1kHz amb una consistència de paràgraf compatible amb el context.

Ràpid · 4GB VRAM Intenta-ho

Kani TTS 2

3GB V RAM Ultra- ràpid clonació de veu Lleuger NanoCodecCity name (optional, probably does not need a translation)

Model d'Oblisió Ultra 400M que funciona en només 3GB VRAM amb suport clonat de veu.

Ràpid · 3GB VRAM Intenta-ho

OuteTTS

CPU inferència Navegador d' inferència Dorsals múltiples Perfils de l' altaveu

TTS basat en LLM que s' executa a la CPU, GPU, o navegador a través de llama.cpp i transformadors.js.

Lenta · 2GB VRAM Intenta-ho

VibeVoice

Multiparlador Fins a 90 min Generació de podcasts S' està rel· lant la consistència del ponent Executació de 200mms

Model Microsoft per al contingut multiparlador de llarga forma com podcasts i llibres d'àudio.

Ràpid · 4GB VRAM Intenta-ho

Pocket TTS

Paràmetres 100M CPU inferència clonació de veu clonació simple- sample Ja està a l' aresta

Model de paràmetre lleuger 100M per Kyutai amb clonació de veu d'una única mostra.

Ràpid · 1GB VRAM Intenta-ho

Kitten TTS

només de definició de la CPU Sota la mida del model 80MB 8 veus incorporades Control de velocitat Basada en ONX Sortida de 24kHz

TTS d' Ultra-pès sota el 80MB. Executa a la CPU sense la GPU.

Ràpid · 0GB VRAM Intenta-ho

CosyVoice3

Bi-strein Control d'emoció clonació de veu Control de velocitat/ volum Instrucció d' instrucció següent

TTS de la següent generació multilingüe amb bi-stre, control d'emoció, i clonant la veu zero-s.

Ràpid · 4GB VRAM Intenta-ho

NAMAA Saudi TTS

dialecte de l' àrab saudita Àrab estàndard modernName Reducció de veu zero- out- output Control d'emoció pronunciació nativa

Primer obre el TTS saudita-Anbibà. STOVER amb un clon de veu d' qualitat de Chatterbox.

Mitjà · 6GB VRAM Intenta-ho

Darwin TTS

clonació de veu Cross-lingüe FFN- ed 4 idiomes principals Qwen3 Columna vertebral

variant Qwen3- TTS amb pesos FFN mesclats des del model de llenguatge Qwen3-1. 7B per a clonar-se amb multilingüe.

Mitjà · 7GB VRAM Intenta-ho

MOSS-TTSD

Un diàleg multiparlador Fins a 5 parlants àudio 60min coherent clonació de veu Podcast-optimitzat

El model de continuació de la continuació de podcasts multiparlants genera converses a l'estil de podcast amb 5 parlants i 60 minuts d'àudio coherent.

Mitjà · 12GB VRAM Intenta-ho

Ming-Omni TTS

Sortida 44. 1kHz clonació de veu Control d'emoció Control de marcatge Generació BGM Compacta 0. 5B

Compacta el model de discurs omni-modal de la inclusió AI amb una sortida de 44. 1kHz i un clon de veu zero-shot.

Mitjà · 3GB VRAM Intenta-ho

MOSS-TTS Nano