ความสามารถทางอารมณ์ ข้อความเป็นเสียงName

พารามิเตอร์ 82M เร็วมาก เสียงที่แสดงออก หลายภาษา รองรับการสตรีม

โมเดลพารามิเตอร์เบา 82M นำเสนอการพูดคุณภาพสตูดิโอ ด้วยการสรุปอย่างรวดเร็ว

เร็ว · 1.5GB VRAM ลองดูสิ

Piper

เหมาะกับ CPU รองรับการใช้งานออฟไลน์ เสียงมากกว่า 100 เสียง ภาษา รองรับ SSML

ระบบการสื่อสารทางประสาทที่เร็วที่สุด ปรับปรุงสำหรับ Raspberry Pi และอุปกรณ์ที่ติดตั้งไว้

เร็ว · 0 (CPU only) VRAM ลองดูสิ

VITS

สังเคราะห์แบบท้ายสุด เสียงที่ใช้ได้ตามธรรมชาติKCharselect unicode block name คำนวณเร็ว หลายตัว

เครื่องเข้ารหัสอัตโนมัติแบบเปลี่ยนแปลงเงื่อนไข ด้วยการเรียนรู้แบบต่อสู้เพื่อการแปลงข้อความเป็นเสียง

เร็ว · 1GB VRAM ลองดูสิ

MeloTTS

ปรับแต่งให้เหมาะสมกับ CPU หลายภาษา เครื่องหมายเน้นหลายตัวKCharselect unicode block name เตรียมพร้อมสำหรับการผลิต ความล่าช้าต่ำ

ข้อความ-เป็น-เสียงหลายภาษาคุณภาพสูงที่ทำงานบน CPU ด้วยความล่าช้าที่น้อยที่สุด

เร็ว · 0.5GB (GPU optional) VRAM ลองดูสิ

Bark

ลูกเล่นเสียง หัวเราะ/ถอนหายใจ สร้างเพลง 100+ ตัวเลข หลายภาษา

แบบจำลองข้อความ-เป็น-เสียงที่ใช้เทรนเนอร์ ที่จะสร้างเสียงพูด เสียงดนตรี และเสียงเอฟเฟกต์ที่แท้จริง

ช้า · 5GB VRAM ลองดูสิ

Bark Small

น้ำหนักเบา เร็วกว่าที่เต็มๆ พูดแบบอารมณ์ หลายภาษา

เวอร์ชั่นเบาของ Bark ที่มีการสรุปเร็วขึ้นและใช้หน่วยความจำน้อยลง

ขนาดกลาง · 2GB VRAM ลองดูสิ

CosyVoice 2

กระแสสัญญาณ โคลนแบบ Zero-shot ภาษาต่างๆ ควบคุมอารมณ์ ความเท่าเทียมของมนุษย์

ระบบสตรีมเสียงอัลลิบาบา ที่มีคุณภาพเหมือนมนุษย์ และความล่าช้าเกือบศูนย์

Dia TTS

หลายตัว สร้างกล่องโต้ตอบ ตามธรรมชาติ แสดงออกทางอารมณ์ พารามิเตอร์ 1. 6B

โมเดลการสร้างการสนทนาแบบหลายผู้พูด ที่จะสร้างการสนทนาตามธรรมชาติระหว่างผู้พูด

Parler TTS

คำอธิบายเสียง ควบคุมภาษาธรรมชาติ สร้างเสียงที่ยืดหยุ่น ไม่ต้องใช้เสียงที่ตั้งไว้ล่วงหน้า

อธิบายเสียงที่คุณต้องการในภาษาธรรมชาติและ Parler จะสร้างการพูดที่ตรงกัน

Indic Parler TTS

ภาษาอินเดียName คำอธิบายเสียง ควบคุมภาษาธรรมชาติ การออกเสียงแบบอินเดีย

เสียงที่มีคุณภาพสูงสำหรับภาษาอินเดีย 8+ ด้วยการควบคุมเสียงภาษาธรรมชาติ

ช้า · 8GB VRAM ลองดูสิ

KhanomTan TTS

ภาษาไทย TTS หลายตัว สถาปัตยกรรมของ YourTTS ใบอนุญาตที่ปลอดภัยทางธุรกิจ

ภาษาไทยเป็นภาษาแรกที่ใช้การแปลงข้อความเป็นเสียง ด้วยเสียงที่เลือกได้

เร็ว · 2GB VRAM ลองดูสิ

IndexTTS-2

ควบคุมอารมณ์ ยิงซิโร เวกเตอร์อารมณ์ การพูดแบบแสดงออก การควบคุมที่ละเอียดอ่อน

เสียงที่ไม่ถูกตัดต่อด้วยการควบคุมอารมณ์ที่ละเอียดอ่อน และความสามารถในการแสดงออกที่สูง

Spark TTS

เสียง ควบคุมอารมณ์ ควบคุมสไตล์ ใช้คำสั่งพิมพ์ 5 วินาที

โคลนเสียง TTS ด้วยอารมณ์ควบคุมได้ และสไตล์การพูดผ่านคำสั่ง

GPT-SoVITS

5 วินาที เสียงร้อง เรียนรู้ด้วยการยิงไม่กี่ครั้ง ความแม่นยำสูง ภาษาต่างๆ

เสียงที่ถูกโคลนจาก TTS ที่ทำซ้ำเสียงใดๆ จากแค่5วินาทีของเสียง

ช้า · 6GB VRAM ลองดูสิ

Orpheus

อารมณ์ระดับมนุษย์ 100,000 ชั่วโมงการฝึกอบรม เน้นตามธรรมชาติ พูดแบบแสดงออก

แบบจำลอง TTS อารมณ์ระดับมนุษย์ ฝึกจากข้อมูลการพูด 100,000 ชั่วโมง

Chatterbox

โคลนแบบ Zero-shot ควบคุมอารมณ์ ความแม่นยำสูง เปลี่ยนรูปแบบ สร้างคอลลินส์ตัวอย่างเดียว

เสียงโคลนแบบศูนย์ ด้วยการควบคุมอารมณ์ จาก Resemble AI

Tortoise TTS

คุณภาพสูงสุด เสียงหลายเสียง สถาปัตยกรรม DALL-E เสียง ปรับตัวลดลงอัตโนมัติ

เสียงหลายเสียง ข้อความ-เป็น-คำพูด มุ่งเน้นไปที่คุณภาพ ด้วยสถาปัตยกรรมอัตโนมัติ

ช้า · 8GB VRAM ลองดูสิ

StyleTTS 2

ระดับมนุษย์ ความแตกต่างของรูปแบบ ฝึกต่อสู้ ความแตกต่างตามธรรมชาติ ความแม่นยำสูง

ระดับมนุษย์ ข้อความ-เป็น-คำพูด ผ่านการกระจายสไตล์ และฝึกฝนต่อสู้

OpenVoice

โคลนในทันที เปลี่ยนเสียง ควบคุมอารมณ์ ควบคุมการเน้นเสียง หลายภาษา

เสียงคล้ายๆกันในทันที ด้วยการควบคุมที่ละเอียดอ่อน เกี่ยวกับสไตล์ อารมณ์ และสำเนียง

Qwen3 TTS

เสียงที่ตั้งไว้ล่วงหน้า 9 ออกแบบเสียงจากข้อความ ควบคุมอารมณ์ ภาษา

เสียงหลายภาษาของ Alibaba ด้วยเสียงที่ตั้งไว้ล่วงหน้า และเสียงออกแบบจากข้อความ

ขนาดกลาง · 7GB VRAM ลองดูสิ

VieNeu-TTS-v2

เสียงที่ตั้งไว้ล่วงหน้า7เสียง (สำเนียงเหนือ + ใต้) เปลี่ยนรหัส En-Vi คล้ายเสียง (อ้างอิง 3-5s) รองรับโพดำ/ หลายตัวบอกเสียง CPU เท่านั้น — ไม่จำเป็นต้องใช้ GPU

ภาษาเวียดนาม + ภาษาอังกฤษ เปลี่ยนรหัส TTS ด้วยเสียงที่ตั้งไว้7เสียง และโคลนเสียงแบบ Zero- Shot CPU เท่านั้น ไม่จำเป็นต้องใช้ GPU

เร็ว · CPU VRAM ลองดูสิ

Sesame CSM

ภาษาสนทนา เวลาตามธรรมชาติ เปลี่ยนตำแหน่ง ช่องด้านหลัง พารามิเตอร์ 1B

โมเดลการพูดแบบสนทนา สร้างการสนทนาตามธรรมชาติ ด้วยเวลาที่เหมาะสมและอารมณ์

ช้า · 8GB VRAM ลองดูสิ

Chatterbox Turbo

ความล่าช้าต่ำกว่า 200 มิลวินาที แท็กภาษาต่างๆKCharselect unicode block name 6x แบบเวลาจริง เสียง เครื่องหมายน้ำ

กล่องคุยเร็วขึ้น ด้วยความล่าช้า 200 ไมล์ และแท็กภาษาสำหรับเสียงหัวเราะ ไอ และอื่นๆ

เร็ว · 2GB VRAM ลองดูสิ

VoxCPM

เสียง 44. 1 kHz ไม่มีการสร้างสัญลักษณ์ การคอลลินส์ภาษาต่างๆ รู้จักบริบท การปรับแต่ง LoRA อย่างละเอียด

TTS ไร้สัญลักษณ์ ผลิตเสียง 44.1kHz ด้วยความสม่ำเสมอของย่อหน้า

เร็ว · 4GB VRAM ลองดูสิ

Kani TTS 2

หน่วยความจำภาพถ่าย 3GB เร็วมาก น้ำหนักเบา โค้ดแปลงนาโน ว่าง

ตัวอย่างภาษาอังกฤษ 400M แบบเบาๆ ทำงานในแค่ 3GB VRAM

เร็ว · 3GB VRAM ลองดูสิ

OuteTTS

การสรุปของ CPU คำนวณจากเบราว์เซอร์ แบ็คเอนด์หลายตัว โพรไฟล์ของตัวบอกเสียง

ระบบ TTS บนพื้นฐาน LLM ที่ทำงานบน CPU, GPU หรือเบราว์เซอร์ผ่าน llama.cpp และ Transformers.js

ช้า · 2GB VRAM ลองดูสิ

VibeVoice

หลายตัว สูงสุด 90 นาที สร้างพอดแคสต์ เสียงที่สม่ำเสมอ 200 มิลลิวินาที

โมเดลของไมโครซอฟท์สำหรับเนื้อหารูปแบบยาวที่มีผู้พูดหลายคน เช่น โพดำและหนังสือเสียง

เร็ว · 4GB VRAM ลองดูสิ

Pocket TTS

พารามิเตอร์ 100M การสรุปของ CPU เสียง สร้างคอลลิน เตรียมพร้อมสำหรับขอบ

โมเดลพารามิเตอร์ 100M เบาๆ โดย คิวไท ด้วยการโคลนเสียงจากตัวอย่างเดียว

เร็ว · 1GB VRAM ลองดูสิ

Kitten TTS

คำนวณเฉพาะ CPU ขนาดของโมเดลต่ำกว่า 80MB เสียงภายใน 8 เสียง ควบคุมความเร็ว ใช้พื้นฐานของ ONNX ข้อมูลออกมา 24 kHz

ตัวแปลภาษาเป็นภาษาอังกฤษที่ใช้พื้นที่น้อยมาก ใช้ได้กับ CPU ขนาดไม่เกิน 80MB โดยไม่ต้องใช้ GPU

เร็ว · 0GB VRAM ลองดูสิ

CosyVoice3

สายข้อมูลสองทาง ควบคุมอารมณ์ เสียง ควบคุมความเร็ว/ระดับเสียง คำสั่งตาม

เสียงตอบสนองหลายภาษารุ่นต่อไป ด้วยการสตรีมเสียงสองภาษา ควบคุมอารมณ์ และโคลนเสียงแบบไม่มีการยิง

เร็ว · 4GB VRAM ลองดูสิ

NAMAA Saudi TTS

ภาษาอาหรับแบบซาอุดิName ภาษาอาหรับมาตรฐานสมัยใหม่KCharselect unicode block name เสียงคล้ายกัน ควบคุมอารมณ์ การออกเสียงแบบพื้นบ้าน

ภาษาอาหรับซาอุดิที่เปิดตัวเป็นครั้งแรก ภาษาถิ่นซาอุดิ ด้วยการโคลนเสียงที่มีคุณภาพเหมือนกับ Chatterbox

ขนาดกลาง · 6GB VRAM ลองดูสิ

Darwin TTS

เสียง ภาษาต่างๆ ผสม FFN ภาษาหลัก4ภาษา เบ็คโบน Qwen3

ตัวแปร cross-modal Qwen3-TTS ที่มีน้ำหนัก FFN ผสมจากโมเดลภาษา Qwen3-1.7B สำหรับโคลนหลายภาษาที่ชัดเจนกว่า

ขนาดกลาง · 7GB VRAM ลองดูสิ

MOSS-TTSD

กล่องโต้ตอบหลายตัว สูงสุด5ลำโพง เสียงที่สมบูรณ์แบบ 60 นาที เสียง การปรับแต่งพอดแคสต์

โมเดลการต่อเนื่องการสนทนาหลายคน - สร้างการสนทนาแบบพอดคาสต์ที่มีผู้พูดถึงสูงสุด5คนและ 60 นาทีของเสียงที่สมบูรณ์แบบ

ขนาดกลาง · 12GB VRAM ลองดูสิ

Ming-Omni TTS

ข้อมูลออกมา 44. 1 kHz เสียง ควบคุมอารมณ์ ควบคุมสำเนียงKCharselect unicode block name สร้าง BGM คอมแพค 0. 5B

โมเดลเสียงแบบ 0.5B Omni-Modal จาก InclusionAI ด้วยความแม่นยำสูง 44.1kHz และโคลนเสียงแบบ Zero-Shot

ขนาดกลาง · 3GB VRAM ลองดูสิ

MOSS-TTS Nano