ความสามารถทางอารมณ์ ข้อความเป็นเสียงName
31+ แบบจำลองโอเพนซอร์ส 231+ เสียง 34+ ภาษา ไม่ต้องใช้บัญชี
ทุกอย่างที่คุณต้องการสำหรับ AI เสียง
เครื่องมือมากกว่า 30 เครื่องที่ใช้โมเดล AI แบบโอเพนซอร์ส
31+ โมเดลเสียงของ AI
ตัวอย่าง TTS แบบโอเพนซอร์สที่ครอบคลุมที่สุดในแพลตฟอร์มเดียว
Kokoro Free
Kokoro เป็นโมเดลการแปลงข้อความเป็นเสียงที่มีพารามิเตอร์ 82 ล้านตัว ซึ่งสามารถทำได้ดีกว่ารุ่นอื่นๆ มากมาย แม้จะมีขนาดเล็ก แต่ก็สามารถผลิตเสียงที่ดูเป็นธรรมชาติและแสดงออกได้ Kokoro รองรับหลายภาษา เช่น ภาษาอังกฤษ ญี่ปุ่น จีน และเกาหลี โดยมีเสียงแสดงออกหลากหลาย มันทำงานได้เร็วมาก — สร้างเสียงได้เร็วกว่าเวลาจริงบน GPU เกือบ 100 เท่า
เหมาะสำหรับ: เสียง TTS ที่มีคุณภาพสูง ด้วยความล่าช้าน้อยที่สุด, โปรแกรมสตรีม
ลองใช้ฟรี
Piper Free
Piper เป็นเครื่องมือแปลงข้อความเป็นเสียงที่ใช้พลังงานน้อย ถูกพัฒนาโดย Rhasspy โดยใช้สถาปัตยกรรม VITS และ larynx มันทำงานบน CPU ทั้งหมด ทำให้เหมาะสมกับอุปกรณ์ Edge, ระบบอัตโนมัติในบ้าน และแอพพลิเคชันที่ต้องการ TTS แบบออฟไลน์ ด้วยเสียงมากกว่า 100 เสียงใน 30+ ภาษา Piper สามารถแปลงข้อความเป็นเสียงได้ตามธรรมชาติ ด้วยความเร็วที่แท้จริง แม้แต่บน Raspberry Pi 4
เหมาะสำหรับ: แสดงตัวอย่างเร็ว, ความสามารถในการเข้าถึง, และโปรแกรมที่ฝังไว้
ลองใช้ฟรี
VITS Free
VITS (Variation Inference with adversarial learning for end- to- end Text- to- Speech) เป็นวิธีการ TTS แบบคู่ขนานที่สร้างเสียงที่ฟังดูเป็นธรรมชาติมากขึ้น กว่าแบบจำลองสองขั้นตอนปัจจุบัน มันใช้การสรุปแบบแปรผันที่เพิ่มด้วยการปรับให้เป็นปกติและกระบวนการฝึกฝนแบบคู่แข่งกัน เพื่อให้ได้ความเป็นธรรมชาติที่ดีขึ้นอย่างมีนัยสำคัญ
เหมาะสำหรับ: ข้อความ- ไป- เสียงสำหรับใช้ทั่วไปพร้อมกับการแปลภาษาตามธรรมชาติName
ลองใช้ฟรี
MeloTTS Free
MeloTTS โดย MyShell. ai เป็นไลบรารี TTS หลายภาษาที่รองรับภาษาอังกฤษ (อเมริกัน, อังกฤษ, อินเดีย, ออสเตรเลีย), สเปน, ฝรั่งเศส, จีน, ญี่ปุ่น และเกาหลี มันทำงานได้เร็วมาก ประมวลผลข้อความได้เกือบจะเร็วเท่ากับเวลาจริงบน CPU เพียงตัวเดียว MeloTTS ถูกออกแบบมาเพื่อการใช้งานในโรงงาน และรองรับการประมวลผลทั้ง CPU และ GPU
เหมาะสำหรับ: แอพพลิเคชันการผลิตที่ต้องการ TTS หลายภาษาอย่างรวดเร็ว
ลองใช้ฟรี
OuteTTS Free
OuteTTS ขยายโมเดลภาษาขนาดใหญ่ด้วยความสามารถในการแปลงข้อความเป็นเสียงในขณะที่ยังคงรักษาสถาปัตยกรรมดั้งเดิมไว้ มันรองรับแบ็คเอนด์หลายอย่าง รวมถึง llama. cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM และแม้กระทั่งการคาดการณ์ผ่านเบราว์เซอร์ผ่าน Transformers. js ตัวเลือกการคลอนเสียงแบบ zero-shot ผ่านโปรไฟล์ผู้พูดที่บันทึกเป็น JSON
เหมาะสำหรับ: การติดตั้ง Edge, TTS บนเบราว์เซอร์, สภาพแวดล้อมที่ใช้ทรัพยากรน้อย
ลองใช้ฟรี
Pocket TTS Free
Pocket TTS โดย Kyutai (ผู้สร้าง Moshi) เป็นโมเดลข้อความ- เป็น- เสียงขนาดเล็ก 100M ที่มีพาร์เมตอร์ที่หนักกว่าตัวมันเองมาก มันทำงานได้ดีบน CPU สนับสนุนการคลอนเสียงแบบ zero- shot จากตัวอย่างเสียงเดียว และผลิตเสียงพูดที่ฟังดูเป็นธรรมชาติ ขนาดของโมเดลที่เล็กทำให้มันเหมาะสมกับการติดตั้งที่ขอบและสภาพแวดล้อมที่มีทรัพยากรน้อย
เหมาะสำหรับ: ใช้ง่าย ใช้ CPU เพียงอย่างเดียว คลอนเสียงได้เร็ว
ลองใช้ฟรี
Kitten TTS Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
เหมาะสำหรับ: Fast lightweight TTS, edge deployment, low-latency applications
ลองใช้ฟรี
Bark Standard
แบบจำลองข้อความ-เป็น-เสียงที่ใช้เทรนเนอร์ ที่จะสร้างเสียงพูด เสียงดนตรี และเสียงเอฟเฟกต์ที่แท้จริง
ผู้พัฒนา: Suno · ใบอนุญาต: MIT
ลองดูสิ
Bark Small Standard
เวอร์ชั่นเบาของ Bark ที่มีการสรุปเร็วขึ้นและใช้หน่วยความจำน้อยลง
ผู้พัฒนา: Suno · ใบอนุญาต: MIT
ลองดูสิ
CosyVoice 2 Standard
ระบบสตรีมเสียงอัลลิบาบา ที่มีคุณภาพเหมือนมนุษย์ และความล่าช้าเกือบศูนย์
ผู้พัฒนา: Alibaba (Tongyi Lab) · ใบอนุญาต: Apache 2.0
ลองดูสิ
Dia TTS Standard
โมเดลการสร้างการสนทนาแบบหลายผู้พูด ที่จะสร้างการสนทนาตามธรรมชาติระหว่างผู้พูด
ผู้พัฒนา: Nari Labs · ใบอนุญาต: Apache 2.0
ลองดูสิ
Parler TTS Standard
อธิบายเสียงที่คุณต้องการในภาษาธรรมชาติและ Parler จะสร้างการพูดที่ตรงกัน
ผู้พัฒนา: Hugging Face · ใบอนุญาต: Apache 2.0
ลองดูสิ
GLM-TTS Standard
ทำให้อัตราความผิดพลาดของตัวอักษรต่ำที่สุดในหมู่โมเดล TTS แบบโอเพนซอร์ส
ผู้พัฒนา: Zhipu AI · ใบอนุญาต: GLM-4 License
ลองดูสิ
IndexTTS-2 Standard
เสียงที่ไม่ถูกตัดต่อด้วยการควบคุมอารมณ์ที่ละเอียดอ่อน และความสามารถในการแสดงออกที่สูง
ผู้พัฒนา: Index Team · ใบอนุญาต: Bilibili Model License
ลองดูสิ
Spark TTS Standard
โคลนเสียง TTS ด้วยอารมณ์ควบคุมได้ และสไตล์การพูดผ่านคำสั่ง
ผู้พัฒนา: SparkAudio · ใบอนุญาต: CC BY-NC-SA 4.0
ลองดูสิ
GPT-SoVITS Standard
เสียงที่ถูกโคลนจาก TTS ที่ทำซ้ำเสียงใดๆ จากแค่5วินาทีของเสียง
ผู้พัฒนา: RVC-Boss · ใบอนุญาต: MIT
ลองดูสิ
Orpheus Standard
แบบจำลอง TTS อารมณ์ระดับมนุษย์ ฝึกจากข้อมูลการพูด 100,000 ชั่วโมง
ผู้พัฒนา: Canopy Labs · ใบอนุญาต: Llama 3.2 Community
ลองดูสิ
Qwen3 TTS Standard
เสียงหลายภาษาของ Alibaba ด้วยการโคลนเสียง เสียงที่ตั้งไว้ล่วงหน้า และออกแบบเสียงจากข้อความ
ผู้พัฒนา: Alibaba (Qwen) · ใบอนุญาต: Apache 2.0
ลองดูสิ
Chatterbox Turbo Standard
กล่องคุยเร็วขึ้น ด้วยความล่าช้า 200 ไมล์ และแท็กภาษาสำหรับเสียงหัวเราะ ไอ และอื่นๆ
ผู้พัฒนา: Resemble AI · ใบอนุญาต: MIT
ลองดูสิ
Dia 2 Standard
เสียงสื่อสาร TTS แบบสตรีมแรก ด้วยการสนทนาหลายคน และตัวบ่งชี้ทางภาษา
ผู้พัฒนา: Nari Labs · ใบอนุญาต: Apache 2.0
ลองดูสิ
VoxCPM Standard
TTS ไร้สัญลักษณ์ ผลิตเสียง 44.1kHz ด้วยความสม่ำเสมอของย่อหน้า
ผู้พัฒนา: OpenBMB · ใบอนุญาต: Apache 2.0
ลองดูสิ
TADA Standard
เสียงที่ไม่หลอน ด้วยการปรับแต่งเสียงแบบสองทาง เร็วกว่า LLM TTS 5เท่า
ผู้พัฒนา: Hume AI · ใบอนุญาต: MIT
ลองดูสิ
VibeVoice Standard
โมเดลของไมโครซอฟท์สำหรับเนื้อหารูปแบบยาวที่มีผู้พูดหลายคน เช่น โพดำและหนังสือเสียง
ผู้พัฒนา: Microsoft · ใบอนุญาต: MIT
ลองดูสิ
CosyVoice3 Standard
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
ผู้พัฒนา: Alibaba (FunAudioLLM) · ใบอนุญาต: Apache 2.0
ลองดูสิ
CosyVoice 2
ระบบสตรีมเสียงอัลลิบาบา ที่มีคุณภาพเหมือนมนุษย์ และความล่าช้าเกือบศูนย์
ภาษา: en, zh, ja, ko, fr, de, it, es
เสียงคลอน
GLM-TTS
ทำให้อัตราความผิดพลาดของตัวอักษรต่ำที่สุดในหมู่โมเดล TTS แบบโอเพนซอร์ส
ภาษา: en, zh
เสียงคลอน
IndexTTS-2
เสียงที่ไม่ถูกตัดต่อด้วยการควบคุมอารมณ์ที่ละเอียดอ่อน และความสามารถในการแสดงออกที่สูง
ภาษา: en, zh
เสียงคลอน
GPT-SoVITS
เสียงที่ถูกโคลนจาก TTS ที่ทำซ้ำเสียงใดๆ จากแค่5วินาทีของเสียง
ภาษา: en, zh, ja, ko
เสียงคลอน
Tortoise TTS
เสียงหลายเสียง ข้อความ-เป็น-คำพูด มุ่งเน้นไปที่คุณภาพ ด้วยสถาปัตยกรรมอัตโนมัติ
ภาษา: en
เสียงคลอน
OpenVoice
เสียงคล้ายๆกันในทันที ด้วยการควบคุมที่ละเอียดอ่อน เกี่ยวกับสไตล์ อารมณ์ และสำเนียง
ภาษา: en, zh, ja, ko, fr, de, es, it
เสียงคลอน
Qwen3 TTS
เสียงหลายภาษาของ Alibaba ด้วยการโคลนเสียง เสียงที่ตั้งไว้ล่วงหน้า และออกแบบเสียงจากข้อความ
ภาษา: en, zh, ja, ko, de, fr, ru, pt, es, it
เสียงคลอน
Chatterbox Turbo
กล่องคุยเร็วขึ้น ด้วยความล่าช้า 200 ไมล์ และแท็กภาษาสำหรับเสียงหัวเราะ ไอ และอื่นๆ
ภาษา: en
เสียงคลอน
OuteTTS
ระบบ TTS บนพื้นฐาน LLM ที่ทำงานบน CPU, GPU หรือเบราว์เซอร์ผ่าน llama.cpp และ Transformers.js
ภาษา: en
เสียงคลอน
Pocket TTS
โมเดลพารามิเตอร์ 100M เบาๆ โดย คิวไท ด้วยการโคลนเสียงจากตัวอย่างเดียว
ภาษา: en, fr
เสียงคลอน
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
ภาษา: en, zh, ja, ko, de, es, fr, it, ru
เสียงคลอน
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
ภาษา: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
เสียงคลอน
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
ภาษา: en, zh
เสียงคลอนAPI สำหรับผู้พัฒนา
REST API ที่เข้ากันได้กับ OpenAI จุดสิ้นสุดหนึ่ง โมเดลมากกว่า 22 ตัว สนับสนุนการสตรีมสำหรับแอพพลิเคชันในเวลาจริง
- รูปแบบที่รองรับ OpenAI
- การสตรีม TTS สำหรับแอปพลิเคชันเวลาจริง
- ประมวลผลเป็นกลุ่มสำหรับงานขนาดใหญ่
- การแจ้งให้ทราบของ Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
คำถามที่ถามบ่อย
เราจะปรับปรุงอะไรได้บ้าง ความคิดเห็นของคุณช่วยเราแก้ไขปัญหา
เริ่มใช้ AI Voice วันนี้
ร่วมมือกับผู้สร้าง ผู้พัฒนา และธุรกิจที่ใช้ TTS.ai