ความสามารถทางอารมณ์ ข้อความเป็นเสียงName
33+ แบบจำลองโอเพนซอร์ส 273+ เสียง 33+ ภาษา ไม่ต้องใช้บัญชี
ทุกอย่างที่คุณต้องการสำหรับ AI เสียง
เครื่องมือมากกว่า 30 เครื่องที่ใช้โมเดล AI แบบโอเพนซอร์ส
33+ โมเดลเสียงของ AI
ตัวอย่าง TTS แบบโอเพนซอร์สที่ครอบคลุมที่สุดในแพลตฟอร์มเดียว
Kokoro ว่าง
Kokoro เป็นโมเดลการแปลงข้อความเป็นเสียงที่มีพารามิเตอร์ 82 ล้านตัว ซึ่งสามารถทำได้ดีกว่ารุ่นอื่นๆ มากมาย แม้จะมีขนาดเล็ก แต่ก็สามารถผลิตเสียงที่ดูเป็นธรรมชาติและแสดงออกได้ Kokoro รองรับหลายภาษา เช่น ภาษาอังกฤษ ญี่ปุ่น จีน และเกาหลี โดยมีเสียงแสดงออกหลากหลาย มันทำงานได้เร็วมาก — สร้างเสียงได้เร็วกว่าเวลาจริงบน GPU เกือบ 100 เท่า
เหมาะสำหรับ: เสียง TTS ที่มีคุณภาพสูง ด้วยความล่าช้าน้อยที่สุด, โปรแกรมสตรีม
ลองใช้ฟรี
Piper ว่าง
Piper เป็นเครื่องมือแปลงข้อความเป็นเสียงที่ใช้พลังงานน้อย ถูกพัฒนาโดย Rhasspy โดยใช้สถาปัตยกรรม VITS และ larynx มันทำงานบน CPU ทั้งหมด ทำให้เหมาะสมกับอุปกรณ์ Edge, ระบบอัตโนมัติในบ้าน และแอพพลิเคชันที่ต้องการ TTS แบบออฟไลน์ ด้วยเสียงมากกว่า 100 เสียงใน 30+ ภาษา Piper สามารถแปลงข้อความเป็นเสียงได้ตามธรรมชาติ ด้วยความเร็วที่แท้จริง แม้แต่บน Raspberry Pi 4
เหมาะสำหรับ: แสดงตัวอย่างเร็ว, ความสามารถในการเข้าถึง, และโปรแกรมที่ฝังไว้
ลองใช้ฟรี
VITS ว่าง
VITS (Variation Inference with adversarial learning for end- to- end Text- to- Speech) เป็นวิธีการ TTS แบบคู่ขนานที่สร้างเสียงที่ฟังดูเป็นธรรมชาติมากขึ้น กว่าแบบจำลองสองขั้นตอนปัจจุบัน มันใช้การสรุปแบบแปรผันที่เพิ่มด้วยการปรับให้เป็นปกติและกระบวนการฝึกฝนแบบคู่แข่งกัน เพื่อให้ได้ความเป็นธรรมชาติที่ดีขึ้นอย่างมีนัยสำคัญ
เหมาะสำหรับ: ข้อความ- ไป- เสียงสำหรับใช้ทั่วไปพร้อมกับการแปลภาษาตามธรรมชาติName
ลองใช้ฟรี
MeloTTS ว่าง
MeloTTS โดย MyShell. ai เป็นไลบรารี TTS หลายภาษาที่รองรับภาษาอังกฤษ (อเมริกัน, อังกฤษ, อินเดีย, ออสเตรเลีย), สเปน, ฝรั่งเศส, จีน, ญี่ปุ่น และเกาหลี มันทำงานได้เร็วมาก ประมวลผลข้อความได้เกือบจะเร็วเท่ากับเวลาจริงบน CPU เพียงตัวเดียว MeloTTS ถูกออกแบบมาเพื่อการใช้งานในโรงงาน และรองรับการประมวลผลทั้ง CPU และ GPU
เหมาะสำหรับ: แอพพลิเคชันการผลิตที่ต้องการ TTS หลายภาษาอย่างรวดเร็ว
ลองใช้ฟรี
Kani TTS 2 ว่าง
Kani- TTS-2 โดย NineNineSix เป็นโมเดลพารามิเตอร์ที่เบามาก ขนาด 400M สร้างขึ้นบนแบ็คบอนของ Liquid AI LFM2 ด้วย NVIDIA NanoCodec มันทำงานได้เพียง 3GB VRAM และผลิตเสียง ~10 วินาทีใน ~2วินาทีบน A100 (RTF 0.2) เวอร์ชั่นสาธารณะปัจจุบันมีจุดตรวจสอบ `kani-tts-2-en` ภาษาอังกฤษเท่านั้น และไม่เปิดเผยฮูกการฝังตัวของผู้พูดที่จำเป็นสำหรับการคลาวด์เสียง — ใช้ Chatterbox / IndexTTS2 / F5-TTS สำหรับคลาวด์ หรือ Kokoro / MeloTTS สำหรับภาษาอื่นๆ
เหมาะสำหรับ: สร้างภาษาอังกฤษเร็วบนฮาร์ดแวร์ VRAM น้อย, แสดงตัวอย่างเร็ว
ลองใช้ฟรี
OuteTTS ว่าง
OuteTTS ขยายโมเดลภาษาขนาดใหญ่ด้วยความสามารถในการแปลงข้อความเป็นเสียงในขณะที่ยังคงรักษาสถาปัตยกรรมดั้งเดิมไว้ มันรองรับแบ็คเอนด์หลายอย่าง รวมถึง llama. cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM และแม้กระทั่งการคาดการณ์ผ่านเบราว์เซอร์ผ่าน Transformers. js ตัวเลือกการคลอนเสียงแบบ zero-shot ผ่านโปรไฟล์ผู้พูดที่บันทึกเป็น JSON
เหมาะสำหรับ: การติดตั้ง Edge, TTS บนเบราว์เซอร์, สภาพแวดล้อมที่ใช้ทรัพยากรน้อย
ลองใช้ฟรี
Pocket TTS ว่าง
Pocket TTS โดย Kyutai (ผู้สร้าง Moshi) เป็นโมเดลข้อความ- เป็น- เสียงขนาดเล็ก 100M ที่มีพาร์เมตอร์ที่หนักกว่าตัวมันเองมาก มันทำงานได้ดีบน CPU สนับสนุนการคลอนเสียงแบบ zero- shot จากตัวอย่างเสียงเดียว และผลิตเสียงพูดที่ฟังดูเป็นธรรมชาติ ขนาดของโมเดลที่เล็กทำให้มันเหมาะสมกับการติดตั้งที่ขอบและสภาพแวดล้อมที่มีทรัพยากรน้อย
เหมาะสำหรับ: ใช้ง่าย ใช้ CPU เพียงอย่างเดียว คลอนเสียงได้เร็ว
ลองใช้ฟรี
Kitten TTS ว่าง
Kitten TTS โดย KittenML เป็นโมเดลการแปลงข้อความเป็นเสียงที่ใช้พลังงานน้อยมาก สร้างขึ้นบน ONNX ด้วยพารามิเตอร์ที่แตกต่างกันจาก 15M ถึง 80M (25- 80 MB บนดิสก์) มันจะส่งผลให้มีการสังเคราะห์เสียงที่มีคุณภาพสูงบน CPU โดยไม่ต้องใช้ GPU มีเสียงภายใน 8 เสียง ความเร็วในการพูดที่ปรับได้ และมีการประมวลผลข้อความก่อนหน้าสำหรับตัวเลข เงินตรา และหน่วย เหมาะสำหรับใช้กับการจัดวางบนขอบและแอพพลิเคชันที่ใช้เวลาในการประมวลผลน้อย
เหมาะสำหรับ: ตัวแปลภาษาเป็นภาษาเขียนที่เร็วและเบา, สามารถใช้ได้ในระดับ Edge, ใช้ได้ในระดับ Low- Latency
ลองใช้ฟรี
Ming-Omni TTS ว่าง
Ming- omni- tts- 0. 5B โดย inclusionAI เป็นโมเดลเสียง omni- mode ที่ถูกสร้างขึ้นบนพื้นฐานของ BailingMM ที่มีการเข้ารหัสเสียงแบบ Patch- by- Patch รองรับการออกเสียง 44. 1kHz (ใกล้เคียงกับคุณภาพของซีดี) รองรับการคอลลินเสียงแบบ zero- shot จากเวลาอ้างอิง 3+ วินาที และมีตัวควบคุมอารมณ์ / ภาษาถิ่น / BGM ภายในตัว ผ่านคำสั่ง JSON มีความเสถียรภาพที่ดี — 0. 83% WER บนเครื่องวัดความแม่นยำของจีน
เหมาะสำหรับ: เสียงสองภาษาที่ซื่อสัตย์ เสียงที่ควบคุมอารมณ์ เนื้อหาหนังสือเสียงจีน
ลองใช้ฟรี
MOSS-TTS Nano ว่าง
MOSS-TTS-Nano-100M เป็น OpenMOSS ขนาดเล็ก 100M-parameter ตัวเลือกของครอบครัว MOSS-TTS, แบ่งปันการช้า-แปลงสถาปัตยกรรม. แลกเปลี่ยนคุณภาพสูงสุดของ 8B โมเดลสำหรับ ~ 80x น้ำหนักเล็กกว่าและต่ำลงอย่างมีนัยสำคัญต่อการร้องขอ VRAM, ทำให้มันเหมาะสำหรับ free-tier และการจัดวางการผลิตสูง. เหมือนกัน 20 ภาษาที่แตกต่างกัน
เหมาะสำหรับ: ระบบ TTS แบบ Free-tier ผลิตได้มาก ใช้ได้ทันที
ลองใช้ฟรี
Bark ค่ามาตรฐาน
แบบจำลองข้อความ-เป็น-เสียงที่ใช้เทรนเนอร์ ที่จะสร้างเสียงพูด เสียงดนตรี และเสียงเอฟเฟกต์ที่แท้จริง
ผู้พัฒนา: Suno · ใบอนุญาต: MIT
ลองดูสิ
Bark Small ค่ามาตรฐาน
เวอร์ชั่นเบาของ Bark ที่มีการสรุปเร็วขึ้นและใช้หน่วยความจำน้อยลง
ผู้พัฒนา: Suno · ใบอนุญาต: MIT
ลองดูสิ
CosyVoice 2 ค่ามาตรฐาน
ระบบสตรีมเสียงอัลลิบาบา ที่มีคุณภาพเหมือนมนุษย์ และความล่าช้าเกือบศูนย์
ผู้พัฒนา: Alibaba (Tongyi Lab) · ใบอนุญาต: Apache 2.0
ลองดูสิ
Dia TTS ค่ามาตรฐาน
โมเดลการสร้างการสนทนาแบบหลายผู้พูด ที่จะสร้างการสนทนาตามธรรมชาติระหว่างผู้พูด
ผู้พัฒนา: Nari Labs · ใบอนุญาต: Apache 2.0
ลองดูสิ
Parler TTS ค่ามาตรฐาน
อธิบายเสียงที่คุณต้องการในภาษาธรรมชาติและ Parler จะสร้างการพูดที่ตรงกัน
ผู้พัฒนา: Hugging Face · ใบอนุญาต: Apache 2.0
ลองดูสิ
IndexTTS-2 ค่ามาตรฐาน
เสียงที่ไม่ถูกตัดต่อด้วยการควบคุมอารมณ์ที่ละเอียดอ่อน และความสามารถในการแสดงออกที่สูง
ผู้พัฒนา: Index Team · ใบอนุญาต: Bilibili Model License
ลองดูสิ
Spark TTS ค่ามาตรฐาน
โคลนเสียง TTS ด้วยอารมณ์ควบคุมได้ และสไตล์การพูดผ่านคำสั่ง
ผู้พัฒนา: SparkAudio · ใบอนุญาต: CC BY-NC-SA 4.0
ลองดูสิ
GPT-SoVITS ค่ามาตรฐาน
เสียงที่ถูกโคลนจาก TTS ที่ทำซ้ำเสียงใดๆ จากแค่5วินาทีของเสียง
ผู้พัฒนา: RVC-Boss · ใบอนุญาต: MIT
ลองดูสิ
Orpheus ค่ามาตรฐาน
แบบจำลอง TTS อารมณ์ระดับมนุษย์ ฝึกจากข้อมูลการพูด 100,000 ชั่วโมง
ผู้พัฒนา: Canopy Labs · ใบอนุญาต: Llama 3.2 Community
ลองดูสิ
Qwen3 TTS ค่ามาตรฐาน
เสียงหลายภาษาของ Alibaba ด้วยเสียงที่ตั้งไว้ล่วงหน้า และเสียงออกแบบจากข้อความ
ผู้พัฒนา: Alibaba (Qwen) · ใบอนุญาต: Apache 2.0
ลองดูสิ
VieNeu-TTS-v2 ค่ามาตรฐาน
ภาษาเวียดนาม + ภาษาอังกฤษ เปลี่ยนรหัส TTS ด้วยเสียงที่ตั้งไว้7เสียง และโคลนเสียงแบบ Zero- Shot CPU เท่านั้น ไม่จำเป็นต้องใช้ GPU
ผู้พัฒนา: Phạm Nguyễn Ngọc Bảo · ใบอนุญาต: Apache 2.0
ลองดูสิ
Chatterbox Turbo ค่ามาตรฐาน
กล่องคุยเร็วขึ้น ด้วยความล่าช้า 200 ไมล์ และแท็กภาษาสำหรับเสียงหัวเราะ ไอ และอื่นๆ
ผู้พัฒนา: Resemble AI · ใบอนุญาต: MIT
ลองดูสิ
VoxCPM ค่ามาตรฐาน
TTS ไร้สัญลักษณ์ ผลิตเสียง 44.1kHz ด้วยความสม่ำเสมอของย่อหน้า
ผู้พัฒนา: OpenBMB · ใบอนุญาต: Apache 2.0
ลองดูสิ
VibeVoice ค่ามาตรฐาน
โมเดลของไมโครซอฟท์สำหรับเนื้อหารูปแบบยาวที่มีผู้พูดหลายคน เช่น โพดำและหนังสือเสียง
ผู้พัฒนา: Microsoft · ใบอนุญาต: MIT
ลองดูสิ
CosyVoice3 ค่ามาตรฐาน
เสียงตอบสนองหลายภาษารุ่นต่อไป ด้วยการสตรีมเสียงสองภาษา ควบคุมอารมณ์ และโคลนเสียงแบบไม่มีการยิง
ผู้พัฒนา: Alibaba (FunAudioLLM) · ใบอนุญาต: Apache 2.0
ลองดูสิ
NAMAA Saudi TTS ค่ามาตรฐาน
ภาษาอาหรับซาอุดิที่เปิดตัวเป็นครั้งแรก ภาษาถิ่นซาอุดิ ด้วยการโคลนเสียงที่มีคุณภาพเหมือนกับ Chatterbox
ผู้พัฒนา: NAMAA Space · ใบอนุญาต: MIT
ลองดูสิ
Darwin TTS ค่ามาตรฐาน
ตัวแปร cross-modal Qwen3-TTS ที่มีน้ำหนัก FFN ผสมจากโมเดลภาษา Qwen3-1.7B สำหรับโคลนหลายภาษาที่ชัดเจนกว่า
ผู้พัฒนา: FINAL-Bench · ใบอนุญาต: Apache 2.0
ลองดูสิ
MOSS-TTSD ค่ามาตรฐาน
โมเดลการต่อเนื่องการสนทนาหลายคน - สร้างการสนทนาแบบพอดคาสต์ที่มีผู้พูดถึงสูงสุด5คนและ 60 นาทีของเสียงที่สมบูรณ์แบบ
ผู้พัฒนา: OpenMOSS · ใบอนุญาต: Apache 2.0
ลองดูสิ
CosyVoice 2
ระบบสตรีมเสียงอัลลิบาบา ที่มีคุณภาพเหมือนมนุษย์ และความล่าช้าเกือบศูนย์
ภาษา: en, zh, ja, ko, fr, de, it, es
เสียงคลอน
IndexTTS-2
เสียงที่ไม่ถูกตัดต่อด้วยการควบคุมอารมณ์ที่ละเอียดอ่อน และความสามารถในการแสดงออกที่สูง
ภาษา: en, zh
เสียงคลอน
GPT-SoVITS
เสียงที่ถูกโคลนจาก TTS ที่ทำซ้ำเสียงใดๆ จากแค่5วินาทีของเสียง
ภาษา: en, zh, ja, ko
เสียงคลอน
Tortoise TTS
เสียงหลายเสียง ข้อความ-เป็น-คำพูด มุ่งเน้นไปที่คุณภาพ ด้วยสถาปัตยกรรมอัตโนมัติ
ภาษา: en
เสียงคลอน
OpenVoice
เสียงคล้ายๆกันในทันที ด้วยการควบคุมที่ละเอียดอ่อน เกี่ยวกับสไตล์ อารมณ์ และสำเนียง
ภาษา: en, zh, ja, ko, fr, es
เสียงคลอน
VieNeu-TTS-v2
ภาษาเวียดนาม + ภาษาอังกฤษ เปลี่ยนรหัส TTS ด้วยเสียงที่ตั้งไว้7เสียง และโคลนเสียงแบบ Zero- Shot CPU เท่านั้น ไม่จำเป็นต้องใช้ GPU
ภาษา: vi, en
เสียงคลอน
Chatterbox Turbo
กล่องคุยเร็วขึ้น ด้วยความล่าช้า 200 ไมล์ และแท็กภาษาสำหรับเสียงหัวเราะ ไอ และอื่นๆ
ภาษา: en
เสียงคลอน
OuteTTS
ระบบ TTS บนพื้นฐาน LLM ที่ทำงานบน CPU, GPU หรือเบราว์เซอร์ผ่าน llama.cpp และ Transformers.js
ภาษา: en
เสียงคลอน
Pocket TTS
โมเดลพารามิเตอร์ 100M เบาๆ โดย คิวไท ด้วยการโคลนเสียงจากตัวอย่างเดียว
ภาษา: en, fr
เสียงคลอน
CosyVoice3
เสียงตอบสนองหลายภาษารุ่นต่อไป ด้วยการสตรีมเสียงสองภาษา ควบคุมอารมณ์ และโคลนเสียงแบบไม่มีการยิง
ภาษา: en, zh, ja, ko, de, es, fr, it, ru
เสียงคลอน
NAMAA Saudi TTS
ภาษาอาหรับซาอุดิที่เปิดตัวเป็นครั้งแรก ภาษาถิ่นซาอุดิ ด้วยการโคลนเสียงที่มีคุณภาพเหมือนกับ Chatterbox
ภาษา: ar
เสียงคลอน
Darwin TTS
ตัวแปร cross-modal Qwen3-TTS ที่มีน้ำหนัก FFN ผสมจากโมเดลภาษา Qwen3-1.7B สำหรับโคลนหลายภาษาที่ชัดเจนกว่า
ภาษา: en, ko, ja, zh
เสียงคลอน
MOSS-TTSD
โมเดลการต่อเนื่องการสนทนาหลายคน - สร้างการสนทนาแบบพอดคาสต์ที่มีผู้พูดถึงสูงสุด5คนและ 60 นาทีของเสียงที่สมบูรณ์แบบ
ภาษา: en, zh
เสียงคลอน
Ming-Omni TTS
โมเดลเสียงแบบ 0.5B Omni-Modal จาก InclusionAI ด้วยความแม่นยำสูง 44.1kHz และโคลนเสียงแบบ Zero-Shot
ภาษา: en, zh
เสียงคลอน
MOSS-TTS Nano
100M MOSS-TTS ตัวเลือกเล็กๆ สถาปัตยกรรมเดียวกัน ขนาดเล็กกว่า 80เท่า ความล่าช้าแบบฟรี
ภาษา: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
เสียงคลอนAPI สำหรับผู้พัฒนา
REST API ที่เข้ากันได้กับ OpenAI จุดสิ้นสุดหนึ่ง โมเดลมากกว่า 22 ตัว สนับสนุนการสตรีมสำหรับแอพพลิเคชันในเวลาจริง
- รูปแบบที่รองรับ OpenAI
- การสตรีม TTS สำหรับแอปพลิเคชันเวลาจริง
- ประมวลผลเป็นกลุ่มสำหรับงานขนาดใหญ่
- การแจ้งให้ทราบของ Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
คำถามที่ถามบ่อย
เราจะปรับปรุงอะไรได้บ้าง ความคิดเห็นของคุณช่วยเราแก้ไขปัญหา
เริ่มใช้ AI Voice วันนี้
ร่วมมือกับผู้สร้าง ผู้พัฒนา และธุรกิจที่ใช้ TTS.ai