AI ฟรี ข้อความเป็นเสียงName
20+ แบบจำลองโอเพนซอร์ส 107+ เสียง 32+ ไม่จำเป็นต้องมีบัญชี
ทุกอย่างที่คุณต้องการสำหรับ AI เสียง
เครื่องมือมากกว่า 30 เครื่องที่ใช้โมเดล AI แบบโอเพนซอร์ส
20+ โมเดลเสียงของ AI
ตัวอย่าง TTS แบบโอเพนซอร์สที่ครอบคลุมที่สุดในแพลตฟอร์มเดียว
Kokoro Free
Kokoro เป็นโมเดลการแปลงข้อความเป็นเสียงที่มีพารามิเตอร์ 82 ล้านตัว ซึ่งสามารถทำได้ดีกว่ารุ่นอื่นๆ มากมาย แม้จะมีขนาดเล็ก แต่ก็สามารถผลิตเสียงที่ดูเป็นธรรมชาติและแสดงออกได้ Kokoro รองรับหลายภาษา เช่น ภาษาอังกฤษ ญี่ปุ่น จีน และเกาหลี โดยมีเสียงแสดงออกหลากหลาย มันทำงานได้เร็วมาก — สร้างเสียงได้เร็วกว่าเวลาจริงบน GPU เกือบ 100 เท่า
เหมาะสำหรับ: เสียง TTS ที่มีคุณภาพสูง ด้วยความล่าช้าน้อยที่สุด, โปรแกรมสตรีม
ลองใช้ฟรี
Piper Free
Piper เป็นเครื่องมือแปลงข้อความเป็นเสียงที่ใช้พลังงานน้อย ถูกพัฒนาโดย Rhasspy โดยใช้สถาปัตยกรรม VITS และ larynx มันทำงานบน CPU ทั้งหมด ทำให้เหมาะสมกับอุปกรณ์ Edge, ระบบอัตโนมัติในบ้าน และแอพพลิเคชันที่ต้องการ TTS แบบออฟไลน์ ด้วยเสียงมากกว่า 100 เสียงใน 30+ ภาษา Piper สามารถแปลงข้อความเป็นเสียงได้ตามธรรมชาติ ด้วยความเร็วที่แท้จริง แม้แต่บน Raspberry Pi 4
เหมาะสำหรับ: แสดงตัวอย่างเร็ว, ความสามารถในการเข้าถึง, และโปรแกรมที่ฝังไว้
ลองใช้ฟรี
VITS Free
VITS (Variation Inference with adversarial learning for end- to- end Text- to- Speech) เป็นวิธีการ TTS แบบคู่ขนานที่สร้างเสียงที่ฟังดูเป็นธรรมชาติมากขึ้น กว่าแบบจำลองสองขั้นตอนปัจจุบัน มันใช้การสรุปแบบแปรผันที่เพิ่มด้วยการปรับให้เป็นปกติและกระบวนการฝึกฝนแบบคู่แข่งกัน เพื่อให้ได้ความเป็นธรรมชาติที่ดีขึ้นอย่างมีนัยสำคัญ
เหมาะสำหรับ: ข้อความ- ไป- เสียงสำหรับใช้ทั่วไปพร้อมกับการแปลภาษาตามธรรมชาติName
ลองใช้ฟรี
MeloTTS Free
MeloTTS โดย MyShell. ai เป็นไลบรารี TTS หลายภาษาที่รองรับภาษาอังกฤษ (อเมริกัน, อังกฤษ, อินเดีย, ออสเตรเลีย), สเปน, ฝรั่งเศส, จีน, ญี่ปุ่น และเกาหลี มันทำงานได้เร็วมาก ประมวลผลข้อความได้เกือบจะเร็วเท่ากับเวลาจริงบน CPU เพียงตัวเดียว MeloTTS ถูกออกแบบมาเพื่อการใช้งานในโรงงาน และรองรับการประมวลผลทั้ง CPU และ GPU
เหมาะสำหรับ: แอพพลิเคชันการผลิตที่ต้องการ TTS หลายภาษาอย่างรวดเร็ว
ลองใช้ฟรี
Bark Standard
แบบจำลองข้อความ-เป็น-เสียงที่ใช้เทรนเนอร์ ที่จะสร้างเสียงพูด เสียงดนตรี และเสียงเอฟเฟกต์ที่แท้จริง
ผู้พัฒนา: Suno · ใบอนุญาต: MIT
ลองดูสิ
Bark Small Standard
เวอร์ชั่นเบาของ Bark ที่มีการสรุปเร็วขึ้นและใช้หน่วยความจำน้อยลง
ผู้พัฒนา: Suno · ใบอนุญาต: MIT
ลองดูสิ
CosyVoice 2 Standard
ระบบสตรีมเสียงอัลลิบาบา ที่มีคุณภาพเหมือนมนุษย์ และความล่าช้าเกือบศูนย์
ผู้พัฒนา: Alibaba (Tongyi Lab) · ใบอนุญาต: Apache 2.0
ลองดูสิ
Dia TTS Standard
โมเดลการสร้างการสนทนาของผู้พูดหลายคนที่สร้างการสนทนาตามธรรมชาติระหว่างผู้พูด
ผู้พัฒนา: Nari Labs · ใบอนุญาต: Apache 2.0
ลองดูสิ
Parler TTS Standard
อธิบายเสียงที่คุณต้องการในภาษาธรรมชาติและ Parler จะสร้างการพูดที่ตรงกัน
ผู้พัฒนา: Hugging Face · ใบอนุญาต: Apache 2.0
ลองดูสิ
GLM-TTS Standard
ทำให้อัตราความผิดพลาดของตัวอักษรต่ำที่สุดในหมู่โมเดล TTS แบบโอเพนซอร์ส
ผู้พัฒนา: Zhipu AI · ใบอนุญาต: GLM-4 License
ลองดูสิ
IndexTTS-2 Standard
เสียงที่ไม่ถูกตัดต่อด้วยการควบคุมอารมณ์ที่ละเอียดอ่อน และความสามารถในการแสดงออกที่สูง
ผู้พัฒนา: Index Team · ใบอนุญาต: Bilibili Model License
ลองดูสิ
Spark TTS Standard
โคลนเสียง TTS ด้วยอารมณ์ควบคุมได้ และสไตล์การพูดผ่านคำสั่ง
ผู้พัฒนา: SparkAudio · ใบอนุญาต: CC BY-NC-SA 4.0
ลองดูสิ
GPT-SoVITS Standard
เสียงที่ถูกโคลนจาก TTS ที่ทำซ้ำเสียงใดๆ จากแค่5วินาทีของเสียง
ผู้พัฒนา: RVC-Boss · ใบอนุญาต: MIT
ลองดูสิ
Orpheus Standard
แบบจำลอง TTS อารมณ์ระดับมนุษย์ ฝึกจากข้อมูลการพูด 100,000 ชั่วโมง
ผู้พัฒนา: Canopy Labs · ใบอนุญาต: Llama 3.2 Community
ลองดูสิ
Qwen3 TTS Standard
เสียงหลายภาษาของ Alibaba ด้วยการโคลนเสียง เสียงที่ตั้งไว้ล่วงหน้า และออกแบบเสียงจากข้อความ
ผู้พัฒนา: Alibaba (Qwen) · ใบอนุญาต: Apache 2.0
ลองดูสิ
CosyVoice 2
ระบบสตรีมเสียงอัลลิบาบา ที่มีคุณภาพเหมือนมนุษย์ และความล่าช้าเกือบศูนย์
ภาษา: en, zh, ja, ko, fr, de, it, es
เสียงคลอน
GLM-TTS
ทำให้อัตราความผิดพลาดของตัวอักษรต่ำที่สุดในหมู่โมเดล TTS แบบโอเพนซอร์ส
ภาษา: en, zh
เสียงคลอน
IndexTTS-2
เสียงที่ไม่ถูกตัดต่อด้วยการควบคุมอารมณ์ที่ละเอียดอ่อน และความสามารถในการแสดงออกที่สูง
ภาษา: en, zh
เสียงคลอน
GPT-SoVITS
เสียงที่ถูกโคลนจาก TTS ที่ทำซ้ำเสียงใดๆ จากแค่5วินาทีของเสียง
ภาษา: en, zh, ja, ko
เสียงคลอน
Tortoise TTS
เสียงหลายเสียง ข้อความ-เป็น-คำพูด มุ่งเน้นไปที่คุณภาพ ด้วยสถาปัตยกรรมอัตโนมัติ
ภาษา: en
เสียงคลอน
OpenVoice
โคลนเสียงในทันที ด้วยการควบคุมสไตล์ อารมณ์ และสำเนียง
ภาษา: en, zh, ja, ko, fr, de, es, it
เสียงคลอน
Qwen3 TTS
เสียงหลายภาษาของ Alibaba ด้วยการโคลนเสียง เสียงที่ตั้งไว้ล่วงหน้า และออกแบบเสียงจากข้อความ
ภาษา: en, zh, ja, ko, de, fr, ru, pt, es, it
เสียงคลอนAPI สำหรับผู้พัฒนา
REST API ที่เข้ากันได้กับ OpenAI จุดสิ้นสุดหนึ่ง โมเดลมากกว่า 22 ตัว สนับสนุนการสตรีมสำหรับแอพพลิเคชันในเวลาจริง
- รูปแบบที่รองรับ OpenAI
- การสตรีม TTS สำหรับแอปพลิเคชันเวลาจริง
- ประมวลผลเป็นกลุ่มสำหรับงานขนาดใหญ่
- การแจ้งให้ทราบของ Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
เรียบง่าย, โปร่งใส
เริ่มต้นฟรี ปรับขนาดตามที่คุณเติบโต
ว่าง
15 เครดิต
- Kokoro, Piper, VITS, MeloTTS
- จำกัดตัวอักษร 500 ตัว
- 3 เจเนอเรชัน/ ชั่วโมง (ไม่มีบัญชี)
เริ่ม
500 เครดิต/เดือน
- ทั้งหมด 22+ โมเดล
- 100,000 chars per generation
- การคัดลอกเสียง
โปร
2,000 เครดิต/เดือน
- ทุกอย่างใน Starter
- การเข้าถึง API
- การประมวลผลความสำคัญ
คำถามที่ถามบ่อย
เริ่มใช้ AI Voice วันนี้
ร่วมมือกับผู้สร้าง ผู้พัฒนา และธุรกิจที่ใช้ TTS.ai