ความสามารถทางอารมณ์ ข้อความเป็นเสียงName

33+ แบบจำลองโอเพนซอร์ส 273+ เสียง 33+ ภาษา ไม่ต้องใช้บัญชี

18K+
ผู้สร้าง
71K+
รุ่น
33+
โมเดล AI
273+
เสียง
0/500 ตัวอักษร · ลงทะเบียน 5,000 คนต่อรุ่น → ว่าง
รัก TTS.ai บอกเพื่อนๆ

ทุกอย่างที่คุณต้องการสำหรับ AI เสียง

เครื่องมือมากกว่า 30 เครื่องที่ใช้โมเดล AI แบบโอเพนซอร์ส

33+ โมเดลเสียงของ AI

ตัวอย่าง TTS แบบโอเพนซอร์สที่ครอบคลุมที่สุดในแพลตฟอร์มเดียว

KokoroKokoro ว่าง

Kokoro เป็นโมเดลการแปลงข้อความเป็นเสียงที่มีพารามิเตอร์ 82 ล้านตัว ซึ่งสามารถทำได้ดีกว่ารุ่นอื่นๆ มากมาย แม้จะมีขนาดเล็ก แต่ก็สามารถผลิตเสียงที่ดูเป็นธรรมชาติและแสดงออกได้ Kokoro รองรับหลายภาษา เช่น ภาษาอังกฤษ ญี่ปุ่น จีน และเกาหลี โดยมีเสียงแสดงออกหลากหลาย มันทำงานได้เร็วมาก — สร้างเสียงได้เร็วกว่าเวลาจริงบน GPU เกือบ 100 เท่า

เหมาะสำหรับ: เสียง TTS ที่มีคุณภาพสูง ด้วยความล่าช้าน้อยที่สุด, โปรแกรมสตรีม

ลองใช้ฟรี

PiperPiper ว่าง

Piper เป็นเครื่องมือแปลงข้อความเป็นเสียงที่ใช้พลังงานน้อย ถูกพัฒนาโดย Rhasspy โดยใช้สถาปัตยกรรม VITS และ larynx มันทำงานบน CPU ทั้งหมด ทำให้เหมาะสมกับอุปกรณ์ Edge, ระบบอัตโนมัติในบ้าน และแอพพลิเคชันที่ต้องการ TTS แบบออฟไลน์ ด้วยเสียงมากกว่า 100 เสียงใน 30+ ภาษา Piper สามารถแปลงข้อความเป็นเสียงได้ตามธรรมชาติ ด้วยความเร็วที่แท้จริง แม้แต่บน Raspberry Pi 4

เหมาะสำหรับ: แสดงตัวอย่างเร็ว, ความสามารถในการเข้าถึง, และโปรแกรมที่ฝังไว้

ลองใช้ฟรี

VITSVITS ว่าง

VITS (Variation Inference with adversarial learning for end- to- end Text- to- Speech) เป็นวิธีการ TTS แบบคู่ขนานที่สร้างเสียงที่ฟังดูเป็นธรรมชาติมากขึ้น กว่าแบบจำลองสองขั้นตอนปัจจุบัน มันใช้การสรุปแบบแปรผันที่เพิ่มด้วยการปรับให้เป็นปกติและกระบวนการฝึกฝนแบบคู่แข่งกัน เพื่อให้ได้ความเป็นธรรมชาติที่ดีขึ้นอย่างมีนัยสำคัญ

เหมาะสำหรับ: ข้อความ- ไป- เสียงสำหรับใช้ทั่วไปพร้อมกับการแปลภาษาตามธรรมชาติName

ลองใช้ฟรี

MeloTTSMeloTTS ว่าง

MeloTTS โดย MyShell. ai เป็นไลบรารี TTS หลายภาษาที่รองรับภาษาอังกฤษ (อเมริกัน, อังกฤษ, อินเดีย, ออสเตรเลีย), สเปน, ฝรั่งเศส, จีน, ญี่ปุ่น และเกาหลี มันทำงานได้เร็วมาก ประมวลผลข้อความได้เกือบจะเร็วเท่ากับเวลาจริงบน CPU เพียงตัวเดียว MeloTTS ถูกออกแบบมาเพื่อการใช้งานในโรงงาน และรองรับการประมวลผลทั้ง CPU และ GPU

เหมาะสำหรับ: แอพพลิเคชันการผลิตที่ต้องการ TTS หลายภาษาอย่างรวดเร็ว

ลองใช้ฟรี

Kani TTS 2Kani TTS 2 ว่าง

Kani- TTS-2 โดย NineNineSix เป็นโมเดลพารามิเตอร์ที่เบามาก ขนาด 400M สร้างขึ้นบนแบ็คบอนของ Liquid AI LFM2 ด้วย NVIDIA NanoCodec มันทำงานได้เพียง 3GB VRAM และผลิตเสียง ~10 วินาทีใน ~2วินาทีบน A100 (RTF 0.2) เวอร์ชั่นสาธารณะปัจจุบันมีจุดตรวจสอบ `kani-tts-2-en` ภาษาอังกฤษเท่านั้น และไม่เปิดเผยฮูกการฝังตัวของผู้พูดที่จำเป็นสำหรับการคลาวด์เสียง — ใช้ Chatterbox / IndexTTS2 / F5-TTS สำหรับคลาวด์ หรือ Kokoro / MeloTTS สำหรับภาษาอื่นๆ

เหมาะสำหรับ: สร้างภาษาอังกฤษเร็วบนฮาร์ดแวร์ VRAM น้อย, แสดงตัวอย่างเร็ว

ลองใช้ฟรี

OuteTTSOuteTTS ว่าง

OuteTTS ขยายโมเดลภาษาขนาดใหญ่ด้วยความสามารถในการแปลงข้อความเป็นเสียงในขณะที่ยังคงรักษาสถาปัตยกรรมดั้งเดิมไว้ มันรองรับแบ็คเอนด์หลายอย่าง รวมถึง llama. cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM และแม้กระทั่งการคาดการณ์ผ่านเบราว์เซอร์ผ่าน Transformers. js ตัวเลือกการคลอนเสียงแบบ zero-shot ผ่านโปรไฟล์ผู้พูดที่บันทึกเป็น JSON

เหมาะสำหรับ: การติดตั้ง Edge, TTS บนเบราว์เซอร์, สภาพแวดล้อมที่ใช้ทรัพยากรน้อย

ลองใช้ฟรี

Pocket TTSPocket TTS ว่าง

Pocket TTS โดย Kyutai (ผู้สร้าง Moshi) เป็นโมเดลข้อความ- เป็น- เสียงขนาดเล็ก 100M ที่มีพาร์เมตอร์ที่หนักกว่าตัวมันเองมาก มันทำงานได้ดีบน CPU สนับสนุนการคลอนเสียงแบบ zero- shot จากตัวอย่างเสียงเดียว และผลิตเสียงพูดที่ฟังดูเป็นธรรมชาติ ขนาดของโมเดลที่เล็กทำให้มันเหมาะสมกับการติดตั้งที่ขอบและสภาพแวดล้อมที่มีทรัพยากรน้อย

เหมาะสำหรับ: ใช้ง่าย ใช้ CPU เพียงอย่างเดียว คลอนเสียงได้เร็ว

ลองใช้ฟรี

Kitten TTSKitten TTS ว่าง

Kitten TTS โดย KittenML เป็นโมเดลการแปลงข้อความเป็นเสียงที่ใช้พลังงานน้อยมาก สร้างขึ้นบน ONNX ด้วยพารามิเตอร์ที่แตกต่างกันจาก 15M ถึง 80M (25- 80 MB บนดิสก์) มันจะส่งผลให้มีการสังเคราะห์เสียงที่มีคุณภาพสูงบน CPU โดยไม่ต้องใช้ GPU มีเสียงภายใน 8 เสียง ความเร็วในการพูดที่ปรับได้ และมีการประมวลผลข้อความก่อนหน้าสำหรับตัวเลข เงินตรา และหน่วย เหมาะสำหรับใช้กับการจัดวางบนขอบและแอพพลิเคชันที่ใช้เวลาในการประมวลผลน้อย

เหมาะสำหรับ: ตัวแปลภาษาเป็นภาษาเขียนที่เร็วและเบา, สามารถใช้ได้ในระดับ Edge, ใช้ได้ในระดับ Low- Latency

ลองใช้ฟรี

Ming-Omni TTSMing-Omni TTS ว่าง

Ming- omni- tts- 0. 5B โดย inclusionAI เป็นโมเดลเสียง omni- mode ที่ถูกสร้างขึ้นบนพื้นฐานของ BailingMM ที่มีการเข้ารหัสเสียงแบบ Patch- by- Patch รองรับการออกเสียง 44. 1kHz (ใกล้เคียงกับคุณภาพของซีดี) รองรับการคอลลินเสียงแบบ zero- shot จากเวลาอ้างอิง 3+ วินาที และมีตัวควบคุมอารมณ์ / ภาษาถิ่น / BGM ภายในตัว ผ่านคำสั่ง JSON มีความเสถียรภาพที่ดี — 0. 83% WER บนเครื่องวัดความแม่นยำของจีน

เหมาะสำหรับ: เสียงสองภาษาที่ซื่อสัตย์ เสียงที่ควบคุมอารมณ์ เนื้อหาหนังสือเสียงจีน

ลองใช้ฟรี

MOSS-TTS NanoMOSS-TTS Nano ว่าง

MOSS-TTS-Nano-100M เป็น OpenMOSS ขนาดเล็ก 100M-parameter ตัวเลือกของครอบครัว MOSS-TTS, แบ่งปันการช้า-แปลงสถาปัตยกรรม. แลกเปลี่ยนคุณภาพสูงสุดของ 8B โมเดลสำหรับ ~ 80x น้ำหนักเล็กกว่าและต่ำลงอย่างมีนัยสำคัญต่อการร้องขอ VRAM, ทำให้มันเหมาะสำหรับ free-tier และการจัดวางการผลิตสูง. เหมือนกัน 20 ภาษาที่แตกต่างกัน

เหมาะสำหรับ: ระบบ TTS แบบ Free-tier ผลิตได้มาก ใช้ได้ทันที

ลองใช้ฟรี

BarkBark ค่ามาตรฐาน

แบบจำลองข้อความ-เป็น-เสียงที่ใช้เทรนเนอร์ ที่จะสร้างเสียงพูด เสียงดนตรี และเสียงเอฟเฟกต์ที่แท้จริง

ผู้พัฒนา: Suno · ใบอนุญาต: MIT

ลองดูสิ

Bark SmallBark Small ค่ามาตรฐาน

เวอร์ชั่นเบาของ Bark ที่มีการสรุปเร็วขึ้นและใช้หน่วยความจำน้อยลง

ผู้พัฒนา: Suno · ใบอนุญาต: MIT

ลองดูสิ

CosyVoice 2CosyVoice 2 ค่ามาตรฐาน

ระบบสตรีมเสียงอัลลิบาบา ที่มีคุณภาพเหมือนมนุษย์ และความล่าช้าเกือบศูนย์

ผู้พัฒนา: Alibaba (Tongyi Lab) · ใบอนุญาต: Apache 2.0

ลองดูสิ

Dia TTSDia TTS ค่ามาตรฐาน

โมเดลการสร้างการสนทนาแบบหลายผู้พูด ที่จะสร้างการสนทนาตามธรรมชาติระหว่างผู้พูด

ผู้พัฒนา: Nari Labs · ใบอนุญาต: Apache 2.0

ลองดูสิ

Parler TTSParler TTS ค่ามาตรฐาน

อธิบายเสียงที่คุณต้องการในภาษาธรรมชาติและ Parler จะสร้างการพูดที่ตรงกัน

ผู้พัฒนา: Hugging Face · ใบอนุญาต: Apache 2.0

ลองดูสิ

IndexTTS-2IndexTTS-2 ค่ามาตรฐาน

เสียงที่ไม่ถูกตัดต่อด้วยการควบคุมอารมณ์ที่ละเอียดอ่อน และความสามารถในการแสดงออกที่สูง

ผู้พัฒนา: Index Team · ใบอนุญาต: Bilibili Model License

ลองดูสิ

Spark TTSSpark TTS ค่ามาตรฐาน

โคลนเสียง TTS ด้วยอารมณ์ควบคุมได้ และสไตล์การพูดผ่านคำสั่ง

ผู้พัฒนา: SparkAudio · ใบอนุญาต: CC BY-NC-SA 4.0

ลองดูสิ

GPT-SoVITSGPT-SoVITS ค่ามาตรฐาน

เสียงที่ถูกโคลนจาก TTS ที่ทำซ้ำเสียงใดๆ จากแค่5วินาทีของเสียง

ผู้พัฒนา: RVC-Boss · ใบอนุญาต: MIT

ลองดูสิ

OrpheusOrpheus ค่ามาตรฐาน

แบบจำลอง TTS อารมณ์ระดับมนุษย์ ฝึกจากข้อมูลการพูด 100,000 ชั่วโมง

ผู้พัฒนา: Canopy Labs · ใบอนุญาต: Llama 3.2 Community

ลองดูสิ

Qwen3 TTSQwen3 TTS ค่ามาตรฐาน

เสียงหลายภาษาของ Alibaba ด้วยเสียงที่ตั้งไว้ล่วงหน้า และเสียงออกแบบจากข้อความ

ผู้พัฒนา: Alibaba (Qwen) · ใบอนุญาต: Apache 2.0

ลองดูสิ

VieNeu-TTS-v2VieNeu-TTS-v2 ค่ามาตรฐาน

ภาษาเวียดนาม + ภาษาอังกฤษ เปลี่ยนรหัส TTS ด้วยเสียงที่ตั้งไว้7เสียง และโคลนเสียงแบบ Zero- Shot CPU เท่านั้น ไม่จำเป็นต้องใช้ GPU

ผู้พัฒนา: Phạm Nguyễn Ngọc Bảo · ใบอนุญาต: Apache 2.0

ลองดูสิ

Chatterbox TurboChatterbox Turbo ค่ามาตรฐาน

กล่องคุยเร็วขึ้น ด้วยความล่าช้า 200 ไมล์ และแท็กภาษาสำหรับเสียงหัวเราะ ไอ และอื่นๆ

ผู้พัฒนา: Resemble AI · ใบอนุญาต: MIT

ลองดูสิ

VoxCPMVoxCPM ค่ามาตรฐาน

TTS ไร้สัญลักษณ์ ผลิตเสียง 44.1kHz ด้วยความสม่ำเสมอของย่อหน้า

ผู้พัฒนา: OpenBMB · ใบอนุญาต: Apache 2.0

ลองดูสิ

VibeVoiceVibeVoice ค่ามาตรฐาน

โมเดลของไมโครซอฟท์สำหรับเนื้อหารูปแบบยาวที่มีผู้พูดหลายคน เช่น โพดำและหนังสือเสียง

ผู้พัฒนา: Microsoft · ใบอนุญาต: MIT

ลองดูสิ

CosyVoice3CosyVoice3 ค่ามาตรฐาน

เสียงตอบสนองหลายภาษารุ่นต่อไป ด้วยการสตรีมเสียงสองภาษา ควบคุมอารมณ์ และโคลนเสียงแบบไม่มีการยิง

ผู้พัฒนา: Alibaba (FunAudioLLM) · ใบอนุญาต: Apache 2.0

ลองดูสิ

NAMAA Saudi TTSNAMAA Saudi TTS ค่ามาตรฐาน

ภาษาอาหรับซาอุดิที่เปิดตัวเป็นครั้งแรก ภาษาถิ่นซาอุดิ ด้วยการโคลนเสียงที่มีคุณภาพเหมือนกับ Chatterbox

ผู้พัฒนา: NAMAA Space · ใบอนุญาต: MIT

ลองดูสิ

Darwin TTSDarwin TTS ค่ามาตรฐาน

ตัวแปร cross-modal Qwen3-TTS ที่มีน้ำหนัก FFN ผสมจากโมเดลภาษา Qwen3-1.7B สำหรับโคลนหลายภาษาที่ชัดเจนกว่า

ผู้พัฒนา: FINAL-Bench · ใบอนุญาต: Apache 2.0

ลองดูสิ

MOSS-TTSDMOSS-TTSD ค่ามาตรฐาน

โมเดลการต่อเนื่องการสนทนาหลายคน - สร้างการสนทนาแบบพอดคาสต์ที่มีผู้พูดถึงสูงสุด5คนและ 60 นาทีของเสียงที่สมบูรณ์แบบ

ผู้พัฒนา: OpenMOSS · ใบอนุญาต: Apache 2.0

ลองดูสิ

ChatterboxChatterbox พิเศษ

เสียงโคลนแบบศูนย์ ด้วยการควบคุมอารมณ์ จาก Resemble AI

คุณภาพ:

ลองดูสิ

Tortoise TTSTortoise TTS พิเศษ

เสียงหลายเสียง ข้อความ-เป็น-คำพูด มุ่งเน้นไปที่คุณภาพ ด้วยสถาปัตยกรรมอัตโนมัติ

คุณภาพ:

ลองดูสิ

StyleTTS 2StyleTTS 2 พิเศษ

ระดับมนุษย์ ข้อความ-เป็น-คำพูด ผ่านการกระจายสไตล์ และฝึกฝนต่อสู้

คุณภาพ:

ลองดูสิ

OpenVoiceOpenVoice พิเศษ

เสียงคล้ายๆกันในทันที ด้วยการควบคุมที่ละเอียดอ่อน เกี่ยวกับสไตล์ อารมณ์ และสำเนียง

คุณภาพ:

ลองดูสิ

Sesame CSMSesame CSM พิเศษ

โมเดลการพูดแบบสนทนา สร้างการสนทนาตามธรรมชาติ ด้วยเวลาที่เหมาะสมและอารมณ์

คุณภาพ:

ลองดูสิ

CosyVoice 2CosyVoice 2

ระบบสตรีมเสียงอัลลิบาบา ที่มีคุณภาพเหมือนมนุษย์ และความล่าช้าเกือบศูนย์

ภาษา: en, zh, ja, ko, fr, de, it, es

เสียงคลอน

IndexTTS-2IndexTTS-2

เสียงที่ไม่ถูกตัดต่อด้วยการควบคุมอารมณ์ที่ละเอียดอ่อน และความสามารถในการแสดงออกที่สูง

ภาษา: en, zh

เสียงคลอน

Spark TTSSpark TTS

โคลนเสียง TTS ด้วยอารมณ์ควบคุมได้ และสไตล์การพูดผ่านคำสั่ง

ภาษา: en, zh

เสียงคลอน

GPT-SoVITSGPT-SoVITS

เสียงที่ถูกโคลนจาก TTS ที่ทำซ้ำเสียงใดๆ จากแค่5วินาทีของเสียง

ภาษา: en, zh, ja, ko

เสียงคลอน

ChatterboxChatterbox

เสียงโคลนแบบศูนย์ ด้วยการควบคุมอารมณ์ จาก Resemble AI

ภาษา: en

เสียงคลอน

Tortoise TTSTortoise TTS

เสียงหลายเสียง ข้อความ-เป็น-คำพูด มุ่งเน้นไปที่คุณภาพ ด้วยสถาปัตยกรรมอัตโนมัติ

ภาษา: en

เสียงคลอน

OpenVoiceOpenVoice

เสียงคล้ายๆกันในทันที ด้วยการควบคุมที่ละเอียดอ่อน เกี่ยวกับสไตล์ อารมณ์ และสำเนียง

ภาษา: en, zh, ja, ko, fr, es

เสียงคลอน

VieNeu-TTS-v2VieNeu-TTS-v2

ภาษาเวียดนาม + ภาษาอังกฤษ เปลี่ยนรหัส TTS ด้วยเสียงที่ตั้งไว้7เสียง และโคลนเสียงแบบ Zero- Shot CPU เท่านั้น ไม่จำเป็นต้องใช้ GPU

ภาษา: vi, en

เสียงคลอน

Chatterbox TurboChatterbox Turbo

กล่องคุยเร็วขึ้น ด้วยความล่าช้า 200 ไมล์ และแท็กภาษาสำหรับเสียงหัวเราะ ไอ และอื่นๆ

ภาษา: en

เสียงคลอน

VoxCPMVoxCPM

TTS ไร้สัญลักษณ์ ผลิตเสียง 44.1kHz ด้วยความสม่ำเสมอของย่อหน้า

ภาษา: en, zh

เสียงคลอน

OuteTTSOuteTTS

ระบบ TTS บนพื้นฐาน LLM ที่ทำงานบน CPU, GPU หรือเบราว์เซอร์ผ่าน llama.cpp และ Transformers.js

ภาษา: en

เสียงคลอน

Pocket TTSPocket TTS

โมเดลพารามิเตอร์ 100M เบาๆ โดย คิวไท ด้วยการโคลนเสียงจากตัวอย่างเดียว

ภาษา: en, fr

เสียงคลอน

CosyVoice3CosyVoice3

เสียงตอบสนองหลายภาษารุ่นต่อไป ด้วยการสตรีมเสียงสองภาษา ควบคุมอารมณ์ และโคลนเสียงแบบไม่มีการยิง

ภาษา: en, zh, ja, ko, de, es, fr, it, ru

เสียงคลอน

NAMAA Saudi TTSNAMAA Saudi TTS

ภาษาอาหรับซาอุดิที่เปิดตัวเป็นครั้งแรก ภาษาถิ่นซาอุดิ ด้วยการโคลนเสียงที่มีคุณภาพเหมือนกับ Chatterbox

ภาษา: ar

เสียงคลอน

Darwin TTSDarwin TTS

ตัวแปร cross-modal Qwen3-TTS ที่มีน้ำหนัก FFN ผสมจากโมเดลภาษา Qwen3-1.7B สำหรับโคลนหลายภาษาที่ชัดเจนกว่า

ภาษา: en, ko, ja, zh

เสียงคลอน

MOSS-TTSDMOSS-TTSD

โมเดลการต่อเนื่องการสนทนาหลายคน - สร้างการสนทนาแบบพอดคาสต์ที่มีผู้พูดถึงสูงสุด5คนและ 60 นาทีของเสียงที่สมบูรณ์แบบ

ภาษา: en, zh

เสียงคลอน

Ming-Omni TTSMing-Omni TTS

โมเดลเสียงแบบ 0.5B Omni-Modal จาก InclusionAI ด้วยความแม่นยำสูง 44.1kHz และโคลนเสียงแบบ Zero-Shot

ภาษา: en, zh

เสียงคลอน

MOSS-TTS NanoMOSS-TTS Nano

100M MOSS-TTS ตัวเลือกเล็กๆ สถาปัตยกรรมเดียวกัน ขนาดเล็กกว่า 80เท่า ความล่าช้าแบบฟรี

ภาษา: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

เสียงคลอน

API สำหรับผู้พัฒนา

REST API ที่เข้ากันได้กับ OpenAI จุดสิ้นสุดหนึ่ง โมเดลมากกว่า 22 ตัว สนับสนุนการสตรีมสำหรับแอพพลิเคชันในเวลาจริง

  • รูปแบบที่รองรับ OpenAI
  • การสตรีม TTS สำหรับแอปพลิเคชันเวลาจริง
  • ประมวลผลเป็นกลุ่มสำหรับงานขนาดใหญ่
  • การแจ้งให้ทราบของ Webhook
แสดงเอกสาร API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

เรียบง่าย, โปร่งใส

เริ่มต้นฟรี ปรับขนาดตามที่คุณเติบโต

ว่าง

$0

15,000 ตัวอักษร + 5,000/วัน

  • 7 คนฟรี รวมทั้งโคโคโร
  • 5,000 อักขระต่อรุ่น
  • เข้าถึง API ได้
ลงทะเบียน

เริ่ม

$9/ชั่วโมง

500 เครดิต/เดือน

  • ทั้งหมด 22+ โมเดล
  • 100,000 อักขระต่อรุ่น
  • การคัดลอกเสียง
เริ่มต้น
ยอดนิยมที่สุด

โปร

$29/ชั่วโมง

2,000 เครดิต/เดือน

  • ทุกอย่างใน Starter
  • การเข้าถึง API
  • การประมวลผลความสำคัญ
โปร

ธุรกิจ

$99/ชั่วโมง

10,000 เครดิต/เดือน

  • ทุกอย่างในโปร
  • บล๊อก API
  • คิวที่ให้ความสำคัญ
เอาธุรกิจมา

แสดงแผนทั้งหมด รวมถึงแพ็คตัวละคร →

คำถามที่ถามบ่อย

TTS.ai เป็นแพลตฟอร์มเสียง AI ที่ครอบคลุมที่สุด เสนอโมเดลข้อความ-เป็น-คำพูด 22+ โคลนเสียง คำพูด-เป็น-ข้อความ และเครื่องมือเสียง ทุกโมเดลเป็นโอเพนซอร์ส โดยไม่มีการล็อคผู้ผลิต

ใช่! TTS.ai ให้บริการฟรี ข้อความเป็นเสียง กับ Kokoro, Piper, VITS และ MeloTTS ไม่มีบัญชี ลงทะเบียนเพื่อรับ 15,000 ตัวอักษรฟรี และเข้าถึงทุกตัวอย่าง แพ็คเกจที่จ่ายเริ่มต้นที่ $9/เดือน

สำหรับความเร็ว ใช้ Kokoro หรือ Piper สำหรับคุณภาพ ลองใช้ CosyVoice 2หรือ StyleTTS 2 สำหรับคลอนเสียง ใช้ Chatterbox หรือ GPT- SoVITS สำหรับโต้ตอบ ใช้ Dia TTS ลองใช้หลายแบบบนข้อความเดียวกันเพื่อเปรียบเทียบ

ใช่ OpenAI- รองรับ REST API สำหรับ TTS, STT, การคอลลินเสียง, และเครื่องมือเสียง. ประกอบด้วยทุกแพ็คเกจรวมถึงฟรี, ด้วยอัตราการจำกัดที่ปรับขนาดได้ตามระดับ (ฟรี: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Business: 300). ดูเอกสารที่ tts.ai/api/

คุณภาพเสียงแตกต่างกันไปตามรุ่น รุ่นพิเศษ เช่น CosyVoice 2, StyleTTS 2, และ Chatterbox ผลิตเสียงที่มีคุณภาพใกล้เคียงกับเสียงของมนุษย์ ด้วยระดับเสียงและอารมณ์ตามธรรมชาติ รุ่นฟรี เช่น Kokoro เสนอคุณภาพเสียงที่ยอดเยี่ยมสำหรับกรณีการใช้งานส่วนใหญ่

TTS.ai รองรับภาษามากกว่า 30 ภาษา ผ่านไลบรารีแบบอย่างของมัน ภาษาอังกฤษมีแบบอย่างที่รองรับมากที่สุด แต่แบบอย่างเช่น CosyVoice2รองรับภาษาจีน ญี่ปุ่น และเกาหลี GPT- SoVITS รองรับภาษาจีน ญี่ปุ่น เกาหลี และอังกฤษ และ MeloTTS รองรับภาษาอังกฤษ สเปน ฝรั่งเศส จีน ญี่ปุ่น และเกาหลี

ใช่ ทุกอย่างที่ทำการประมวลผลจะเกิดขึ้นบนเซิร์ฟเวอร์ GPU ของเรา เราจะไม่เก็บข้อมูลการเข้ารหัสหรือเสียงที่สร้างขึ้นหลังจากส่งออก ตัวอย่างเสียงที่อัพโหลดเพื่อโคลนจะถูกใช้เฉพาะในวาระการทำงานปัจจุบันเท่านั้น และจะไม่ถูกเก็บไว้ เราจะไม่เคยแบ่งปันข้อมูลของคุณกับบุคคลที่สาม หรือใช้มันเพื่อฝึกโมเดล

ใช่ เสียงทั้งหมดที่สร้างขึ้นบน TTS.ai สามารถใช้ในเชิงพาณิชย์ได้ เช่น วิดีโอ YouTube, พอดคาสต์, หนังสือเสียง, แอพพลิเคชั่น, โฆษณา และผลิตภัณฑ์ โมเดลของเราเป็นโอเพนซอร์สภายใต้ใบอนุญาตที่อนุญาต (MIT, Apache 2.0) ไม่มีค่าลิขสิทธิ์หรือการระบุผู้สร้าง

TTS.ai สร้างเสียงในรูปแบบ WAV โดยปริยาย เพื่อคุณภาพสูงสุด คุณสามารถแปลงเป็น MP3, FLAC, OGG, หรือ M4A โดยใช้เครื่องมือแปลงเสียงฟรีของเรา API รองรับการกำหนดรูปแบบผลลัพธ์ที่คุณต้องการโดยตรงในคำร้องขอ

โหลดตัวอย่างเสียงสั้น ๆ (น้อยกว่า5วินาที) ของเสียงที่คุณต้องการโคลน จากนั้นพิมพ์ข้อความเพื่อสร้างเสียงนั้น โมเดลเช่น Chatterbox, GPT- SoVITS และ CosyVoice2รองรับการโคลนเสียง เสียงที่โคลนมาจะบันทึกระดับเสียง สำเนียง และสไตล์การพูด

แบบฟอร์มฟรี (Kokoro, Piper, VITS, MeloTTS) ไม่ต้องใช้บัญชีและใช้ค่าตัวอักษรเป็นศูนย์ แบบฟอร์มมาตรฐาน (2,000 ตัวอักษร/ 1K ข้อมูลเข้า) ประกอบด้วย Bark, CosyVoice 2, F5-TTS, และ Dia แบบฟอร์มพิเศษ (4,000 ตัวอักษร/ 1K ข้อมูลเข้า) ประกอบด้วย OpenVoice, Chatterbox, StyleTTS 2, และ Tortoise แบบฟอร์มที่มีค่าใช้จ่ายโดยทั่วไปจะให้คุณภาพสูงขึ้น เสียงมากขึ้น และคุณสมบัติเพิ่มเติม เช่น การคอลลินเสียง

ใช่ API รองรับการประมวลผลแบบแบตสำหรับแปลงข้อความเป็นเสียงจำนวนมาก สามารถส่งคำขอหลายครั้ง และรับผลลัพธ์โดยไม่ซ้ำกัน โดยใช้ UUID ของงาน แพ็คเกจธุรกิจ ($99/ เดือน) และแพ็คเกจที่สูงกว่า ยังมีสิทธิ์เข้าถึงคิวเพื่อประมวลผลแบบแบตที่รวดเร็ว เหมาะสำหรับผลิตหนังสือเสียง เนื้อหาของหลักสูตร และโปรเจคเสียงขนาดใหญ่
4.1/5 (42)

เราจะปรับปรุงอะไรได้บ้าง ความคิดเห็นของคุณช่วยเราแก้ไขปัญหา

เริ่มใช้ AI Voice วันนี้

ร่วมมือกับผู้สร้าง ผู้พัฒนา และธุรกิจที่ใช้ TTS.ai