AI ฟรี ข้อความเป็นเสียงName

20+ แบบจำลองโอเพนซอร์ส 107+ เสียง 32+ ไม่จำเป็นต้องมีบัญชี

1K+
ผู้สร้าง
2K+
รุ่น
20+
โมเดล AI
107+
เสียง
0/500 ตัวอักษร ว่าง
เหมือน TTS.ai บอกเพื่อนของคุณ

ทุกอย่างที่คุณต้องการสำหรับ AI เสียง

เครื่องมือมากกว่า 30 เครื่องที่ใช้โมเดล AI แบบโอเพนซอร์ส

20+ โมเดลเสียงของ AI

ตัวอย่าง TTS แบบโอเพนซอร์สที่ครอบคลุมที่สุดในแพลตฟอร์มเดียว

KokoroKokoro Free

Kokoro เป็นโมเดลการแปลงข้อความเป็นเสียงที่มีพารามิเตอร์ 82 ล้านตัว ซึ่งสามารถทำได้ดีกว่ารุ่นอื่นๆ มากมาย แม้จะมีขนาดเล็ก แต่ก็สามารถผลิตเสียงที่ดูเป็นธรรมชาติและแสดงออกได้ Kokoro รองรับหลายภาษา เช่น ภาษาอังกฤษ ญี่ปุ่น จีน และเกาหลี โดยมีเสียงแสดงออกหลากหลาย มันทำงานได้เร็วมาก — สร้างเสียงได้เร็วกว่าเวลาจริงบน GPU เกือบ 100 เท่า

เหมาะสำหรับ: เสียง TTS ที่มีคุณภาพสูง ด้วยความล่าช้าน้อยที่สุด, โปรแกรมสตรีม

ลองใช้ฟรี

PiperPiper Free

Piper เป็นเครื่องมือแปลงข้อความเป็นเสียงที่ใช้พลังงานน้อย ถูกพัฒนาโดย Rhasspy โดยใช้สถาปัตยกรรม VITS และ larynx มันทำงานบน CPU ทั้งหมด ทำให้เหมาะสมกับอุปกรณ์ Edge, ระบบอัตโนมัติในบ้าน และแอพพลิเคชันที่ต้องการ TTS แบบออฟไลน์ ด้วยเสียงมากกว่า 100 เสียงใน 30+ ภาษา Piper สามารถแปลงข้อความเป็นเสียงได้ตามธรรมชาติ ด้วยความเร็วที่แท้จริง แม้แต่บน Raspberry Pi 4

เหมาะสำหรับ: แสดงตัวอย่างเร็ว, ความสามารถในการเข้าถึง, และโปรแกรมที่ฝังไว้

ลองใช้ฟรี

VITSVITS Free

VITS (Variation Inference with adversarial learning for end- to- end Text- to- Speech) เป็นวิธีการ TTS แบบคู่ขนานที่สร้างเสียงที่ฟังดูเป็นธรรมชาติมากขึ้น กว่าแบบจำลองสองขั้นตอนปัจจุบัน มันใช้การสรุปแบบแปรผันที่เพิ่มด้วยการปรับให้เป็นปกติและกระบวนการฝึกฝนแบบคู่แข่งกัน เพื่อให้ได้ความเป็นธรรมชาติที่ดีขึ้นอย่างมีนัยสำคัญ

เหมาะสำหรับ: ข้อความ- ไป- เสียงสำหรับใช้ทั่วไปพร้อมกับการแปลภาษาตามธรรมชาติName

ลองใช้ฟรี

MeloTTSMeloTTS Free

MeloTTS โดย MyShell. ai เป็นไลบรารี TTS หลายภาษาที่รองรับภาษาอังกฤษ (อเมริกัน, อังกฤษ, อินเดีย, ออสเตรเลีย), สเปน, ฝรั่งเศส, จีน, ญี่ปุ่น และเกาหลี มันทำงานได้เร็วมาก ประมวลผลข้อความได้เกือบจะเร็วเท่ากับเวลาจริงบน CPU เพียงตัวเดียว MeloTTS ถูกออกแบบมาเพื่อการใช้งานในโรงงาน และรองรับการประมวลผลทั้ง CPU และ GPU

เหมาะสำหรับ: แอพพลิเคชันการผลิตที่ต้องการ TTS หลายภาษาอย่างรวดเร็ว

ลองใช้ฟรี

BarkBark Standard

แบบจำลองข้อความ-เป็น-เสียงที่ใช้เทรนเนอร์ ที่จะสร้างเสียงพูด เสียงดนตรี และเสียงเอฟเฟกต์ที่แท้จริง

ผู้พัฒนา: Suno · ใบอนุญาต: MIT

ลองดูสิ

Bark SmallBark Small Standard

เวอร์ชั่นเบาของ Bark ที่มีการสรุปเร็วขึ้นและใช้หน่วยความจำน้อยลง

ผู้พัฒนา: Suno · ใบอนุญาต: MIT

ลองดูสิ

CosyVoice 2CosyVoice 2 Standard

ระบบสตรีมเสียงอัลลิบาบา ที่มีคุณภาพเหมือนมนุษย์ และความล่าช้าเกือบศูนย์

ผู้พัฒนา: Alibaba (Tongyi Lab) · ใบอนุญาต: Apache 2.0

ลองดูสิ

Dia TTSDia TTS Standard

โมเดลการสร้างการสนทนาของผู้พูดหลายคนที่สร้างการสนทนาตามธรรมชาติระหว่างผู้พูด

ผู้พัฒนา: Nari Labs · ใบอนุญาต: Apache 2.0

ลองดูสิ

Parler TTSParler TTS Standard

อธิบายเสียงที่คุณต้องการในภาษาธรรมชาติและ Parler จะสร้างการพูดที่ตรงกัน

ผู้พัฒนา: Hugging Face · ใบอนุญาต: Apache 2.0

ลองดูสิ

GLM-TTSGLM-TTS Standard

ทำให้อัตราความผิดพลาดของตัวอักษรต่ำที่สุดในหมู่โมเดล TTS แบบโอเพนซอร์ส

ผู้พัฒนา: Zhipu AI · ใบอนุญาต: GLM-4 License

ลองดูสิ

IndexTTS-2IndexTTS-2 Standard

เสียงที่ไม่ถูกตัดต่อด้วยการควบคุมอารมณ์ที่ละเอียดอ่อน และความสามารถในการแสดงออกที่สูง

ผู้พัฒนา: Index Team · ใบอนุญาต: Bilibili Model License

ลองดูสิ

Spark TTSSpark TTS Standard

โคลนเสียง TTS ด้วยอารมณ์ควบคุมได้ และสไตล์การพูดผ่านคำสั่ง

ผู้พัฒนา: SparkAudio · ใบอนุญาต: CC BY-NC-SA 4.0

ลองดูสิ

GPT-SoVITSGPT-SoVITS Standard

เสียงที่ถูกโคลนจาก TTS ที่ทำซ้ำเสียงใดๆ จากแค่5วินาทีของเสียง

ผู้พัฒนา: RVC-Boss · ใบอนุญาต: MIT

ลองดูสิ

OrpheusOrpheus Standard

แบบจำลอง TTS อารมณ์ระดับมนุษย์ ฝึกจากข้อมูลการพูด 100,000 ชั่วโมง

ผู้พัฒนา: Canopy Labs · ใบอนุญาต: Llama 3.2 Community

ลองดูสิ

Qwen3 TTSQwen3 TTS Standard

เสียงหลายภาษาของ Alibaba ด้วยการโคลนเสียง เสียงที่ตั้งไว้ล่วงหน้า และออกแบบเสียงจากข้อความ

ผู้พัฒนา: Alibaba (Qwen) · ใบอนุญาต: Apache 2.0

ลองดูสิ

ChatterboxChatterbox Premium

เสียงโคลนแบบศูนย์ ด้วยการควบคุมอารมณ์ จาก Resemble AI

คุณภาพ:

ลองดูสิ

Tortoise TTSTortoise TTS Premium

เสียงหลายเสียง ข้อความ-เป็น-คำพูด มุ่งเน้นไปที่คุณภาพ ด้วยสถาปัตยกรรมอัตโนมัติ

คุณภาพ:

ลองดูสิ

StyleTTS 2StyleTTS 2 Premium

ระดับมนุษย์ ข้อความ-เป็น-คำพูด ผ่านการกระจายสไตล์ และฝึกฝนต่อสู้

คุณภาพ:

ลองดูสิ

OpenVoiceOpenVoice Premium

โคลนเสียงในทันที ด้วยการควบคุมสไตล์ อารมณ์ และสำเนียง

คุณภาพ:

ลองดูสิ

Sesame CSMSesame CSM Premium

โมเดลการพูดแบบสนทนา สร้างการสนทนาตามธรรมชาติ ด้วยเวลาที่เหมาะสมและอารมณ์

คุณภาพ:

ลองดูสิ

CosyVoice 2CosyVoice 2

ระบบสตรีมเสียงอัลลิบาบา ที่มีคุณภาพเหมือนมนุษย์ และความล่าช้าเกือบศูนย์

ภาษา: en, zh, ja, ko, fr, de, it, es

เสียงคลอน

GLM-TTSGLM-TTS

ทำให้อัตราความผิดพลาดของตัวอักษรต่ำที่สุดในหมู่โมเดล TTS แบบโอเพนซอร์ส

ภาษา: en, zh

เสียงคลอน

IndexTTS-2IndexTTS-2

เสียงที่ไม่ถูกตัดต่อด้วยการควบคุมอารมณ์ที่ละเอียดอ่อน และความสามารถในการแสดงออกที่สูง

ภาษา: en, zh

เสียงคลอน

Spark TTSSpark TTS

โคลนเสียง TTS ด้วยอารมณ์ควบคุมได้ และสไตล์การพูดผ่านคำสั่ง

ภาษา: en, zh

เสียงคลอน

GPT-SoVITSGPT-SoVITS

เสียงที่ถูกโคลนจาก TTS ที่ทำซ้ำเสียงใดๆ จากแค่5วินาทีของเสียง

ภาษา: en, zh, ja, ko

เสียงคลอน

ChatterboxChatterbox

เสียงโคลนแบบศูนย์ ด้วยการควบคุมอารมณ์ จาก Resemble AI

ภาษา: en

เสียงคลอน

Tortoise TTSTortoise TTS

เสียงหลายเสียง ข้อความ-เป็น-คำพูด มุ่งเน้นไปที่คุณภาพ ด้วยสถาปัตยกรรมอัตโนมัติ

ภาษา: en

เสียงคลอน

OpenVoiceOpenVoice

โคลนเสียงในทันที ด้วยการควบคุมสไตล์ อารมณ์ และสำเนียง

ภาษา: en, zh, ja, ko, fr, de, es, it

เสียงคลอน

Qwen3 TTSQwen3 TTS

เสียงหลายภาษาของ Alibaba ด้วยการโคลนเสียง เสียงที่ตั้งไว้ล่วงหน้า และออกแบบเสียงจากข้อความ

ภาษา: en, zh, ja, ko, de, fr, ru, pt, es, it

เสียงคลอน

API สำหรับผู้พัฒนา

REST API ที่เข้ากันได้กับ OpenAI จุดสิ้นสุดหนึ่ง โมเดลมากกว่า 22 ตัว สนับสนุนการสตรีมสำหรับแอพพลิเคชันในเวลาจริง

  • รูปแบบที่รองรับ OpenAI
  • การสตรีม TTS สำหรับแอปพลิเคชันเวลาจริง
  • ประมวลผลเป็นกลุ่มสำหรับงานขนาดใหญ่
  • การแจ้งให้ทราบของ Webhook
แสดงเอกสาร API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

เรียบง่าย, โปร่งใส

เริ่มต้นฟรี ปรับขนาดตามที่คุณเติบโต

ว่าง

$0

15 เครดิต

  • Kokoro, Piper, VITS, MeloTTS
  • จำกัดตัวอักษร 500 ตัว
  • 3 เจเนอเรชัน/ ชั่วโมง (ไม่มีบัญชี)
ลงทะเบียน

เริ่ม

$9/ชั่วโมง

500 เครดิต/เดือน

  • ทั้งหมด 22+ โมเดล
  • 100,000 chars per generation
  • การคัดลอกเสียง
เริ่มต้น
ยอดนิยมที่สุด

โปร

$29/ชั่วโมง

2,000 เครดิต/เดือน

  • ทุกอย่างใน Starter
  • การเข้าถึง API
  • การประมวลผลความสำคัญ
โปร

ธุรกิจ

$99/ชั่วโมง

10,000 เครดิต/เดือน

  • ทุกอย่างในโปร
  • บล๊อก API
  • คิวที่ให้ความสำคัญ
เอาธุรกิจมา

แสดงแผนทั้งหมด รวมถึงแพ็คตัวละคร →

คำถามที่ถามบ่อย

TTS.ai เป็นแพลตฟอร์มเสียง AI ที่ครอบคลุมที่สุด เสนอโมเดลการแปลงข้อความเป็นเสียง 22+ ตัวอย่างการแปลงเสียง, การแปลงเสียงเป็นข้อความ, และเครื่องมือเสียง ทุกตัวอย่างเป็นโอเพนซอร์ส โดยไม่มีการล็อคผู้ผลิต

ใช่! TTS.ai ให้บริการฟรี ข้อความเป็นเสียง กับ Kokoro, Piper, VITS และ MeloTTS ไม่มีบัญชี ลงทะเบียนเพื่อรับ 15,000 ตัวอักษรฟรี และเข้าถึงทุกตัวอย่าง แพ็คเกจที่จ่ายเริ่มต้นที่ $9/เดือน

สำหรับความเร็ว ใช้ Kokoro หรือ Piper สำหรับคุณภาพ ลองใช้ CosyVoice 2หรือ StyleTTS 2 สำหรับคลอนเสียง ใช้ Chatterbox หรือ GPT- SoVITS สำหรับโต้ตอบ ใช้ Dia TTS ลองใช้หลายแบบบนข้อความเดียวกันเพื่อเปรียบเทียบ

ใช่ REST API ที่เข้ากันได้กับ OpenAI สำหรับ TTS, STT, โคลนเสียง, และเครื่องมือเสียง มีให้บริการบนแพ็คเกจ Pro ($29/month) และ Enterprise ($99/month) ดูเอกสารที่ tts.ai/api/

คุณภาพเสียงแตกต่างกันไปตามรุ่น รุ่นพิเศษ เช่น CosyVoice 2, StyleTTS 2, และ Chatterbox ผลิตเสียงที่มีคุณภาพใกล้เคียงกับเสียงของมนุษย์ ด้วยระดับเสียงและอารมณ์ตามธรรมชาติ รุ่นฟรี เช่น Kokoro เสนอคุณภาพเสียงที่ยอดเยี่ยมสำหรับกรณีการใช้งานส่วนใหญ่

TTS.ai รองรับภาษามากกว่า 30 ภาษาในไลบรารีโมเดลของมัน ภาษาอังกฤษมีโมเดลที่รองรับมากที่สุด แต่โมเดลเช่น CosyVoice 2 รองรับภาษาจีน ญี่ปุ่น และเกาหลี GPT-SoVITS รองรับภาษาจีน ญี่ปุ่น เกาหลี และอังกฤษ และ MeloTTS รองรับภาษาอังกฤษ สเปน ฝรั่งเศส จีน ญี่ปุ่น และเกาหลี

ใช่ ทุกอย่างที่ทำการประมวลผลจะเกิดขึ้นบนเซิร์ฟเวอร์ GPU ของเรา เราจะไม่เก็บข้อมูลการเข้ารหัสหรือเสียงที่สร้างขึ้นหลังจากส่งออก ตัวอย่างเสียงที่อัพโหลดเพื่อโคลนจะถูกใช้เฉพาะในวาระการทำงานปัจจุบันเท่านั้น และจะไม่ถูกเก็บไว้ เราจะไม่เคยแบ่งปันข้อมูลของคุณกับบุคคลที่สาม หรือใช้มันเพื่อฝึกโมเดล

ใช่ เสียงทั้งหมดที่สร้างขึ้นบน TTS.ai สามารถใช้ในเชิงพาณิชย์ได้ เช่น วิดีโอ YouTube, พอดคาสต์, หนังสือเสียง, แอพพลิเคชั่น, โฆษณา และผลิตภัณฑ์ โมเดลของเราเป็นโอเพนซอร์สภายใต้ใบอนุญาตที่อนุญาต (MIT, Apache 2.0) ไม่มีค่าลิขสิทธิ์หรือการระบุผู้สร้าง

TTS.ai สร้างเสียงในรูปแบบ WAV โดยปริยายเพื่อคุณภาพสูงสุด คุณสามารถแปลงเป็น MP3, FLAC, OGG หรือ M4A โดยใช้เครื่องมือแปลงเสียงฟรีของเรา API สนับสนุนการกำหนดรูปแบบผลลัพธ์ที่คุณต้องการโดยตรงในคำร้องขอ

โหลดตัวอย่างเสียงสั้น ๆ (น้อยกว่า5วินาที) ของเสียงที่คุณต้องการโคลน จากนั้นพิมพ์ข้อความเพื่อสร้างเสียงนั้น โมเดลเช่น Chatterbox, GPT- SoVITS และ CosyVoice2รองรับการโคลนเสียง เสียงที่โคลนมาจะบันทึกระดับเสียง สำเนียง และสไตล์การพูด

แบบฟอร์มฟรี (Kokoro, Piper, VITS, MeloTTS) ไม่ต้องใช้บัญชีและใช้ค่าตัวอักษรเป็นศูนย์ แบบฟอร์มมาตรฐาน (2,000 ตัวอักษร/ 1K ข้อมูลเข้า) ประกอบด้วย Bark, CosyVoice 2, F5-TTS, และ Dia แบบฟอร์มพิเศษ (4,000 ตัวอักษร/ 1K ข้อมูลเข้า) ประกอบด้วย OpenVoice, Chatterbox, StyleTTS 2, และ Tortoise แบบฟอร์มที่มีค่าใช้จ่ายโดยทั่วไปจะให้คุณภาพสูงขึ้น เสียงมากขึ้น และคุณสมบัติเพิ่มเติม เช่น การคอลลินเสียง

ใช่ API สนับสนุนการประมวลผลแบบบั๊กสำหรับแปลงข้อความเป็นเสียงจำนวนมาก ส่งคำร้องขอหลายครั้ง และรับผลลัพธ์แบบไม่สม่ำเสมอ โดยใช้ UUID ของงาน แพ็คเกจ Enterprise ($99/ เดือน) ประกอบด้วยการเข้าถึงคิวเพื่อประมวลผลแบบบั๊กที่รวดเร็วขึ้น เหมาะสำหรับการผลิตหนังสือเสียง เนื้อหาวิชา และโปรเจกต์เสียงขนาดใหญ่
4.0/5 (8)

เริ่มใช้ AI Voice วันนี้

ร่วมมือกับผู้สร้าง ผู้พัฒนา และธุรกิจที่ใช้ TTS.ai