โมเดลการแปลงข้อความเป็นเสียงแบบโอเพนซอร์สName

ทุกๆ โมเดล TTS ในแพลตฟอร์มของเราเป็นโอเพนซอร์สที่มีใบอนุญาตที่เหมาะสมกับการค้า MIT, Apache 2.0 — ไม่มีการล็อคในสิทธิ์เฉพาะ, ไม่มีข้อจำกัดในการใช้, ไม่มีค่าใช้จ่ายในการอนุญาตที่แปลกใจ ใช้มันผ่าน API ที่เราโฮสต์ไว้ หรือโฮสต์มันบนโครงสร้างพื้นฐานของคุณเองด้วยการควบคุมอย่างเต็มที่

โอเพนซอร์ส ใบอนุญาต MIT แอปเปิ้ลComment สามารถจัดการเองได้ เก็ตฮับ

ลองดูสิ

ด้วยโคโคโร ไพเปอร์ วิทส เมโลTTS
เสียงที่สร้างขึ้นจะปรากฏที่นี่
สร้าง
ดาวน์โหลด
รัก TTS.ai บอกเพื่อนๆ

โอเพนซอร์ส TTS

ทำไมโมเดลโอเพนซอร์สถึงสำคัญสำหรับโปรเจกของคุณ

ใบอนุญาตโอเพนซอร์สทั้งหมด

ทุกโมเดลบน TTS.ai ใช้ใบอนุญาตโอเพนซอร์สที่เปิดเผย ไม่มีกล่องดำที่ถูกลิขสิทธิ์ ไม่มีการล็อคผู้ผลิต ไม่มีค่าใช้จ่ายในการอนุญาตที่ไม่คาดคิด

MIT / อพาเช 2.0

โมเดลได้รับการอนุญาตใบอนุญาตใต้ MIT หรือ Apache 2.0 ซึ่งเป็นใบอนุญาตโอเพนซอร์สที่เปิดกว้างที่สุด ใช้ในทางธุรกิจ ปรับปรุง จัดจำหน่ายต่อไป — ไม่มีข้อจำกัด

สามารถจัดการเองได้

ดาวน์โหลดแบบจำลองใดๆ และ ทำงานมันบนฮาร์ดแวร์ของคุณเอง ควบคุมข้อมูล ความล่าช้า และโครงสร้างพื้นฐานของคุณได้อย่างเต็มที่ ไม่จำเป็นต้องพึ่งพาคลาวด์

ปรับแต่ง GPU ให้ดีที่สุด

โมเดลถูกปรับให้เหมาะสมกับ GPU NVIDIA ที่มีการรองรับ CUDA Piper ทำงานบน CPU เท่านั้น โมเดลส่วนใหญ่ต้องการ VRAM 2-8GB เพื่อการสรุปข้อมูลอย่างมีประสิทธิภาพ

รักษาโดยชุมชน

ชุมชนโอเพนซอร์สที่ทำงานอยู่ รักษาและปรับปรุงโมเดลเหล่านี้ ขอต้อนรับการมีส่วนร่วม — ส่งบั๊ก, การปรับปรุง, และเสียงใหม่บน GitHub

ใช้เพื่อการค้าได้

โมเดลทั้งหมดอนุญาตให้ใช้ในเชิงพาณิชย์ภายใต้ใบอนุญาตของพวกเขา สร้างผลิตภัณฑ์ ขายบริการ และสร้างเนื้อหาเชิงพาณิชย์โดยไม่มีค่าลิขสิทธิ์หรือค่าใช้จ่าย

รายการโมเดลโอเพนซอร์สของเรา

ทุกคนมีใบอนุญาต และสิ่งที่พวกเขาทำได้ดีที่สุด

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

เหมาะสำหรับ: Apache 2.0 - โมเดลฟรีคุณภาพสูงสุด, พารามิเตอร์ 82M, ง่ายต่อการโฮสต์ด้วยตนเอง

ลองดูสิ Kokoro

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

เหมาะสำหรับ: MIT — CPU เท่านั้น เหมาะสำหรับอุปกรณ์ Edge และการจัดการตัวเองแบบฝังตัว

ลองดูสิ Piper

VITSVITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

เหมาะสำหรับ: เอ ็ มไอที — สถาปัตยกรรมพื ้ นฐาน ที ่ ใช ้ กับโมเดลต ่ อไปอีกหลายแบบ

ลองดูสิ VITS

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

เหมาะสำหรับ: MIT — ความสามารถในการสร้างเสียงที่ไม่เหมือนใครนอกเหนือจาก TTS มาตรฐาน

ลองดูสิ Bark

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 การคัดลอกเสียง

เหมาะสำหรับ: Apache 2.0— ความสามารถสูงสุด, ศึกษาอย่างกว้างขวางในการนำไปใช้

ลองดูสิ Tortoise TTS

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 การคัดลอกเสียง

เหมาะสำหรับ: MIT — โคลนเสียงแบบโอเพนซอร์ส ด้วยการควบคุมสไตล์ที่ละเอียดอ่อน

ลองดูสิ OpenVoice

ใช้ Open Source TTS อย่างไร

ใช้ API ที่เราโฮสต์ไว้ หรือ ทำโมเดลเอง

1

สำรวจโมเดลโอเพนซอร์ส

คลิกดูแคตาล๊อกของเราที่มีโมเดล TTS แบบโอเพนซอร์สมากกว่า 20 แบบ หน้าแบบแต่ละหน้าแสดงใบอนุญาต สถาปัตยกรรม ความสามารถ และข้อกำหนดการโฮสต์ตัวคุณเอง

2

ลองใช้ในเบราว์เซอร์ของคุณ

ทดสอบโมเดลใด ๆ โดยตรงบน TTS.ai โดยไม่ต้องติดตั้งอะไรเลย เซิร์ฟเวอร์ GPU ของเราจัดการการประมวลผลเพื่อให้คุณสามารถประเมินคุณภาพก่อนที่จะมอบหมายให้โฮสต์เอง

3

จัดโฮสต์เอง หรือใช้ API ของเรา

คลอนโมเดลจาก GitHub และทำงานในท้องถิ่น หรือใช้ API ที่เราโฮสต์ไว้สำหรับผลิต การโฮสต์เองให้การควบคุมเต็มที่; API ของเราให้การจัดการโครงสร้างพื้นฐาน

4

สร้างโปรแกรมของคุณName

เชื่อมต่อ TTS เข้ากับผลิตภัณฑ์ของคุณโดยใช้โมเดลที่โฮสต์เองหรือ REST API ของเรา โมเดลทั้งหมดสามารถใช้ในเชิงพาณิชย์ได้โดยไม่ต้องเสียค่าลิขสิทธิ์หรือค่าลิขสิทธิ์

การเปรียบเทียบใบอนุญาต

ทุกรุ่นบน TTS.ai ใช้ใบอนุญาตโอเพนซอร์สที่เหมาะสมกับการค้า

โมเดล ใบอนุญาต ใช้ในเชิงพาณิชย์ แก้ไข เครื่องตัวมันเอง สิทธิ์
Kokoro Apache 2.0 จำเป็น
Piper MIT ตัวเลือก
VITS MIT ตัวเลือก
MeloTTS MIT ตัวเลือก
Chatterbox MIT ตัวเลือก
Tortoise TTS Apache 2.0 จำเป็น
StyleTTS 2 MIT ตัวเลือก
OpenVoice MIT ตัวเลือก
Sesame CSM Apache 2.0 จำเป็น
Orpheus Llama 3.2 "Built with Llama"

ตัวจัดการเอง vs ตัวจัดการ API

จัดการแบบจำลองเอง หรือให้เราจัดการโครงสร้างพื้นฐาน

ใช้ฮาร์ดแวร์ของคุณเอง

ทุกๆ โมเดลบน TTS.ai มีให้ใช้เป็นโปรเจกต์โอเพนซอร์สบน GitHub หรือ Hugging Face ดาวน์โหลดน้ำหนัก, ติดตั้งความขึ้นอยู่กับ, และทำงานการสรุปบน GPU ของตัวเอง คุณสามารถควบคุมความล่าช้า, ความเป็นส่วนตัว, และการปรับขนาดได้เต็มที่

  • ความเป็นส่วนตัวของข้อมูลเต็มที่ - เสียงจะไม่เคยออกจากเซิร์ฟเวอร์ของคุณ
  • ไม่มีค่าใช้จ่ายต่อการร้องขอหลังจากการตั้งค่าครั้งแรก
  • ปรับแต่งข้อมูลของคุณเอง
  • ต้องการฮาร์ดแวร์ GPU (แนะนำ NVIDIA)
  • คุณจัดการการอัปเดต การปรับขนาด และความขึ้นอยู่

ใช้ API ที่โฮสต์ไว้สำหรับ TTS.ai

เข้าถึงได้ทันทีถึง 20+ โมเดล ผ่าน REST API เดียว เราจัดการการจัดสรร GPU, ปรับปรุงโมเดล, จัดการคิว และปรับขนาด กุญแจ API เดียว ทำให้คุณสามารถเข้าถึงทุกโมเดลได้ — ไม่จำเป็นต้องจัดการการจัดสรรแยกกัน

  • ไม่ต้องใช้ฮาร์ดแวร์ GPU
  • ทุกรุ่น 20+ ผ่าน API เดียว
  • ปรับปรุงและปรับปรุงแบบจำลองอัตโนมัติ
  • 99.9% ใช้งานได้ตลอดเวลา ด้วยโครงสร้างพื้นฐานที่เหลืออยู่
  • จ่ายตามที่ใช้เท่านั้น

เริ่มเร็ว: API หรือ Self- Host

ใช้ API ที่เราโฮสต์ไว้ หรือติดตั้ง Kokoro ภายในระบบภายในไม่กี่นาที

ตัวเลือกที่ 1: TTS.ai เจ้าของ API ง่ายที่สุด
import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)
ตัวเลือกที่2: ใช้ตัวเครื่องเองด้วย pip ควบคุมเต็มที่
# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

โอเพนซอร์ส, ราคาถูก

ระบบ API ของเราทำให้ TTS แบบโอเพนซอร์ส เข้าถึงได้โดยไม่ต้องจัดการ GPU

ระดับเสรี

$0

15 เครดิตเมื่อสมัคร

  • 4 แบบจำลองโอเพนซอร์สฟรี
  • ไม่มีการลงทะเบียนสำหรับการใช้พื้นฐาน
  • อนุญาตให้ใช้เชิงพาณิชย์

เริ่ม

$9

500,000 ตัวอักษร/ เดือน

  • แบบจำลองโอเพนซอร์สทั้งหมด 20+
  • เสียง
  • เข้าถึง API

โปร

$29

2,000,000 ตัวอักษร/ เดือน

  • ความเร็วในการประมวลผลของ GPU
  • ทุกรุ่น
  • รองรับเอ็นเตอร์ไพรส์
แสดงราคาเต็ม

คำถามที่ถามบ่อย

คำถามที่พบบ่อยเกี่ยวกับโอเพนซอร์สการแปลงข้อความเป็นเสียง

ใช่ ทุกรุ่นบน TTS.ai ใช้ใบอนุญาตโอเพนซอร์สที่อนุญาตให้ใช้ — MIT หรือ Apache 2.0 เรายกเว้นรุ่นที่มีใบอนุญาตจำกัด (เช่น CPML ของ Coqui หรือ CC-BY-NC แบบไม่พาณิชย์) คุณสามารถตรวจสอบใบอนุญาตของแต่ละรุ่นได้ที่ GitHub repository

ทั้งสองใบอนุญาตเป็นโอเพนซอร์สที่อนุญาตให้ใช้ในเชิงพาณิชย์ ปรับปรุง และจัดจำหน่ายต่อไป Apache 2.0เพิ่มการอนุญาตสิทธิบัตรโดยชัดแจ้ง และจำเป็นต้องระบุการเปลี่ยนแปลงหากคุณปรับปรุงโค้ด MIT นั้นง่ายกว่าด้วยข้อกำหนดที่น้อยกว่า ทั้งสองใบอนุญาตเป็นมิตรกับธุรกิจ

ใช่ ทุกโมเดลสามารถโฮสต์ตัวเองได้ คอลอนโมเดลจาก GitHub, ติดตั้งความขึ้นอยู่, ดาวน์โหลดน้ำหนักโมเดล, และทำงานการสรุป เราให้เอกสารสำหรับความต้องการโฮสต์ตัวละครของแต่ละโมเดล รวมถึง GPU, RAM, และรุ่นของ Python

ความจำเป็นแตกต่างกันไปตามรุ่น Piper ไม่ต้องการ GPU (CPU เท่านั้น) Kokoro และ MeloTTS ต้องการ 1-2GB VRAM รุ่นมาตรฐานส่วนใหญ่ต้องการ 4GB VRAM Tortoise และ Sesame CSM ต้องการ 8GB NVIDIA RTX 3060 (12GB) สามารถทำงานได้ดีกับรุ่นส่วนใหญ่

ใช่ ใบอนุญาตโอเพนซอร์สอนุญาตให้มีการปรับแต่ง รวมถึงการปรับแต่งรายละเอียด โมเดลเช่น GPT- SoVITS และ Bark ให้สคริปต์ปรับแต่งรายละเอียด คุณสามารถฝึกโมเดลบนข้อมูลเสียงของคุณเอง เพื่อสร้างเสียงที่กำหนดเอง หรือปรับปรุงประสิทธิภาพสำหรับภาษาที่กำหนดไว้

โมเดลโอเพนซอร์สชั้นนำ (Kokoro, StyleTTS 2, Chatterbox) ปัจจุบันเทียบเท่าหรือเกินกว่าบริการทางการค้าเช่น ElevenLabs และ Google TTS ในมาตรฐานคุณภาพ ข้อได้เปรียบหลักของบริการทางการค้าคือการจัดการโครงสร้างพื้นฐานและสนับสนุน ไม่ใช่คุณภาพเสียง

เราได้ยกเลิกมันไปแล้ว XTTS/XTTS-v2 (Coqui's CPML - ไม่ใช่เพื่อการค้า), F5-TTS (CC-BY-NC - ไม่ใช่เพื่อการค้า), และ Higgs-v2 (Boson License - จำกัด) ถูกลบออกทั้งหมด ทุกโมเดลบน TTS.ai ได้รับการตรวจสอบว่าปลอดภัยสำหรับการใช้ในทางธุรกิจ

ใช่ โมเดลส่วนใหญ่ยอมรับการร่วมมือจากชุมชนผ่าน GitHub คุณสามารถส่งรายงานบั๊ก, บันทึกเสียงสำหรับภาษาใหม่, ปรับปรุงโค้ด, และเอกสาร ตรวจสอบที่เก็บข้อมูล GitHub ของแต่ละโมเดลเพื่อดูกฎข้อบังคับการร่วมมือและปัญหาที่กำลังเกิดขึ้น

โหลดโมเดลตามความต้องการและยกเลิกการโหลดเมื่อไม่มีการใช้งานเพื่อแบ่งปันหน่วยความจำของ GPU เซิร์ฟเวอร์ GPU ของเราทำงานบนโมเดล 20+ บนเทสลา P40 ขนาด4เท่า (VRAM ทั้งหมด 96GB) โดยใช้การโหลดแบบพลิกผัน สำหรับโฮสต์ตัวเดียว 24GB GPU สามารถให้บริการโมเดล 3-5 แบบพร้อมกันได้

โมเดลหลายรุ่นให้อิมเมจ Docker หรือแฟ้ม Dockerfiles อย่างเป็นทางการ สำหรับใช้งานหลายโมเดล คุณสามารถสร้างการตั้งค่า Docker ตามความต้องการด้วย NVIDIA Container Toolkit เพื่อเข้าถึง GPU ได้ สถาปัตยกรรมเซิร์ฟเวอร์ API ของเราสามารถใช้เป็นตัวอย่างการใช้งานได้

รุ่นส่วนใหญ่ต้องการไพทอน 3.10-3.12 Coqui TTS (VITS) จำเป็นต้องใช้ไพทอน 3.11 สำหรับรุ่นส่วนใหญ่ เราแนะนำให้ใช้ไพทอน 3.12 ตรวจสอบในไฟล์ requirements.txt ของแต่ละรุ่นเพื่อดูว่ารุ่นไหนเหมาะสมกับเครื่องของคุณ

ใช่ ใบอนุญาต MIT และ Apache 2.0 อนุญาตให้ใช้ในเชิงพาณิชย์ได้โดยชัดเจน คุณสามารถสร้างผลิตภัณฑ์ SaaS, แอพพลิเคชั่นมือถือ, เกม และบริการโดยใช้โมเดลเหล่านี้ โดยไม่ต้องเสียค่าใบอนุญาต, ค่าลิขสิทธิ์ หรือข้อกำหนดการระบุผู้สร้าง (แม้ว่าการระบุผู้สร้างจะได้รับการยอมรับ)
5.0/5 (1)

เราจะปรับปรุงอะไรได้บ้าง ความคิดเห็นของคุณช่วยเราแก้ไขปัญหา

ลองใช้ Open Source TTS วันนี้

แบบจำลองโอเพนซอร์ส 20+ ทั้งหมดมีใบอนุญาตเชิงพาณิชย์ ใช้ API หรือโฮสต์เอง — เลือกได้เอง