ข้อความเป็นเสียง API สำหรับผู้พัฒนา

สร้างแอพพลิเคชันที่รองรับการพูดด้วย REST API ของเรา เพิ่มการแปลงข้อความเป็นเสียงตามธรรมชาติ, การคอลลินเสียง, การแปลงเสียงเป็นข้อความ, และการประมวลผลเสียงไปยังแอพพลิเคชันของคุณ, เครื่องสนทนา, ผู้ช่วยเสียง, และผลิตภัณฑ์ SaaS รูปแบบที่เข้ากันได้กับ OpenAI, โมเดล 20+ และการรวมเข้าด้วยกันที่ง่าย

REST API เครื่องมือสนทนาName โปรแกรมเสียงName ผลิตภัณฑ์ SaaS ปรับแต่งอัตโนมัติ

ลองดูสิ

ด้วยโคโคโร ไพเปอร์ วิทส เมโลTTS
เสียงที่สร้างขึ้นจะปรากฏที่นี่
สร้าง
ดาวน์โหลด
รัก TTS.ai บอกเพื่อนๆ

ตัวช่วย API สำหรับผู้พัฒนา

ทุกอย่างที่คุณต้องการเพื่อสร้างแอพพลิเคชันที่รองรับการสื่อสารด้วยเสียง

REST API ง่ายๆName

การร้องขอ POST ครั้งเดียวเพื่อสร้างการพูด การร้องขอ JSON การตอบสนองเสียง ทำงานกับภาษาโปรแกรมใด ๆ ที่รองรับ HTTP

เข้ากันได้กับ OpenAI

ตัวแทนสำหรับ OpenAI TTS API เปลี่ยน base_ url และกุญแจ API ของคุณ - โค้ดที่มีอยู่จะทำงานทันที

มีตัวอย่างมากกว่า 24 ตัว

เข้าถึงทุกโมเดลผ่าน API เดียว สลับโมเดลโดยการเปลี่ยนพารามิเตอร์ 1 ตัว เปรียบเทียบคุณภาพ ความเร็ว และราคา

ความล่าช้าของตัวเลขสองตัว

Kokoro สร้างเสียงในเวลาไม่ถึง 1 วินาที เหมาะสำหรับช็อตบ็อทแบบเรียลไทม์ ช่วยเหลือเสียง และแอพพลิเคชั่นแบบโต้ตอบ

ตัวกรองเสียง

สร้างเสียงใดๆ จากตัวอย่างเสียงสั้นๆ ผ่าน API ใช้เสียงที่สร้างมาแล้วสำหรับรุ่นต่อไป

รูปแบบหลายรูปแบบ

ออกแบบเป็น WAV, MP3, OGG หรือ FLAC เลือกอัตราตัวอย่างและความลึกของบิต รองรับการสตรีมเสียงสำหรับแอพพลิเคชันแบบ real- time

โมเดลที่ดีที่สุดสำหรับผู้พัฒนาที่รวมเข้าด้วยกัน

เลือกโมเดลที่เหมาะสมกับความเร็ว คุณภาพ และค่าใช้จ่ายของโปรแกรมของคุณ

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

เหมาะสำหรับ: โมเดลที่เร็วที่สุด - ความล่าช้าในระดับเซลล์วินาที เหมาะสำหรับแอพพลิเคชันและชัตเตอร์บ็อตที่ใช้เวลาจริง

ลองดูสิ Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 การคัดลอกเสียง

เหมาะสำหรับ: กระจายเสียง TTS ด้วยการคอลลินเสียงสำหรับแอพพลิเคชันผู้ช่วยเสียง

ลองดูสิ CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

เหมาะสำหรับ: เอไอในการสนทนาด้วยการกำหนดเวลาตามธรรมชาติสำหรับช็อตบ็อทและเสียงผู้ช่วย

ลองดูสิ Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

เหมาะสำหรับ: โมเดล CPU-only ฟรีสำหรับแอพพลิเคชันที่มีปริมาณสูง โดยไม่มีค่าใช้จ่ายในการจัดเก็บข้อมูล

ลองดูสิ Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

เหมาะสำหรับ: สร้างเสียงด้วยเอฟเฟกต์เสียงสำหรับแอพพลิเคชันสร้างสรรค์และบันเทิง

ลองดูสิ Bark

วิธีการรวม API ของ TTS

ตั้งแต่ลงทะเบียนจนถึงการเรียก API ครั้งแรกในเวลาไม่ถึง5นาที

1

ดาวน์โหลดกุญแจ API ของคุณ

ลงทะเบียนฟรี และสร้างกุญแจ API จากแดชบอร์ดบัญชีของคุณ 15,000 ตัวอักษรรวมอยู่ใน

2

โทรครั้งแรกของคุณ

เขียนไปที่ /v1/tts ด้วยข้อความ โมเดล และเสียง เอาไบต์เสียงกลับมา ด้วยโค้ด5บรรทัด

3

เลือกรุ่นของคุณ

ทดสอบโมเดลต่างๆ สำหรับกรณีการใช้ของคุณ เปรียบเทียบความเร็ว คุณภาพ และราคาต่อรุ่น

4

ส่งไปยังการผลิต

ปรับขนาดด้วยตัวอักษรจ่ายตามที่คุณใช้ ไม่มีค่าจำกัดอัตราต่อแพ็คเกจที่จ่าย ติดตามการใช้ในแดชบอร์ดของคุณ

ตัวอย่างโค้ดเริ่มต้นเร็ว

เชื่อมต่อ TTS.ai ในภาษาใด ๆ ด้วย REST API ของเรา

Python ยอดนิยม
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL ทั่วไป
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
รูปแบบที่เข้ากันได้กับ OpenAI เข้าไปได้
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

สิ่งที่ผู้พัฒนาสร้างด้วย TTS.ai

รูปแบบการรวมตัวและโปรแกรมที่ใช้กันทั่วไป

เครื่องมือและผู้ช่วย AI Chatbots

เพิ่มการออกเสียงไปยังหุ่นคุยหรือผู้ช่วย AI ของคุณ นำการตอบสนอง LLM ผ่าน TTS สำหรับอินเทอร์เฟซที่รองรับเสียง Kokoro จัดส่งการช้าลงในระดับหนึ่งวินาทีสำหรับการสนทนาในเวลาจริง Sesame CSM สร้างการพูดคุยด้วยการจับเวลาตามธรรมชาติ

  • การตอบสนอง LLM ต่อท่อเสียง
  • ความล่าช้าของโคโคโร
  • พูดคุยกับ Sesame CSM
  • ข้อมูลออกมาเป็นสัญญาณเสียง

โปรแกรมโทรศัพท์มือถือและเสียงName

สร้างแอพพลิเคชันมือถือที่รองรับเสียง เครื่องมือช่วยเหลือผู้พิการ แอพพลิเคชันอ่านหนังสือ และแพลตฟอร์มการเรียนรู้ภาษา REST API ของเราทำงานกับเฟรมเวิร์กมือถือใดๆ ดาวน์โหลดแฟ้มเสียง หรือสตรีมโดยตรงไปยังคลาวด์

  • รีแอคท เนทีฟ, ฟลูเตอร์, สวิฟท์, โคทลิน
  • โปรแกรมอ้างอิงและอ่าน
  • ระบบการเรียนรู้ภาษา
  • สร้างเนื้อหาเสียง

ผลิตภัณฑ์ SaaS

เพิ่ม TTS, STT, การคลอนเสียง, และการประมวลผลเสียงเป็นฟังก์ชันในแพลตฟอร์มของคุณ ใช้ API ของเราเป็นแบ็คเอนด์เสียงของคุณโดยไม่ต้องจัดการโครงสร้างพื้นฐานของ GPU

  • ตัวเลือกเสียงแบบ White- label
  • ไม่ต้องใช้โครงสร้างพื้นฐานของ GPU
  • ค่าใช้จ่ายต่อการใช้งาน
  • 20+ แบบจำลองที่จะเสนอผู้ใช้ของคุณ

เส้นทางอัตโนมัติ

เชื่อมต่อการสร้างเสียงเข้ากับระบบท่อ CI/CD, การอัตโนมัติเนื้อหา, และกระบวนการประมวลผลแบตต์ สร้างแฟ้มเสียงเป็นพัน ๆ จากข้อมูลในสแปม, การผลิตพอดคาสต์อัตโนมัติ, หรือสร้างท่อการแปลเนื้อหาเป็นภาษาท้องถิ่น

  • ประมวลผลเป็นกลุ่มผ่าน API
  • เส้นทางสื่อการสื่อสารภายในประเทศ
  • การรวม CI/CD
  • ทำสแปมให้เป็นออโต้

ข้อมูลเฉพาะของ API

สร้างขึ้นเพื่อการผลิต

20+

โมเดล TTS

100+

เสียง

30+

ภาษา

<1s

ความล่าช้า (Kokoro)

คำถามที่ถามบ่อย

คำถามที่พบบ่อยเกี่ยวกับ API ของผู้พัฒนา TTS.ai

ใช่ API ของเราใช้รูปแบบเสียง OpenAI หากคุณกำลังใช้ไลบรารีไพธอนหรือจาวาสคริปต์ OpenAI คุณสามารถเปลี่ยนไปใช้ TTS.ai ได้ โดยเปลี่ยนพารามิเตอร์ base_ url และ api_ key โค้ดที่คุณมีอยู่แล้วจะทำงานโดยไม่ต้องปรับแต่ง

Kokoro สร้างเสียงในเวลาน้อยกว่า 1 วินาทีสำหรับประโยคทั่วไป CosyVoice 2 สนับสนุนการส่งออกแบบสตรีมเพื่อลดความล่าช้าในการรับรู้ สำหรับชัตเตอร์บ็อตและผู้ช่วยเสียง เวลาในการเดินทางทั้งสองทางโดยทั่วไปจะอยู่ที่ 1-3วินาทีขึ้นอยู่กับความยาวของข้อความและตัวเลือกโมเดล

แบบฟอร์มฟรี (Kokoro, Piper, VITS, MeloTTS) นั้นฟรีโดยสิ้นเชิง แบบฟอร์มมาตรฐานใช้ตัวอักษร2ตัวต่อ 1K ของข้อความ แบบฟอร์มพิเศษใช้ตัวอักษร4ตัวต่อ 1K ของข้อความ ลงทะเบียนฟรีด้วย 15,000 ตัวอักษร เริ่มต้นที่ $9/ เดือนสำหรับ 500,000 ตัวอักษร

ใช่ โหลดตัวอย่างเสียงอ้างอิง (5- 30 วินาที) ไปยังจุดสิ้นสุดของการคลาวด์เสียง จากนั้นใช้หมายเลขเสียงที่คลาวด์ไว้ในคำขอ TTS ต่อไป โมเดลที่รองรับการคลาวด์ ได้แก่ CosyVoice 2, Chatterbox, Fish Speech และ GPT- SoVITS

ระดับฟรีมีอัตราการจำกัดพื้นฐาน (3 คำร้องต่อชั่วโมงโดยไม่มีบัญชีผู้ใช้) ส่วนแพ็คเกจที่มีค่าใช้จ่ายสูงจะมีอัตราการจำกัดที่เหมาะสมกับโปรแกรมผลิต ติดต่อเรา สำหรับความต้องการความเร็วในการทำงานระดับองค์กร

WAV (ไม่บีบอัด, คุณภาพสูงสุด), MP3 (บีบอัด, แฟ้มขนาดเล็กกว่า), OGG (รูปแบบเปิด), และ FLAC (การบีบอัดแบบไม่มีการสูญเสีย) โปรดระบุรูปแบบในคำร้องของคุณ ค่าปริยายคือ WAV ด้วยอัตราตัวอย่างแบบดั้งเดิมของโมเดล

ใช่ ผสม TTS API ของเรากับโมเดลการพูดเป็นข้อความและ LLM เพื่อสร้างท่อส่งผู้ช่วยเสียงที่สมบูรณ์แบบ Kokoro ให้บริการความล่าช้าในระดับเซ็นติเมตรที่เหมาะสมสำหรับการสนทนาแบบเรียลไทม์ CosyVoice2สนับสนุนการส่งออกแบบสตรีมเพื่อการตอบสนองที่ต่ำกว่า

CosyVoice 2และ Kokoro รองรับการส่งออกเสียงแบบสตรีมที่ใช้การส่งออกเสียงตามที่มันถูกสร้างขึ้น นี่จะลดเวลาในการส่งออกไบต์แรกสำหรับโปรแกรมที่ใช้เวลาจริง เช่น ผู้ช่วยเสียงและประสบการณ์แบบโต้ตอบ

API จะส่งกลับรหัสสถานะ HTTP มาตรฐาน ปรับปรุงการป้องกันข้อผิดพลาดแบบอักขระ 5xx และจำกัดอัตราการตอบสนอง สำหรับโปรแกรมที่สำคัญต่อภารกิจ เพิ่มคิวด้วยตรรกะการลองใหม่ API ของเรามีเวลาใช้งานสูง แต่การจัดการข้อผิดพลาดที่ยืดหยุ่นจะถูกแนะนำเสมอ

ใช่ จุดจบ / v1/ voices และ / v1/ models จะคืนผลเป็นรายการ JSON ของเสียงและโมเดลที่ใช้ได้ทั้งหมดพร้อมข้อมูลส่วนประกอบของมัน (การรองรับภาษา การจัดอันดับคุณภาพ การจัดอันดับความเร็ว และระดับราคา) ใช้มันเพื่อสร้างตัวเลือกโมเดลแบบปรับเปลี่ยนได้ในแอพพลิเคชันของคุณ

โมเดลฟรี (Kokoro, Piper, VITS, MeloTTS) ใช้เป็นแถบสนามหญ้าที่มีประสิทธิภาพเพราะว่ามันใช้เงินศูนย์ ทดสอบการรวมตัวของคุณกับโมเดลฟรี จากนั้นเปลี่ยนไปใช้โมเดลพิเศษในผลิตภัณฑ์โดยการเปลี่ยนพารามิเตอร์ของโมเดล ไม่จำเป็นต้องมีสภาพแวดล้อมการทดสอบแยกต่างหาก

โมเดลส่วนใหญ่ของเราเป็นโอเพนซอร์สและสามารถโฮสต์เองได้ อย่างไรก็ตาม การโฮสต์เองจะต้องใช้ทรัพยากร GPU อย่างมาก (เราใช้ NVIDIA Tesla P40 ขนาด4เท่า ที่มี VRAM ทั้งหมด 96GB) API นั้นให้ทางเลือกที่ประหยัดค่าใช้จ่ายโดยไม่ต้องจัดการโครงสร้างพื้นฐาน
5.0/5 (1)

เราจะปรับปรุงอะไรได้บ้าง ความคิดเห็นของคุณช่วยเราแก้ไขปัญหา

พร้อมที่จะสร้างด้วย AI เสียงหรือยัง?

ซื้อกุญแจ API ฟรี และเริ่มสร้าง 15 เครดิต ในการสมัคร โมเดลฟรี ที่มีเอกสารที่ละเอียดอ่อน