รายงานข้อผิดพลาด / ขอฟีเจอร์ใหม่

ข้อความเป็นเสียง API สำหรับผู้พัฒนา

สร้างแอพพลิเคชันที่รองรับการพูดด้วย REST API ของเรา เพิ่มการแปลงข้อความเป็นเสียงตามธรรมชาติ, การคอลลินเสียง, การแปลงเสียงเป็นข้อความ, และการประมวลผลเสียงไปยังแอพพลิเคชันของคุณ, เครื่องสนทนา, ผู้ช่วยเสียง, และผลิตภัณฑ์ SaaS รูปแบบที่เข้ากันได้กับ OpenAI, โมเดล 20+ และการรวมเข้าด้วยกันที่ง่าย

REST API เครื่องมือสนทนาName โปรแกรมเสียงName ผลิตภัณฑ์ SaaS ปรับแต่งอัตโนมัติ

เครื่องมือแก้ไข TTS เต็มรูปแบบ เอกสาร API

ลองดูสิ

0/500

ด้วยโคโคโร ไพเปอร์ วิทส เมโลTTS

เสียงที่สร้างขึ้นจะปรากฏที่นี่

เปิดตัวแก้ไข TTS เต็มรูปแบบ

ตัวช่วย API สำหรับผู้พัฒนา

ทุกอย่างที่คุณต้องการเพื่อสร้างแอพพลิเคชันที่รองรับการสื่อสารด้วยเสียง

REST API ง่ายๆName

การร้องขอ POST ครั้งเดียวเพื่อสร้างการพูด การร้องขอ JSON การตอบสนองเสียง ทำงานกับภาษาโปรแกรมใด ๆ ที่รองรับ HTTP

เข้ากันได้กับ OpenAI

ตัวแทนสำหรับ OpenAI TTS API เปลี่ยน base_ url และกุญแจ API ของคุณ - โค้ดที่มีอยู่จะทำงานทันที

มีตัวอย่างมากกว่า 24 ตัว

เข้าถึงทุกโมเดลผ่าน API เดียว สลับโมเดลโดยการเปลี่ยนพารามิเตอร์ 1 ตัว เปรียบเทียบคุณภาพ ความเร็ว และราคา

ความล่าช้าของตัวเลขสองตัว

Kokoro สร้างเสียงในเวลาไม่ถึง 1 วินาที เหมาะสำหรับช็อตบ็อทแบบเรียลไทม์ ช่วยเหลือเสียง และแอพพลิเคชั่นแบบโต้ตอบ

ตัวกรองเสียง

สร้างเสียงใดๆ จากตัวอย่างเสียงสั้นๆ ผ่าน API ใช้เสียงที่สร้างมาแล้วสำหรับรุ่นต่อไป

รูปแบบหลายรูปแบบ

ออกแบบเป็น WAV, MP3, OGG หรือ FLAC เลือกอัตราตัวอย่างและความลึกของบิต รองรับการสตรีมเสียงสำหรับแอพพลิเคชันแบบ real- time

โมเดลที่ดีที่สุดสำหรับผู้พัฒนาที่รวมเข้าด้วยกัน

เลือกโมเดลที่เหมาะสมกับความเร็ว คุณภาพ และค่าใช้จ่ายของโปรแกรมของคุณ

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

เร็ว 5/5

เหมาะสำหรับ: โมเดลที่เร็วที่สุด - ความล่าช้าในระดับเซลล์วินาที เหมาะสำหรับแอพพลิเคชันและชัตเตอร์บ็อตที่ใช้เวลาจริง

ลองดูสิ Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

ขนาดกลาง 5/5 การคัดลอกเสียง

เหมาะสำหรับ: กระจายเสียง TTS ด้วยการคอลลินเสียงสำหรับแอพพลิเคชันผู้ช่วยเสียง

ลองดูสิ CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

ช้า 5/5

เหมาะสำหรับ: เอไอในการสนทนาด้วยการกำหนดเวลาตามธรรมชาติสำหรับช็อตบ็อทและเสียงผู้ช่วย

ลองดูสิ Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

เร็ว 3/5

เหมาะสำหรับ: โมเดล CPU-only ฟรีสำหรับแอพพลิเคชันที่มีปริมาณสูง โดยไม่มีค่าใช้จ่ายในการจัดเก็บข้อมูล

ลองดูสิ Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

ช้า 4/5

เหมาะสำหรับ: สร้างเสียงด้วยเอฟเฟกต์เสียงสำหรับแอพพลิเคชันสร้างสรรค์และบันเทิง

ลองดูสิ Bark

วิธีการรวม API ของ TTS

ตั้งแต่ลงทะเบียนจนถึงการเรียก API ครั้งแรกในเวลาไม่ถึง5นาที

ดาวน์โหลดกุญแจ API ของคุณ

ลงทะเบียนฟรี และสร้างกุญแจ API จากแดชบอร์ดบัญชีของคุณ 15,000 ตัวอักษรรวมอยู่ใน

โทรครั้งแรกของคุณ

เขียนไปที่ /v1/tts ด้วยข้อความ โมเดล และเสียง เอาไบต์เสียงกลับมา ด้วยโค้ด5บรรทัด

เลือกรุ่นของคุณ

ทดสอบโมเดลต่างๆ สำหรับกรณีการใช้ของคุณ เปรียบเทียบความเร็ว คุณภาพ และราคาต่อรุ่น

ส่งไปยังการผลิต

ปรับขนาดด้วยตัวอักษรจ่ายตามที่คุณใช้ ไม่มีค่าจำกัดอัตราต่อแพ็คเกจที่จ่าย ติดตามการใช้ในแดชบอร์ดของคุณ

ตัวอย่างโค้ดเริ่มต้นเร็ว

เชื่อมต่อ TTS.ai ในภาษาใด ๆ ด้วย REST API ของเรา

Python ยอดนิยม

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL ทั่วไป

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

รูปแบบที่เข้ากันได้กับ OpenAI เข้าไปได้

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

ดาวน์โหลดกุญแจ API ฟรีของคุณ

สิ่งที่ผู้พัฒนาสร้างด้วย TTS.ai

รูปแบบการรวมตัวและโปรแกรมที่ใช้กันทั่วไป

เครื่องมือและผู้ช่วย AI Chatbots

เพิ่มการออกเสียงไปยังหุ่นคุยหรือผู้ช่วย AI ของคุณ นำการตอบสนอง LLM ผ่าน TTS สำหรับอินเทอร์เฟซที่รองรับเสียง Kokoro จัดส่งการช้าลงในระดับหนึ่งวินาทีสำหรับการสนทนาในเวลาจริง Sesame CSM สร้างการพูดคุยด้วยการจับเวลาตามธรรมชาติ

การตอบสนอง LLM ต่อท่อเสียง
ความล่าช้าของโคโคโร
พูดคุยกับ Sesame CSM
ข้อมูลออกมาเป็นสัญญาณเสียง

โปรแกรมโทรศัพท์มือถือและเสียงName

สร้างแอพพลิเคชันมือถือที่รองรับเสียง เครื่องมือช่วยเหลือผู้พิการ แอพพลิเคชันอ่านหนังสือ และแพลตฟอร์มการเรียนรู้ภาษา REST API ของเราทำงานกับเฟรมเวิร์กมือถือใดๆ ดาวน์โหลดแฟ้มเสียง หรือสตรีมโดยตรงไปยังคลาวด์

รีแอคท เนทีฟ, ฟลูเตอร์, สวิฟท์, โคทลิน
โปรแกรมอ้างอิงและอ่าน
ระบบการเรียนรู้ภาษา
สร้างเนื้อหาเสียง

ผลิตภัณฑ์ SaaS

เพิ่ม TTS, STT, การคลอนเสียง, และการประมวลผลเสียงเป็นฟังก์ชันในแพลตฟอร์มของคุณ ใช้ API ของเราเป็นแบ็คเอนด์เสียงของคุณโดยไม่ต้องจัดการโครงสร้างพื้นฐานของ GPU

ตัวเลือกเสียงแบบ White- label
ไม่ต้องใช้โครงสร้างพื้นฐานของ GPU
ค่าใช้จ่ายต่อการใช้งาน
20+ แบบจำลองที่จะเสนอผู้ใช้ของคุณ

เส้นทางอัตโนมัติ

เชื่อมต่อการสร้างเสียงเข้ากับระบบท่อ CI/CD, การอัตโนมัติเนื้อหา, และกระบวนการประมวลผลแบตต์ สร้างแฟ้มเสียงเป็นพัน ๆ จากข้อมูลในสแปม, การผลิตพอดคาสต์อัตโนมัติ, หรือสร้างท่อการแปลเนื้อหาเป็นภาษาท้องถิ่น

ประมวลผลเป็นกลุ่มผ่าน API
เส้นทางสื่อการสื่อสารภายในประเทศ
การรวม CI/CD
ทำสแปมให้เป็นออโต้

แสดงเอกสาร API เต็ม

ข้อมูลเฉพาะของ API

สร้างขึ้นเพื่อการผลิต

20+

โมเดล TTS

100+

เสียง

30+

ภาษา

<1s

ความล่าช้า (Kokoro)

ลงทะเบียนฟรี — 15,000 อักขระ

คำถามที่ถามบ่อย

คำถามที่พบบ่อยเกี่ยวกับ API ของผู้พัฒนา TTS.ai

ใช่ API ของเราใช้รูปแบบเสียง OpenAI หากคุณกำลังใช้ไลบรารีไพธอนหรือจาวาสคริปต์ OpenAI คุณสามารถเปลี่ยนไปใช้ TTS.ai ได้ โดยเปลี่ยนพารามิเตอร์ base_ url และ api_ key โค้ดที่คุณมีอยู่แล้วจะทำงานโดยไม่ต้องปรับแต่ง

Kokoro สร้างเสียงในเวลาน้อยกว่า 1 วินาทีสำหรับประโยคทั่วไป CosyVoice 2 สนับสนุนการส่งออกแบบสตรีมเพื่อลดความล่าช้าในการรับรู้ สำหรับชัตเตอร์บ็อตและผู้ช่วยเสียง เวลาในการเดินทางทั้งสองทางโดยทั่วไปจะอยู่ที่ 1-3วินาทีขึ้นอยู่กับความยาวของข้อความและตัวเลือกโมเดล

แบบฟอร์มฟรี (Kokoro, Piper, VITS, MeloTTS) นั้นฟรีโดยสิ้นเชิง แบบฟอร์มมาตรฐานใช้ตัวอักษร2ตัวต่อ 1K ของข้อความ แบบฟอร์มพิเศษใช้ตัวอักษร4ตัวต่อ 1K ของข้อความ ลงทะเบียนฟรีด้วย 15,000 ตัวอักษร เริ่มต้นที่ $9/ เดือนสำหรับ 500,000 ตัวอักษร

ใช่ โหลดตัวอย่างเสียงอ้างอิง (5- 30 วินาที) ไปยังจุดสิ้นสุดของการคลาวด์เสียง จากนั้นใช้หมายเลขเสียงที่คลาวด์ไว้ในคำขอ TTS ต่อไป โมเดลที่รองรับการคลาวด์ ได้แก่ CosyVoice 2, Chatterbox, Fish Speech และ GPT- SoVITS

ระดับฟรีมีอัตราการจำกัดพื้นฐาน (3 คำร้องต่อชั่วโมงโดยไม่มีบัญชีผู้ใช้) ส่วนแพ็คเกจที่มีค่าใช้จ่ายสูงจะมีอัตราการจำกัดที่เหมาะสมกับโปรแกรมผลิต ติดต่อเรา สำหรับความต้องการความเร็วในการทำงานระดับองค์กร

WAV (ไม่บีบอัด, คุณภาพสูงสุด), MP3 (บีบอัด, แฟ้มขนาดเล็กกว่า), OGG (รูปแบบเปิด), และ FLAC (การบีบอัดแบบไม่มีการสูญเสีย) โปรดระบุรูปแบบในคำร้องของคุณ ค่าปริยายคือ WAV ด้วยอัตราตัวอย่างแบบดั้งเดิมของโมเดล

ใช่ ผสม TTS API ของเรากับโมเดลการพูดเป็นข้อความและ LLM เพื่อสร้างท่อส่งผู้ช่วยเสียงที่สมบูรณ์แบบ Kokoro ให้บริการความล่าช้าในระดับเซ็นติเมตรที่เหมาะสมสำหรับการสนทนาแบบเรียลไทม์ CosyVoice2สนับสนุนการส่งออกแบบสตรีมเพื่อการตอบสนองที่ต่ำกว่า

CosyVoice 2และ Kokoro รองรับการส่งออกเสียงแบบสตรีมที่ใช้การส่งออกเสียงตามที่มันถูกสร้างขึ้น นี่จะลดเวลาในการส่งออกไบต์แรกสำหรับโปรแกรมที่ใช้เวลาจริง เช่น ผู้ช่วยเสียงและประสบการณ์แบบโต้ตอบ

API จะส่งกลับรหัสสถานะ HTTP มาตรฐาน ปรับปรุงการป้องกันข้อผิดพลาดแบบอักขระ 5xx และจำกัดอัตราการตอบสนอง สำหรับโปรแกรมที่สำคัญต่อภารกิจ เพิ่มคิวด้วยตรรกะการลองใหม่ API ของเรามีเวลาใช้งานสูง แต่การจัดการข้อผิดพลาดที่ยืดหยุ่นจะถูกแนะนำเสมอ

ใช่ จุดจบ / v1/ voices และ / v1/ models จะคืนผลเป็นรายการ JSON ของเสียงและโมเดลที่ใช้ได้ทั้งหมดพร้อมข้อมูลส่วนประกอบของมัน (การรองรับภาษา การจัดอันดับคุณภาพ การจัดอันดับความเร็ว และระดับราคา) ใช้มันเพื่อสร้างตัวเลือกโมเดลแบบปรับเปลี่ยนได้ในแอพพลิเคชันของคุณ

โมเดลฟรี (Kokoro, Piper, VITS, MeloTTS) ใช้เป็นแถบสนามหญ้าที่มีประสิทธิภาพเพราะว่ามันใช้เงินศูนย์ ทดสอบการรวมตัวของคุณกับโมเดลฟรี จากนั้นเปลี่ยนไปใช้โมเดลพิเศษในผลิตภัณฑ์โดยการเปลี่ยนพารามิเตอร์ของโมเดล ไม่จำเป็นต้องมีสภาพแวดล้อมการทดสอบแยกต่างหาก

โมเดลส่วนใหญ่ของเราเป็นโอเพนซอร์สและสามารถโฮสต์เองได้ อย่างไรก็ตาม การโฮสต์เองจะต้องใช้ทรัพยากร GPU อย่างมาก (เราใช้ NVIDIA Tesla P40 ขนาด4เท่า ที่มี VRAM ทั้งหมด 96GB) API นั้นให้ทางเลือกที่ประหยัดค่าใช้จ่ายโดยไม่ต้องจัดการโครงสร้างพื้นฐาน

5.0/5 (1)

พร้อมที่จะสร้างด้วย AI เสียงหรือยัง?

ซื้อกุญแจ API ฟรี และเริ่มสร้าง 15 เครดิต ในการสมัคร โมเดลฟรี ที่มีเอกสารที่ละเอียดอ่อน

ลงทะเบียน แสดงราคา

ข้อความเป็นเสียง API สำหรับผู้พัฒนา

ลองดูสิ

รัก TTS.ai บอกเพื่อนๆ

ตัวช่วย API สำหรับผู้พัฒนา

REST API ง่ายๆName

เข้ากันได้กับ OpenAI

มีตัวอย่างมากกว่า 24 ตัว

ความล่าช้าของตัวเลขสองตัว

ตัวกรองเสียง

รูปแบบหลายรูปแบบ

โมเดลที่ดีที่สุดสำหรับผู้พัฒนาที่รวมเข้าด้วยกัน

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

วิธีการรวม API ของ TTS

ดาวน์โหลดกุญแจ API ของคุณ

โทรครั้งแรกของคุณ

เลือกรุ่นของคุณ

ส่งไปยังการผลิต

ตัวอย่างโค้ดเริ่มต้นเร็ว

สิ่งที่ผู้พัฒนาสร้างด้วย TTS.ai

เครื่องมือและผู้ช่วย AI Chatbots

โปรแกรมโทรศัพท์มือถือและเสียงName

ผลิตภัณฑ์ SaaS

เส้นทางอัตโนมัติ

ข้อมูลเฉพาะของ API

คำถามที่ถามบ่อย

API ทำงานร่วมกับรูปแบบ OpenAI TTS หรือไม่?

ความล่าช้าของการใช้งานแบบเรียลไทม์คืออะไร

วิธีการที่ราคาทำงานสำหรับ API ใช้?

ฉันสามารถใช้โคลนเสียงผ่าน API ได้ไหม?

มีค่าจำกัดหรือเปล่า?

รูปแบบเสียงที่ API จะส่งกลับมาเป็นอย่างไร?

ฉันสามารถใช้ API เพื่อสร้างผู้ช่วยเสียงหรือชัตบอทได้หรือไม่?

มี WebSocket หรือ API สำหรับสตรีมหรือไม่?

ฉันจะจัดการกับความผิดพลาดและการพยายามใหม่ในกระบวนการผลิตได้อย่างไร

ผมสามารถจัดรายการเสียงและตัวอย่างที่ใช้ได้ ด้วยโปรแกรมได้ไหม?

มีแถวทดสอบหรือสภาพแวดล้อมทดสอบหรือไม่

ผมสามารถโฮสต์แบบจำลองได้เอง แทนที่จะใช้ API ได้ไหม?

พร้อมที่จะสร้างด้วย AI เสียงหรือยัง?