API chuyển văn bản sang nói cho các nhà phát triểnName

Tạo ứng dụng có khả năng nói với REST API của chúng tôi. Thêm văn bản tự nhiên thành lời nói, sao chép giọng nói, nói thành văn bản, và xử lý âm thanh cho ứng dụng, chatbots, trợ lý giọng nói, và sản phẩm SaaS của bạn. Định dạng tương thích OpenAI, 20+ mẫu, tích hợp đơn giản.

API REST Chatbots Ứng dụng giọng nóiName Sản phẩm SaaS Tự động

Thử ngay

Miễn phí với Kokoro, Piper, VITS, MeloTTS
Âm thanh của bạn sẽ xuất hiện ở đây
Tạo
Tải về
Cảm ơn bạn đã tin tưởng TTS.ai!

Tính năng API cho nhà phát triển

Mọi thứ bạn cần để xây dựng các ứng dụng có thể nói

API REST đơn giảnName

Một yêu cầu POST để tạo ra giọng nói. Yêu cầu JSON, đáp ứng âm thanh. Làm việc với bất kỳ ngôn ngữ lập trình nào hỗ trợ HTTP.

Hợp tác với OpenAI

Thay thế drop-in cho OpenAI TTS API. Thay đổi base_url và khóa API của bạn — mã hiện có sẽ hoạt động ngay lập tức.

Có 24+ mẫu

Truy cập vào mọi mô hình thông qua một API duy nhất. Thay đổi mô hình bằng cách thay đổi một tham số. So sánh chất lượng, tốc độ và chi phí.

Độ trễ dưới giây

Kokoro tạo âm thanh trong chưa đến 1 giây. Hoàn hảo cho chatbots thời gian thực, trợ lý giọng nói, và ứng dụng tương tác.

API sao chép giọng nói

Sao chép bất kỳ giọng nói nào từ một mẫu âm thanh ngắn qua API. Dùng giọng nói sao chép cho tất cả các thế hệ tiếp theo.

Định dạng đa dạng

Xuất dạng WAV, MP3, OGG, hoặc FLAC. Chọn tốc độ lấy mẫu và độ sâu bit. Hỗ trợ âm thanh truyền tải cho các ứng dụng thời gian thực.

Mô hình tốt nhất cho việc tích hợp nhà phát triển

Chọn mẫu phù hợp với tốc độ, chất lượng và yêu cầu chi phí của ứng dụng

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Tốt nhất cho: Mô hình nhanh nhất — độ trễ dưới giây, lý tưởng cho các ứng dụng thời gian thực và chatbots

Thử đi. Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Bản sao giọng

Tốt nhất cho: Truyền TTS với kiểu giọng cho ứng dụng trợ lý giọng nói

Thử đi. CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Tốt nhất cho: AI nói chuyện với thời gian tự nhiên cho chatbot và giọng trợ lý

Thử đi. Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Tốt nhất cho: Mô hình miễn phí, chỉ CPU cho các ứng dụng có khối lượng lớn với chi phí tín dụng bằng 0

Thử đi. Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Tốt nhất cho: Tạo âm thanh với hiệu ứng âm thanh cho các ứng dụng sáng tạo và giải trí

Thử đi. Bark

Cách tích hợp API TTS

Từ khi đăng ký đến cuộc gọi API đầu tiên trong vòng 5 phút

1

Lấy khóa API của bạn

Đăng ký miễn phí và tạo một chìa khóa API từ bảng điều khiển tài khoản của bạn. 15.000 ký tự bao gồm.

2

Gọi điện thoại đầu tiên

POST đến /v1/tts với văn bản, mẫu và giọng nói. Lấy lại byte âm thanh. Dưới 5 dòng mã.

3

Chọn mô hình

Kiểm tra các mô hình khác nhau cho trường hợp sử dụng của bạn. So sánh tốc độ, chất lượng và chi phí mỗi thế hệ.

4

Gửi đến sản xuất

Mở rộng với các tính năng trả theo sử dụng. Không giới hạn tốc độ trên các kế hoạch trả phí. Kiểm soát sử dụng trong bảng điều khiển.

Ví dụ mã bắt đầu nhanh

Tổng hợp TTS.ai trong bất kỳ ngôn ngữ nào với REST API của chúng tôi

Python Được ưa chuộng
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Tổng quát
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Định dạng tương thích OpenAI Đi thôi.
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Những gì các nhà phát triển xây dựng với TTS.ai

Các mẫu và ứng dụng tích hợp phổ biến

Trình trợ lý và trò chuyện AIName

Thêm kết quả giọng nói cho chatbot hoặc trợ lý AI của bạn. Đưa trả lời LLM qua TTS cho giao diện có khả năng nói. Kokoro cung cấp thời gian đợi dưới giây cho các cuộc trò chuyện thời gian thực. Sesame CSM tạo ra giọng nói nói chuyện với thời gian tự nhiên.

  • Phản ứng LLM với đường ống nóiName
  • Tốc độ chậm dưới giây với Kokoro
  • Tiếng nói giao tiếp với Sesame CSM
  • Đầu ra âm thanh

Ứng dụng di động và giọng nóiName

Tạo ứng dụng di động có khả năng nghe giọng nói, công cụ hỗ trợ người khuyết tật, ứng dụng đọc sách, và nền tảng học ngôn ngữ. API REST của chúng tôi hoạt động với bất kỳ khung di động nào. Tải về các tập tin âm thanh hoặc truyền trực tiếp đến máy khách.

  • React Native, Flutter, Swift, Kotlin
  • Ứng dụng hỗ trợ và đọc
  • Nền tảng học ngôn ngữ
  • Tạo nội dung âm thanh

Sản phẩm SaaS

Các tính năng giọng nói white-label trong sản phẩm SaaS của bạn. Thêm TTS, STT, sao chép giọng nói, và xử lý âm thanh như các tính năng trong nền tảng của bạn. Dùng API của chúng tôi như phần mềm hỗ trợ giọng nói của bạn mà không cần quản lý cơ sở hạ tầng GPU.

  • Tính năng giọng nói White- label
  • Không cần cơ sở hạ tầng GPU
  • Giá tiền theo sử dụng
  • 20+ mẫu để cung cấp cho người dùng của bạn

Đường ống tự động

Tạo ra hàng ngàn tập tin âm thanh từ dữ liệu bảng tính, tự động sản xuất podcast, hoặc xây dựng các đường ống nội dung bản địa hóa.

  • Xử lý hàng loạt qua API
  • Đường ống bản địa hóa nội dung
  • Hợp nhất CI/CD
  • Tập tin bảng tính để tự động hóa âm thanh

Đặc điểm API

Được xây dựng cho các ứng dụng sản xuất

20+

Mô hình TTS

100+

Giọng nói

30+

Ngôn ngữ

<1s

Để mãi (Kokoro)

Câu hỏi thường gặp

Câu hỏi thường gặp về API phát triển TTS.ai

Vâng. API của chúng tôi tuân theo định dạng nói âm thanh OpenAI. Nếu bạn đang sử dụng thư viện khách Python hay JavaScript của OpenAI, bạn có thể chuyển sang TTS.ai bằng cách thay đổi tham số base_ url và api_ key. Mã hiện tại của bạn hoạt động mà không cần sửa đổi.

Kokoro tạo âm thanh trong chưa đến 1 giây cho các câu thông thường. CosyVoice 2 hỗ trợ xuất stream cho độ trễ nhận thức thấp hơn. Đối với chatbots và trợ lý giọng nói, tổng thời gian đi lại thường là 1-3 giây tùy thuộc vào độ dài văn bản và lựa chọn mô hình.

Các mô hình miễn phí (Kokoro, Piper, VITS, MeloTTS) hoàn toàn miễn phí. Các mô hình tiêu chuẩn sử dụng 2x ký tự trên 1K văn bản. Các mô hình cao cấp sử dụng 4x ký tự trên 1K văn bản. Đăng ký miễn phí với 15.000 ký tự. Các kế hoạch bắt đầu từ $9/ tháng cho 500.000 ký tự.

Có. Tải lên một mẫu âm thanh tham chiếu (5- 30 giây) đến điểm kết thúc sao chép giọng nói, sau đó sử dụng ID giọng nói sao chép trong các yêu cầu TTS tiếp theo. Các mô hình hỗ trợ sao chép bao gồm CosyVoice 2, Chatterbox, Fish Speech, và GPT- SoVITS.

Tầng miễn phí có giới hạn tốc độ cơ bản (3 yêu cầu mỗi giờ không có tài khoản). Các kế hoạch trả tiền có giới hạn tốc độ rộng rãi phù hợp với các ứng dụng sản xuất. Liên hệ với chúng tôi để biết yêu cầu tốc độ lưu lượng ở cấp doanh nghiệp.

WAV (không nén, chất lượng cao nhất), MP3 (đã nén, tập tin nhỏ hơn), OGG (định dạng mở), và FLAC (định dạng nén không mất dữ liệu). Chọn định dạng trong yêu cầu của bạn. Mặc định là WAV với tốc độ mẫu bản địa của mô hình.

Có. Kết hợp API TTS của chúng tôi với mô hình nói- sang- văn bản và LLM để xây dựng một ống dẫn trợ lý giọng nói hoàn chỉnh. Kokoro cung cấp độ trễ dưới giây lý tưởng cho cuộc nói chuyện thời gian thực. CosyVoice 2 hỗ trợ xuất ra dòng chảy cho thời gian đáp ứng cảm nhận thậm chí thấp hơn.

CosyVoice 2 và Kokoro hỗ trợ âm thanh truyền tải nơi các mảnh âm thanh được gửi khi chúng được tạo ra. Điều này giảm thời gian đến byte đầu tiên cho các ứng dụng thời gian thực như trợ lý giọng nói và trải nghiệm tương tác.

API trả về mã trạng thái HTTP chuẩn. Thực hiện ngược lại theo cấp số nhân cho lỗi 5xx và đáp ứng giới hạn tốc độ. Đối với các ứng dụng quan trọng, thêm một hàng đợi với logic thử lại. API của chúng tôi có thời gian hoạt động cao nhưng luôn luôn khuyến cáo xử lý lỗi bền vững.

Có. Điểm cuối /v1/voices và /v1/models trả lại danh sách JSON của tất cả giọng nói và mô hình có sẵn với siêu dữ liệu của chúng (hỗ trợ ngôn ngữ, đánh giá chất lượng, đánh giá tốc độ, và mức giá). Dùng chúng để xây dựng các bộ chọn mô hình động trong ứng dụng của bạn.

Các mô hình miễn phí (Kokoro, Piper, VITS, MeloTTS) là một hộp cát hiệu quả vì chúng không tốn tiền. Kiểm tra sự tích hợp của bạn với các mô hình miễn phí, sau đó chuyển sang các mô hình cao cấp trong sản xuất bằng cách thay đổi tham số mô hình. Không cần môi trường thử nghiệm riêng biệt.

Hầu hết các mô hình của chúng tôi là mã nguồn mở và có thể tự lưu trữ. Tuy nhiên, tự lưu trữ đòi hỏi các nguồn GPU đáng kể (chúng tôi sử dụng 4x NVIDIA Tesla P40 với tổng cộng 96GB VRAM). API cung cấp một lựa chọn có chi phí thấp mà không cần quản lý cơ sở hạ tầng.
5.0/5 (1)

Chúng tôi có thể cải thiện gì? phản hồi của bạn giúp chúng tôi khắc phục vấn đề.

Sẵn sàng xây dựng với giọng nói AI?

Tìm khóa API miễn phí và bắt đầu xây dựng. 15.000 ký tự khi đăng ký, mẫu miễn phí, tài liệu đầy đủ.