Báo cáo lỗi / yêu cầu tính năng

API chuyển văn bản sang nói cho các nhà phát triểnName

Tạo ứng dụng có khả năng nói với REST API của chúng tôi. Thêm văn bản tự nhiên thành lời nói, sao chép giọng nói, nói thành văn bản, và xử lý âm thanh cho ứng dụng, chatbots, trợ lý giọng nói, và sản phẩm SaaS của bạn. Định dạng tương thích OpenAI, 20+ mẫu, tích hợp đơn giản.

API REST Chatbots Ứng dụng giọng nóiName Sản phẩm SaaS Tự động

Bộ biên tập TTS đầy đủ Tài liệu API

Thử ngay

0/500

Miễn phí với Kokoro, Piper, VITS, MeloTTS

Âm thanh của bạn sẽ xuất hiện ở đây

Mở trình biên tập TTS đầy đủ

Tính năng API cho nhà phát triển

Mọi thứ bạn cần để xây dựng các ứng dụng có thể nói

API REST đơn giảnName

Một yêu cầu POST để tạo ra giọng nói. Yêu cầu JSON, đáp ứng âm thanh. Làm việc với bất kỳ ngôn ngữ lập trình nào hỗ trợ HTTP.

Hợp tác với OpenAI

Thay thế drop-in cho OpenAI TTS API. Thay đổi base_url và khóa API của bạn — mã hiện có sẽ hoạt động ngay lập tức.

Có 24+ mẫu

Truy cập vào mọi mô hình thông qua một API duy nhất. Thay đổi mô hình bằng cách thay đổi một tham số. So sánh chất lượng, tốc độ và chi phí.

Độ trễ dưới giây

Kokoro tạo âm thanh trong chưa đến 1 giây. Hoàn hảo cho chatbots thời gian thực, trợ lý giọng nói, và ứng dụng tương tác.

API sao chép giọng nói

Sao chép bất kỳ giọng nói nào từ một mẫu âm thanh ngắn qua API. Dùng giọng nói sao chép cho tất cả các thế hệ tiếp theo.

Định dạng đa dạng

Xuất dạng WAV, MP3, OGG, hoặc FLAC. Chọn tốc độ lấy mẫu và độ sâu bit. Hỗ trợ âm thanh truyền tải cho các ứng dụng thời gian thực.

Mô hình tốt nhất cho việc tích hợp nhà phát triển

Chọn mẫu phù hợp với tốc độ, chất lượng và yêu cầu chi phí của ứng dụng

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Đơn giản 5/5

Tốt nhất cho: Mô hình nhanh nhất — độ trễ dưới giây, lý tưởng cho các ứng dụng thời gian thực và chatbots

Thử đi. Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Trung bình 5/5 Bản sao giọng

Tốt nhất cho: Truyền TTS với kiểu giọng cho ứng dụng trợ lý giọng nói

Thử đi. CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Chậm 5/5

Tốt nhất cho: AI nói chuyện với thời gian tự nhiên cho chatbot và giọng trợ lý

Thử đi. Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Đơn giản 3/5

Tốt nhất cho: Mô hình miễn phí, chỉ CPU cho các ứng dụng có khối lượng lớn với chi phí tín dụng bằng 0

Thử đi. Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Chậm 4/5

Tốt nhất cho: Tạo âm thanh với hiệu ứng âm thanh cho các ứng dụng sáng tạo và giải trí

Thử đi. Bark

Cách tích hợp API TTS

Từ khi đăng ký đến cuộc gọi API đầu tiên trong vòng 5 phút

Lấy khóa API của bạn

Đăng ký miễn phí và tạo một chìa khóa API từ bảng điều khiển tài khoản của bạn. 15.000 ký tự bao gồm.

Gọi điện thoại đầu tiên

POST đến /v1/tts với văn bản, mẫu và giọng nói. Lấy lại byte âm thanh. Dưới 5 dòng mã.

Chọn mô hình

Kiểm tra các mô hình khác nhau cho trường hợp sử dụng của bạn. So sánh tốc độ, chất lượng và chi phí mỗi thế hệ.

Gửi đến sản xuất

Mở rộng với các tính năng trả theo sử dụng. Không giới hạn tốc độ trên các kế hoạch trả phí. Kiểm soát sử dụng trong bảng điều khiển.

Ví dụ mã bắt đầu nhanh

Tổng hợp TTS.ai trong bất kỳ ngôn ngữ nào với REST API của chúng tôi

Python Được ưa chuộng

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL Tổng quát

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

Định dạng tương thích OpenAI Đi thôi.

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Tìm khóa API miễn phí

Những gì các nhà phát triển xây dựng với TTS.ai

Các mẫu và ứng dụng tích hợp phổ biến

Trình trợ lý và trò chuyện AIName

Thêm kết quả giọng nói cho chatbot hoặc trợ lý AI của bạn. Đưa trả lời LLM qua TTS cho giao diện có khả năng nói. Kokoro cung cấp thời gian đợi dưới giây cho các cuộc trò chuyện thời gian thực. Sesame CSM tạo ra giọng nói nói chuyện với thời gian tự nhiên.

Phản ứng LLM với đường ống nóiName
Tốc độ chậm dưới giây với Kokoro
Tiếng nói giao tiếp với Sesame CSM
Đầu ra âm thanh

Ứng dụng di động và giọng nóiName

Tạo ứng dụng di động có khả năng nghe giọng nói, công cụ hỗ trợ người khuyết tật, ứng dụng đọc sách, và nền tảng học ngôn ngữ. API REST của chúng tôi hoạt động với bất kỳ khung di động nào. Tải về các tập tin âm thanh hoặc truyền trực tiếp đến máy khách.

React Native, Flutter, Swift, Kotlin
Ứng dụng hỗ trợ và đọc
Nền tảng học ngôn ngữ
Tạo nội dung âm thanh

Sản phẩm SaaS

Các tính năng giọng nói white-label trong sản phẩm SaaS của bạn. Thêm TTS, STT, sao chép giọng nói, và xử lý âm thanh như các tính năng trong nền tảng của bạn. Dùng API của chúng tôi như phần mềm hỗ trợ giọng nói của bạn mà không cần quản lý cơ sở hạ tầng GPU.

Tính năng giọng nói White- label
Không cần cơ sở hạ tầng GPU
Giá tiền theo sử dụng
20+ mẫu để cung cấp cho người dùng của bạn

Đường ống tự động

Tạo ra hàng ngàn tập tin âm thanh từ dữ liệu bảng tính, tự động sản xuất podcast, hoặc xây dựng các đường ống nội dung bản địa hóa.

Xử lý hàng loạt qua API
Đường ống bản địa hóa nội dung
Hợp nhất CI/CD
Tập tin bảng tính để tự động hóa âm thanh

Xem tài liệu API đầy đủ

Đặc điểm API

Được xây dựng cho các ứng dụng sản xuất

20+

Mô hình TTS

100+

Giọng nói

30+

Ngôn ngữ

<1s

Để mãi (Kokoro)

Đăng ký miễn phí — 15,000 ký tự

Câu hỏi thường gặp

Câu hỏi thường gặp về API phát triển TTS.ai

Vâng. API của chúng tôi tuân theo định dạng nói âm thanh OpenAI. Nếu bạn đang sử dụng thư viện khách Python hay JavaScript của OpenAI, bạn có thể chuyển sang TTS.ai bằng cách thay đổi tham số base_ url và api_ key. Mã hiện tại của bạn hoạt động mà không cần sửa đổi.

Kokoro tạo âm thanh trong chưa đến 1 giây cho các câu thông thường. CosyVoice 2 hỗ trợ xuất stream cho độ trễ nhận thức thấp hơn. Đối với chatbots và trợ lý giọng nói, tổng thời gian đi lại thường là 1-3 giây tùy thuộc vào độ dài văn bản và lựa chọn mô hình.

Các mô hình miễn phí (Kokoro, Piper, VITS, MeloTTS) hoàn toàn miễn phí. Các mô hình tiêu chuẩn sử dụng 2x ký tự trên 1K văn bản. Các mô hình cao cấp sử dụng 4x ký tự trên 1K văn bản. Đăng ký miễn phí với 15.000 ký tự. Các kế hoạch bắt đầu từ $9/ tháng cho 500.000 ký tự.

Có. Tải lên một mẫu âm thanh tham chiếu (5- 30 giây) đến điểm kết thúc sao chép giọng nói, sau đó sử dụng ID giọng nói sao chép trong các yêu cầu TTS tiếp theo. Các mô hình hỗ trợ sao chép bao gồm CosyVoice 2, Chatterbox, Fish Speech, và GPT- SoVITS.

Tầng miễn phí có giới hạn tốc độ cơ bản (3 yêu cầu mỗi giờ không có tài khoản). Các kế hoạch trả tiền có giới hạn tốc độ rộng rãi phù hợp với các ứng dụng sản xuất. Liên hệ với chúng tôi để biết yêu cầu tốc độ lưu lượng ở cấp doanh nghiệp.

WAV (không nén, chất lượng cao nhất), MP3 (đã nén, tập tin nhỏ hơn), OGG (định dạng mở), và FLAC (định dạng nén không mất dữ liệu). Chọn định dạng trong yêu cầu của bạn. Mặc định là WAV với tốc độ mẫu bản địa của mô hình.

Có. Kết hợp API TTS của chúng tôi với mô hình nói- sang- văn bản và LLM để xây dựng một ống dẫn trợ lý giọng nói hoàn chỉnh. Kokoro cung cấp độ trễ dưới giây lý tưởng cho cuộc nói chuyện thời gian thực. CosyVoice 2 hỗ trợ xuất ra dòng chảy cho thời gian đáp ứng cảm nhận thậm chí thấp hơn.

CosyVoice 2 và Kokoro hỗ trợ âm thanh truyền tải nơi các mảnh âm thanh được gửi khi chúng được tạo ra. Điều này giảm thời gian đến byte đầu tiên cho các ứng dụng thời gian thực như trợ lý giọng nói và trải nghiệm tương tác.

API trả về mã trạng thái HTTP chuẩn. Thực hiện ngược lại theo cấp số nhân cho lỗi 5xx và đáp ứng giới hạn tốc độ. Đối với các ứng dụng quan trọng, thêm một hàng đợi với logic thử lại. API của chúng tôi có thời gian hoạt động cao nhưng luôn luôn khuyến cáo xử lý lỗi bền vững.

Có. Điểm cuối /v1/voices và /v1/models trả lại danh sách JSON của tất cả giọng nói và mô hình có sẵn với siêu dữ liệu của chúng (hỗ trợ ngôn ngữ, đánh giá chất lượng, đánh giá tốc độ, và mức giá). Dùng chúng để xây dựng các bộ chọn mô hình động trong ứng dụng của bạn.

Các mô hình miễn phí (Kokoro, Piper, VITS, MeloTTS) là một hộp cát hiệu quả vì chúng không tốn tiền. Kiểm tra sự tích hợp của bạn với các mô hình miễn phí, sau đó chuyển sang các mô hình cao cấp trong sản xuất bằng cách thay đổi tham số mô hình. Không cần môi trường thử nghiệm riêng biệt.

Hầu hết các mô hình của chúng tôi là mã nguồn mở và có thể tự lưu trữ. Tuy nhiên, tự lưu trữ đòi hỏi các nguồn GPU đáng kể (chúng tôi sử dụng 4x NVIDIA Tesla P40 với tổng cộng 96GB VRAM). API cung cấp một lựa chọn có chi phí thấp mà không cần quản lý cơ sở hạ tầng.

5.0/5 (1)

Sẵn sàng xây dựng với giọng nói AI?

Tìm khóa API miễn phí và bắt đầu xây dựng. 15.000 ký tự khi đăng ký, mẫu miễn phí, tài liệu đầy đủ.

đăng ký miễn phí Xem giá

API chuyển văn bản sang nói cho các nhà phát triểnName

Thử ngay

Cảm ơn bạn đã tin tưởng TTS.ai!

Tính năng API cho nhà phát triển

API REST đơn giảnName

Hợp tác với OpenAI

Có 24+ mẫu

Độ trễ dưới giây

API sao chép giọng nói

Định dạng đa dạng

Mô hình tốt nhất cho việc tích hợp nhà phát triển

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

Cách tích hợp API TTS

Lấy khóa API của bạn

Gọi điện thoại đầu tiên

Chọn mô hình

Gửi đến sản xuất

Ví dụ mã bắt đầu nhanh

Những gì các nhà phát triển xây dựng với TTS.ai

Trình trợ lý và trò chuyện AIName

Ứng dụng di động và giọng nóiName

Sản phẩm SaaS

Đường ống tự động

Đặc điểm API

Câu hỏi thường gặp

API có tương thích với định dạng TTS OpenAI không?

Độ trễ của các ứng dụng thời gian thực là gì?

Giá cả hoạt động như thế nào cho việc sử dụng API?

Tôi có thể dùng sao chép giọng nói qua API không?

Có giới hạn tốc độ không?

API trả về định dạng âm thanh nào?

Tôi có thể sử dụng API để xây dựng một trợ lý giọng nói hoặc chatbot không?

Có một WebSocket hay API truyền tải không?

Làm thế nào để xử lý lỗi và thử lại trong sản xuất?

Tôi có thể liệt kê giọng nói và mẫu có sẵn theo chương trình không?

Có một môi trường thử nghiệm hay sandbox không?

Tôi có thể tự lưu các mô hình thay vì sử dụng API không?

Sẵn sàng xây dựng với giọng nói AI?