Hata / Özellik İstek Raporu

Gerçek zamanlı TTS

Saniyeden daha kısa bir gecikme ile metin-söz dönüşümü. Ses ajanları ve canlı uygulamalar için tasarlanmıştır.

Ücretsiz Kayıt Ol

Metin

Akış

0/5,000 karakter ~0.3s ilk ses

Ses & Ayarları

Model Sadece stream-kapalı modelleri.

Ses

Hız 1.0x

Yayın Gecikmesi

—

İlk ses gecikmesini ölçmek için Akışı tıklayın

Çıkış

Ses parçaları burada çalınır.

TTS Nasıl Çalışır

1. Metin Gönder

POST metin /v1/tts/stream/'e Sunucu-Gönderilmiş Olaylar isteği olarak gönderilir.

2. Model Oluşturuyor

Kokoro metni parçalar ve GPU üzerinde örnek-örnek ses üretir.

3. Akış Parçaları

Base64 kodlanmış WAV parçaları SSE üzerinden gelir ve derhal oynamaya başlar.

4. Canlı Dinle

Kullanıcı, uzun girdilerde bile cümlenin başlangıcını bir saniyenin altında duyar.

Kullanım Durumları

Saniyeden daha kısa bir gecikme yeni deneyimler açıyor.

Ses Agentleri

İnsanlar kadar hızlı cevap veren konuşma botları.

Canlı Dublaj

Bir akış gerçek zamanlı olarak tamponlama durdurmaları olmadan tercüme ve dublaj edin.

Oyunlar

Oyuncular seçimlerine anında tepki veren NPC diyalogu, önceden renklendirilmiş VO yoktur.

Erişim

Ekran okuyucuları ve kullanıcının tıkladığı anda konuşmaya başlayan yardımcı araçlar.

Gerçek zamanlı TTS Planları

Bedava başla, daha fazlasına ihtiyacın olduğunda yükselt

Özgür

Kokoro streaming (özgür model)
Nesil başına 500 karakter
10 ücretsiz akışı/gün anonim kullanıcı başına
Saniyeden az ilk ses gecikmesi
HTTPS üzerinden SSE akışı

En Popüler

Bedava Hesap

Kayıt sırasında 15.000 karakter
Akımda 5000 karakter
Programlama erişimi için API anahtarı
Tarihi
Günlük akışı sınırı yok

Ücretsiz kayıt ol

Pro

MOSS-TTS-Realtime (canlı olduğunda)
Akımda 100.000 karakter
Öncelik GPU kuyruğu
Ses ajansı + Twilio entegrasyonu
Yüksek oran limitleri

Üst düzeye çıkar

Sıkça Sorulan Sorular

Gerçek zamanlı metin-sözlüğe, tüm cümlenin tamamlanmasını beklemek yerine, oluşturulduklarında ses parçalarını akıtır. İlk ses örneği bir saniyenin altında gelir, bu da onu canlı ses ajanları, dublaj ve gecikme önem taşıyan etkileşimli uygulamalar için uygun hale getirir.

Regular TTS generates the full audio file before returning anything — you wait, then hear the entire sentence at once. Realtime TTS uses Server-Sent Events (SSE) to stream short audio chunks as the model produces them. The user hears the start of the sentence almost immediately, even on long inputs.

Kokoro varsayılan arka plandır — modern bir GPU üzerinde gerçek zamanlı seslerden yaklaşık 100x daha hızlı üretir. MOSS-TTS-Realtime'ı daha yüksek kaliteli bir alternatif olarak entegre ediyoruz; kullanıcılar bu gönderildikten sonra isteğe bağlı olarak seçebilirler.

Kokoro'daki tipik ilk ses gecikmesi, halka açık bir bağlantı üzerinden 300-800ms'dir. Bundan sonra ağ döngü yolculuğu hakimdir. Sayfa, her bir talebin tam olarak ne kadar sürede gerçekleştiğini görebilmeniz için UI'da ilk sesin gerçek zamanlı ölçümünü ortaya çıkarır.

Konuşma yoluyla cevap veren ses ajanları, akış medya için canlı dublaj, etkileşimli oyun NPC'leri, kullanıcının tıkladığı anda konuşmaya başlayan erişim okuyucuları ve ses için iki veya üç saniye beklemenin yavaş hissedeceği herhangi bir uygulama.

Evet. POST'u https://api.tts.ai/v1/tts/stream/'e düzenli /v1/tts/ son noktası ile aynı bedenle gönder. Cevap, base64 kodlanmış WAV parçalarından oluşan bir SSE akışıdır. Ücretsiz seviye, anonim kullanıcı başına günde 10 jenerasyonu destekler; kimlik doğrulama kullanıcıları hesap başına tam karakter izinini alır.

Kokoro önceden eğitilmiş sesleri kullanır ve klonlamaz. MOSS-TTS-Realtime (entegre edildiğinde) 3 saniyelik bir referanstan sıfır-atış ses klonlamasını destekler. Bugün tam ses klonlaması için, Chatterbox veya GPT-SoVITS ile düzenli /text-to-speech/ sayfasını kullanın — bunlar akışı desteklemez ama özel sesleri üretir.

Normal TTS son noktasının karakter maliyetiyle aynı. Kokoro ücretsiz seviyedir (1x maliyet). MOSS-TTS-Realtime etkinleştirildiğinde standart seviyede (2x maliyet) çalışacaktır. Akış protokolü herhangi bir fiyat ekleme yapmaz.

Evet — akışın son noktası bir telefon çağrısına canlı ses göndermek için bir Twilio ses webhook ile eşleştirilir. Ses ajan platformumuz bunu IVR ve çıkan çağrılar için zaten yapıyor. Telefon çağrısında sondan sona gecikme STT ve LLM yanıtları dahil olmak üzere genellikle 1-2 saniyedir.

Eğer ağınız geçiş sırasında bir parça kaybederse, akışı oynatıcı durmak yerine ileriye atlayacaktır. Aralara tahammül edemeyen uygulamalar için, normal akışı olmayan son noktaya geri dönün veya oynatmaya başlamadan önce 500ms ses arabirimini kullanın.

5.0/5 (1)

Gerçek Zamanlı Konuşma Akışı

Günde ilk 10 nesil için ücretsiz. Tam karakter izin ve API erişimi için kayıt olun.

Ücretsiz Kayıt Ol Fiyatları Gör

Gerçek zamanlı TTS

Metin

Ses & Ayarları

Yayın Gecikmesi

Çıkış

TTS Nasıl Çalışır

1. Metin Gönder

2. Model Oluşturuyor

3. Akış Parçaları

4. Canlı Dinle

Kullanım Durumları

Ses Agentleri

Canlı Dublaj

Oyunlar

Erişim

Gerçek zamanlı TTS Planları

Sıkça Sorulan Sorular

Gerçek zamanlı TTS nedir?

Gerçek zamanlı TTS, düzenli TTS'den nasıl farklı?

Gerçek zamanlı sayfayı hangi model çalıştırıyor?

İlk ses gecikmesi ne kadar hızlı?

Gerçek zamanlı TTS ile ne inşa edebilirim?

Gerçek zamanlı TTS için bir API var mı?

Ses klonlamaya destek mi veriyor?

Gerçek zamanlı TTS ne kadara mal oluyor?

Telefonda kullanabilir miyim?

Neden bazen ses kelimenin ortasında kesilmiş oluyor?

Gerçek Zamanlı Konuşma Akışı