Hata / Özellik İstek Raporu

Gerçek zamanlı TTS

Saniyeden daha kısa bir gecikme ile metin-söz dönüşümü. Ses ajanları ve canlı uygulamalar için tasarlanmıştır.

Metin

Akış
0/5,000 karakter ~0.3s ilk ses

Ses & Ayarları

Sadece stream-kapalı modelleri.

Yayın Gecikmesi

İlk ses gecikmesini ölçmek için Akışı tıklayın

Çıkış

Ses parçaları burada çalınır.

0:00
İlk parça:
Toplam parçalar: 0
Toplam zaman:

TTS Nasıl Çalışır

1. Metin Gönder

POST metin /v1/tts/stream/'e Sunucu-Gönderilmiş Olaylar isteği olarak gönderilir.

2. Model Oluşturuyor

Kokoro metni parçalar ve GPU üzerinde örnek-örnek ses üretir.

3. Akış Parçaları

Base64 kodlanmış WAV parçaları SSE üzerinden gelir ve derhal oynamaya başlar.

4. Canlı Dinle

Kullanıcı, uzun girdilerde bile cümlenin başlangıcını bir saniyenin altında duyar.

Kullanım Durumları

Saniyeden daha kısa bir gecikme yeni deneyimler açıyor.

Ses Agentleri

İnsanlar kadar hızlı cevap veren konuşma botları.

Canlı Dublaj

Bir akış gerçek zamanlı olarak tamponlama durdurmaları olmadan tercüme ve dublaj edin.

Oyunlar

Oyuncular seçimlerine anında tepki veren NPC diyalogu, önceden renklendirilmiş VO yoktur.

Erişim

Ekran okuyucuları ve kullanıcının tıkladığı anda konuşmaya başlayan yardımcı araçlar.

Gerçek zamanlı TTS Planları

Bedava başla, daha fazlasına ihtiyacın olduğunda yükselt

Özgür
  • Kokoro streaming (özgür model)
  • Nesil başına 500 karakter
  • 10 ücretsiz akışı/gün anonim kullanıcı başına
  • Saniyeden az ilk ses gecikmesi
  • HTTPS üzerinden SSE akışı
En Popüler
Bedava Hesap
  • Kayıt sırasında 15.000 karakter
  • Akımda 5000 karakter
  • Programlama erişimi için API anahtarı
  • Tarihi
  • Günlük akışı sınırı yok
Ücretsiz kayıt ol
Pro
  • MOSS-TTS-Realtime (canlı olduğunda)
  • Akımda 100.000 karakter
  • Öncelik GPU kuyruğu
  • Ses ajansı + Twilio entegrasyonu
  • Yüksek oran limitleri
Üst düzeye çıkar

Sıkça Sorulan Sorular

Gerçek zamanlı metin-sözlüğe, tüm cümlenin tamamlanmasını beklemek yerine, oluşturulduklarında ses parçalarını akıtır. İlk ses örneği bir saniyenin altında gelir, bu da onu canlı ses ajanları, dublaj ve gecikme önem taşıyan etkileşimli uygulamalar için uygun hale getirir.

Regular TTS generates the full audio file before returning anything — you wait, then hear the entire sentence at once. Realtime TTS uses Server-Sent Events (SSE) to stream short audio chunks as the model produces them. The user hears the start of the sentence almost immediately, even on long inputs.

Kokoro varsayılan arka plandır — modern bir GPU üzerinde gerçek zamanlı seslerden yaklaşık 100x daha hızlı üretir. MOSS-TTS-Realtime'ı daha yüksek kaliteli bir alternatif olarak entegre ediyoruz; kullanıcılar bu gönderildikten sonra isteğe bağlı olarak seçebilirler.

Kokoro'daki tipik ilk ses gecikmesi, halka açık bir bağlantı üzerinden 300-800ms'dir. Bundan sonra ağ döngü yolculuğu hakimdir. Sayfa, her bir talebin tam olarak ne kadar sürede gerçekleştiğini görebilmeniz için UI'da ilk sesin gerçek zamanlı ölçümünü ortaya çıkarır.

Konuşma yoluyla cevap veren ses ajanları, akış medya için canlı dublaj, etkileşimli oyun NPC'leri, kullanıcının tıkladığı anda konuşmaya başlayan erişim okuyucuları ve ses için iki veya üç saniye beklemenin yavaş hissedeceği herhangi bir uygulama.

Evet. POST'u https://api.tts.ai/v1/tts/stream/'e düzenli /v1/tts/ son noktası ile aynı bedenle gönder. Cevap, base64 kodlanmış WAV parçalarından oluşan bir SSE akışıdır. Ücretsiz seviye, anonim kullanıcı başına günde 10 jenerasyonu destekler; kimlik doğrulama kullanıcıları hesap başına tam karakter izinini alır.

Kokoro önceden eğitilmiş sesleri kullanır ve klonlamaz. MOSS-TTS-Realtime (entegre edildiğinde) 3 saniyelik bir referanstan sıfır-atış ses klonlamasını destekler. Bugün tam ses klonlaması için, Chatterbox veya GPT-SoVITS ile düzenli /text-to-speech/ sayfasını kullanın — bunlar akışı desteklemez ama özel sesleri üretir.

Normal TTS son noktasının karakter maliyetiyle aynı. Kokoro ücretsiz seviyedir (1x maliyet). MOSS-TTS-Realtime etkinleştirildiğinde standart seviyede (2x maliyet) çalışacaktır. Akış protokolü herhangi bir fiyat ekleme yapmaz.

Evet — akışın son noktası bir telefon çağrısına canlı ses göndermek için bir Twilio ses webhook ile eşleştirilir. Ses ajan platformumuz bunu IVR ve çıkan çağrılar için zaten yapıyor. Telefon çağrısında sondan sona gecikme STT ve LLM yanıtları dahil olmak üzere genellikle 1-2 saniyedir.

Eğer ağınız geçiş sırasında bir parça kaybederse, akışı oynatıcı durmak yerine ileriye atlayacaktır. Aralara tahammül edemeyen uygulamalar için, normal akışı olmayan son noktaya geri dönün veya oynatmaya başlamadan önce 500ms ses arabirimini kullanın.
5.0/5 (1)

Neyi geliştirebiliriz?

Gerçek Zamanlı Konuşma Akışı

Günde ilk 10 nesil için ücretsiz. Tam karakter izin ve API erişimi için kayıt olun.