TTS בזמן אמת

הזרמת טקסט לדיבור עם תת שנייה השהיה ראשונה-audio נבנה לסוכנים קוליים ויישום חי.

אין לנו קולות TTS בשפה שלך עדיין עזור לנו להוסיף את שלך! מכור את קולך

טקסט

זרימה
0/5,000 תווים ~0.3s שמע ראשון

הגדרות קול

דגמים בעלי יכולת הזרימה בלבד.

Live Latency

לחץ על זרם כדי למדוד את חבישת האודיו הראשונה

פלט

חתיכות שמע ישחקו כאן כשהם יזרמו פנימה.

0:00
נתח ראשון:
חתיכות סה"כ: 0
זמן כולל:

כיצד הזרימה של TTS פועלת

1. שלח טקסט

POST text to /v1/tts/ stream/ as a Server-Sent Events quest.

2. יצרן מודלים

Kokoro מקצץ את הטקסט ויוצר מדגם אודיו על ידי דגימה על GPU.

3 זרמי צ'אנקס

נתחי WAV מוצפנים בבסיס 64 מגיעים מעל SSE ולהתחיל לשחק באופן מיידי.

4 הקשב בשידור חי

המשתמש שומע את תחילת המשפט תוך פחות משנייה, אפילו על קלטים ארוכים.

השתמש בתיקים

היכן שהשקעה תת-שנייה פותחת חוויות חדשות.

סוכנים קוליים

רובוטי שיחה שמגיבים מהר כמו שבן אדם היה עושה.

Dibbing Live

לתרגם ולהעביר זרם בזמן אמת מבלי להשהות את החוצץ.

משחקים

דו־ שיח NPC שמגיב לבחירות של השחקנים באופן מיידי, ללא VO שהותקן מראש.

נגישות

קוראי מסך וכלי עזר שמתחילים לדבר ברגע שמשתמש לוחץ.

תוכניות TTS בזמן אמת

התחל חופשי, שדרוג כאשר אתה צריך יותר

חופשי
  • הזרמת Kokoro (דגם חופשי)
  • 500 תווים לדור
  • 10 זרמים/יום חינם למשתמש אנונימי
  • הרחבה ראשונה של תת־ שנייה של Audio
  • SSE זורם מעל HTTPS
הפופולרי ביותר
חשבון חינם
  • 15,000 תווים בעת ההרשמה
  • 5,000 chars לכל זרם
  • מפתח API לגישה לתכנות
  • היסטוריית הדורות
  • אין כיפת זרם יומית
הרשמה חופשית
בעד
  • MOSS-TTS- Realtime (בשידור חי)
  • 100,000 chars לכל זרם
  • תור GPU עדיפות
  • סוכן קול + אינטגרציה טוויליו
  • גבולות קצב גבוהים יותר
שדרוג

שאלות ששואלים לעתים קרובות

מדגם השמע הראשון מגיע בפחות משנייה אחת, מה שהופך אותו למתאים לסוכני קול חיים, דאבינג, ויישומים אינטראקטיביים שבהם עניין הלהט.

TTS רגיל מייצר את קובץ השמע המלא לפני שאתה מחזיר משהו שאתה מחכה, ואז שומע את המשפט כולו בבת אחת. TTS בזמן אמת משתמש באירועי שרת-סנט (SSE) כדי להזרים חתיכות אודיו קצרות כאשר המודל מייצר אותם. המשתמש שומע את תחילת המשפט כמעט מיד, אפילו על קלטים ארוכים.

Kokoro היא ברירת המחדל של הממשק □ היא מייצרת אודיו בערך 100x מהר יותר מאשר בזמן אמת על GPU מודרני. אנו משלבים את MOS-TTS- Realtime כאלטרנטיבה באיכות גבוהה יותר; משתמשים יוכלו לבחור לפי בקשה ברגע שספינות אלה.

תדירות אודיו ראשונה טיפוסית בקוקורו היא 300-800 מ"מ מעל חיבור ציבורי. רשת הלוך ושוב שולטת לאחר מכן. העמוד מדגמן את הזמן שנמדד מחדש ב-UI כך שניתן לראות בדיוק כמה זמן כל בקשה לקחה.

סוכני קול שמגיבים בשיחה, דאבינג חי לתקשורת הזרמת, NPCs משחק אינטראקטיבי, קוראי נגישות שמתחילים לדבר ברגע שמשתמש לוחץ, וכל יישום שבו מחכה שתי או שלוש שניות עבור שמע ירגיש איטי.

כן. POST ל- http:/ api.tts.ai/v1/stream / with the same body as the recial / v1/tts/ endpoint. The response is an SSE stream of bas64- encoded WAV groups. The free tire supports 10 counties per alonious user; reformated users get the per-account per-accountive per per-account.

Kokoro משתמש קולות מאומנים מראש ולא לשכפל. MOSS-TTS-Realtime (כאשר משולב) תומך בשיבוט קול אפס-shot מ הפניה 3 שניות. עבור שיבוט קול מלא היום, השתמש בדף הרגיל / טקסט-to-speech / עם Chatterbox או GPT-SOVITs

אותה העלות כמו נקודת הסיום הרגילה של TTS. Kokoro הוא עלות (1x. MOSS-TTS-Realtime יהיה לרוץ בשורה הסטנדרטית (2x עלות) כאשר מופעל. פרוטוקול הזרמת אינו מוסיף כל חיוב מחיר.

מערכת הקול שלנו כבר עושה את זה עבור IVR ו-outbroading calling. סוף סוף-end-hock הוא בדרך כלל 1-2 שניות כולל STT ו-LLM.

אם הרשת שלך מפילה גוש במעבר, נגן הזרימה ידלג קדימה במקום למשוך זמן. עבור יישומים שאינם יכולים לסבול פערים, ליפול בחזרה אל נקודת הקצה הלא-זרם הרגילה, או חיץ 500 מ"מ של שמע לפני הפעלת השמעת השמעה.
5.0/5 (1)

המשוב שלך עוזר לנו לפתור בעיות.

נאום זרם בזמן אמת

חינם בעשרת הדורות הראשונים ביום, הרשם לפתיחת קצבת אופי מלאה וגישה ל-API.