דיווח על בקשת באג / תכונה

TTS בזמן אמת

הזרמת טקסט לדיבור עם תת שנייה השהיה ראשונה-audio נבנה לסוכנים קוליים ויישום חי.

הרשמה חופשית

אין לנו קולות TTS בשפה שלך עדיין עזור לנו להוסיף את שלך! מכור את קולך

טקסט

זרימה

0/5,000 תווים ~0.3s שמע ראשון

הגדרות קול

דגם דגמים בעלי יכולת הזרימה בלבד.

קול

מהירות 1.0x

Live Latency

—

לחץ על זרם כדי למדוד את חבישת האודיו הראשונה

פלט

חתיכות שמע ישחקו כאן כשהם יזרמו פנימה.

כיצד הזרימה של TTS פועלת

1. שלח טקסט

POST text to /v1/tts/ stream/ as a Server-Sent Events quest.

2. יצרן מודלים

Kokoro מקצץ את הטקסט ויוצר מדגם אודיו על ידי דגימה על GPU.

3 זרמי צ'אנקס

נתחי WAV מוצפנים בבסיס 64 מגיעים מעל SSE ולהתחיל לשחק באופן מיידי.

4 הקשב בשידור חי

המשתמש שומע את תחילת המשפט תוך פחות משנייה, אפילו על קלטים ארוכים.

השתמש בתיקים

היכן שהשקעה תת-שנייה פותחת חוויות חדשות.

סוכנים קוליים

רובוטי שיחה שמגיבים מהר כמו שבן אדם היה עושה.

Dibbing Live

לתרגם ולהעביר זרם בזמן אמת מבלי להשהות את החוצץ.

משחקים

דו־ שיח NPC שמגיב לבחירות של השחקנים באופן מיידי, ללא VO שהותקן מראש.

נגישות

קוראי מסך וכלי עזר שמתחילים לדבר ברגע שמשתמש לוחץ.

תוכניות TTS בזמן אמת

התחל חופשי, שדרוג כאשר אתה צריך יותר

חופשי

הזרמת Kokoro (דגם חופשי)
500 תווים לדור
10 זרמים/יום חינם למשתמש אנונימי
הרחבה ראשונה של תת־ שנייה של Audio
SSE זורם מעל HTTPS

הפופולרי ביותר

חשבון חינם

15,000 תווים בעת ההרשמה
5,000 chars לכל זרם
מפתח API לגישה לתכנות
היסטוריית הדורות
אין כיפת זרם יומית

הרשמה חופשית

בעד

MOSS-TTS- Realtime (בשידור חי)
100,000 chars לכל זרם
תור GPU עדיפות
סוכן קול + אינטגרציה טוויליו
גבולות קצב גבוהים יותר

שדרוג

שאלות ששואלים לעתים קרובות

מדגם השמע הראשון מגיע בפחות משנייה אחת, מה שהופך אותו למתאים לסוכני קול חיים, דאבינג, ויישומים אינטראקטיביים שבהם עניין הלהט.

TTS רגיל מייצר את קובץ השמע המלא לפני שאתה מחזיר משהו שאתה מחכה, ואז שומע את המשפט כולו בבת אחת. TTS בזמן אמת משתמש באירועי שרת-סנט (SSE) כדי להזרים חתיכות אודיו קצרות כאשר המודל מייצר אותם. המשתמש שומע את תחילת המשפט כמעט מיד, אפילו על קלטים ארוכים.

Kokoro היא ברירת המחדל של הממשק □ היא מייצרת אודיו בערך 100x מהר יותר מאשר בזמן אמת על GPU מודרני. אנו משלבים את MOS-TTS- Realtime כאלטרנטיבה באיכות גבוהה יותר; משתמשים יוכלו לבחור לפי בקשה ברגע שספינות אלה.

תדירות אודיו ראשונה טיפוסית בקוקורו היא 300-800 מ"מ מעל חיבור ציבורי. רשת הלוך ושוב שולטת לאחר מכן. העמוד מדגמן את הזמן שנמדד מחדש ב-UI כך שניתן לראות בדיוק כמה זמן כל בקשה לקחה.

סוכני קול שמגיבים בשיחה, דאבינג חי לתקשורת הזרמת, NPCs משחק אינטראקטיבי, קוראי נגישות שמתחילים לדבר ברגע שמשתמש לוחץ, וכל יישום שבו מחכה שתי או שלוש שניות עבור שמע ירגיש איטי.

כן. POST ל- http:/ api.tts.ai/v1/stream / with the same body as the recial / v1/tts/ endpoint. The response is an SSE stream of bas64- encoded WAV groups. The free tire supports 10 counties per alonious user; reformated users get the per-account per-accountive per per-account.

Kokoro משתמש קולות מאומנים מראש ולא לשכפל. MOSS-TTS-Realtime (כאשר משולב) תומך בשיבוט קול אפס-shot מ הפניה 3 שניות. עבור שיבוט קול מלא היום, השתמש בדף הרגיל / טקסט-to-speech / עם Chatterbox או GPT-SOVITs

אותה העלות כמו נקודת הסיום הרגילה של TTS. Kokoro הוא עלות (1x. MOSS-TTS-Realtime יהיה לרוץ בשורה הסטנדרטית (2x עלות) כאשר מופעל. פרוטוקול הזרמת אינו מוסיף כל חיוב מחיר.

מערכת הקול שלנו כבר עושה את זה עבור IVR ו-outbroading calling. סוף סוף-end-hock הוא בדרך כלל 1-2 שניות כולל STT ו-LLM.

אם הרשת שלך מפילה גוש במעבר, נגן הזרימה ידלג קדימה במקום למשוך זמן. עבור יישומים שאינם יכולים לסבול פערים, ליפול בחזרה אל נקודת הקצה הלא-זרם הרגילה, או חיץ 500 מ"מ של שמע לפני הפעלת השמעת השמעה.

5.0/5 (1)

נאום זרם בזמן אמת

חינם בעשרת הדורות הראשונים ביום, הרשם לפתיחת קצבת אופי מלאה וגישה ל-API.

הרשמה חופשית תצוגה של Princing

TTS בזמן אמת

טקסט

הגדרות קול

Live Latency

פלט

כיצד הזרימה של TTS פועלת

1. שלח טקסט

2. יצרן מודלים

3 זרמי צ'אנקס

4 הקשב בשידור חי

השתמש בתיקים

סוכנים קוליים

Dibbing Live

משחקים

נגישות

תוכניות TTS בזמן אמת

שאלות ששואלים לעתים קרובות

מהו TTS בזמן אמת?

איך TTS בזמן אמת שונה מ TTS הרגיל?

איזה מודל מפעיל את הדף בזמן אמת?

כמה מהר הוא הראשון-audio חבישה?

מה אני יכול לבנות עם TTS בזמן אמת?

האם יש API עבור TTS בזמן אמת?

האם זה תומך בשיבוט קול?

כמה עולה TTS בזמן אמת?

אני יכול להשתמש בו בשיחות טלפון?

למה הקול מנותק באמצע מילה לפעמים?

נאום זרם בזמן אמת