אמת־צײַט TTS

טעקסט־צו־ספּראַך־סטרימינג מיט אַ װײַטער־סעקונדע־פֿיר־אודיו־לײטערונג. געגרינדעט פֿאַר שפּראַך־אַגענטן און לעבן־פּראָגראַמען

טעקסט פֿאַרבtext-tool-action

װײַז
0/5,000 שריפֿטצײכן ~0.3s ערשטער אודיו

שריפֿט גרײס

נאָרמאַל

װײַז װײַז־פֿאַרב

קליק אױף װײַז צו פֿאַרגרעסערן די גרײס

אױסגאַבע

אודיו־באַזונדערונגען װעלן דאָ אױסגעפֿירט װי זיי אַרײַנפֿירן

0:00
פֿירער־װײַז:
גאַנץ שטיקלעך: 0
גאַנץ צײַט:

װי די סטרימינג TTS אַרבעט

טעקסט פֿאַרבtext-tool-action

POST טעקסט צו /v1/tts/stream/ װי אַ סערװער־געשלײענע געשעעניש־פֿירמע

מאָדעל

קאָקאָראָ צעהאַקט דעם טעקסט און גיט אַ אודיו־פֿאָרעם אױף דער GPU

װײַז פֿאָרױסװײַז

Base64־קאָדירטע WAV־צײַטצײכן אַרײַנקומען איבער SSE און װײַזן זיך אַהין און צוריק

װײַז טעקסט פֿאַרב

דער ניצער הערט דעם אָנהייב פֿון דער שטיק אין קלענער ווי אַ סעקונדע, אױף לאַנגע אַרײַנשרײַבונגען

פֿאַרב:

װוּ די אונטער־סעקונדע־לײטערײט װעט אױפֿשלאָסן נײַע דערפאַרונגען

שפּראַך־אַגענטורן

די װאָס רעדן מיט זיך װעלן ענטפֿערן ווי אַ מענטש.

שריפֿט גרײס

איבערזעצן און אַרײַנשרײַבן אױף אַ סטרימ אין אמת־צײַט אָן אױפֿהאַלטן

שפּילן

NPC דיאַלאָקט וואָס רעאַגירט צום שפּילער ס׳װיל, ניט קיין פֿאַר־געװײנטלעכטע VO

צוגעלייגט

װײַז־לײענער און הילף־װירעלעך װאָס װײַזן זיך אױף װען אַ ניצער קלײַבט

אמת־צײַט TTS־פּלאַנען

אָנהײב פריי, פֿאַרװאַנדל אױף אױב דו װילסט מער

פֿרײַ
  • Kokoro סטרימינג (פֿרייַ מאָדעל)
  • 500 שריפֿטצײכן אױף אײן װײַז
  • 10 פרייע סטרימס/טאָג פּער אַנאָנימישן ניצער
  • אונטער־סעקונדע ערשטער־אודיו־לײטערונג
  • SSE סטרימינג איבער HTTPS
באַרימט
אָפּרוקונג
  • 15,000 שריפֿטצײכן װען מען אַרײַנשרײַבט זיך
  • 5,000 שריפֿטצײכן אױף אײן סטרימ
  • API־שריפֿטצײכן פֿאַר פּראָגראַממיר־צוטריט
  • װײַז דער געשיכטע
  • ניט קיין טעגלעך סטרימ־קאָפּ
אַרײַנשרײַבן
פּראָ
  • MOSS-TTS-רעאַלטעם (װען לעבן)
  • 100,000 שריפֿטצײכן אױף אײן סטרימ
  • GPU שורה מיט פּריאָריטעט
  • שפּראַך־אַגענט און Twilio אינטערגרונט
  • העכערע צאָלונג־גראָבער
פֿאַרבעסערן

פֿראַגעס און ענטפֿערס

טעקסט־צו־ספּראַך אין אמת־צײַט װײַזט אודיו־פֿאַרבײדיקונגען בשעת זיי ווערן געװאָרפֿן, אין װײַזט נישט אױף דעם װאָס די װערטער זײַנען װײַטער צוגעגרייט. דער ערשטער אודיו־פֿאַרבײַטיקונג קומט אין ווייניקער װי אַ סעקונדע, װאָס גיט עס פּאַסיק פֿאַר לעבן־ספּראַך־אַגענטן, דופּליקאַציע, און אינטעראקטיװע אַפּליקאַציעס װוּ די װײַטער־צײַט איז וויכטיק

נאָרמאַל TTS גיט אױס די װאָלטײל־אויער־טעקע איידער עס װעט װײַזן עפּעס — דו װעטסט, און דערנאָך הערט מען די װאָלטײל־סײַט אין אַ מאָל. װײַט־צײַט TTS ניצט סערװער־געשלײטע געשעענישן (SSE) צו װײַזן קורצע אויער־צײַטונגען װי דער מודל װעט זײ װײַזן. דער ניצער הערט דעם אָנהײב פֿון דער סײַט כּמעט מיד, אױף לענגיקע אַרײַנשרײַבונגען אויך.

קאָקאָראָ איז דער געװײנטלעכער הינטער־פֿאַרב — ער גיט אױדיו 100קס שנעלער אױף אַ מאָדערנעם GPU ווי אין אמת־צײַט. מיר אַרײַנשטעלן MOSS-TTS-Realtime װי אַ העכער־קװאַליטעט־אַלטערנאַטיוו; ניצערס װעלן קענען קלײַבן אױף דער פֿראַגע, װען דאָס װעט אױפֿגעשטאַנען.

דער װײַב־פֿאָרעם פֿון דער ערשטער אודיו־פֿאַרבינדונג איז 300-800 מיסעל איבער אַ װעלטלעכער פֿאַרבינדונג. דער נעץ־אַרױס־געפֿאָר איז דערנאָך די מאַכט. די בלעטערער װײַזט די װײַב־פֿאָרבינדונג אין דער ניצער־צובינד, אַזוי אַז איר קענט זען פּונקט ווי לאַנג יעדער פֿראַגע האָט געדויערט

שפּראַך־אַגענטן וואָס ענטפֿערן אין שמועס, לעבן־דובינג פֿאַר סטרימינג־מדיה, אינטאַגראַטיווע שפּיל־NPCס, צוגאָבלעכקייט־לײענער וואָס װײַזן זיך אין דער צײַט װען אַ ניצער קליקט, און װאָסער־אויסער אַפּלאַקאַציע װאָס װעט זיך װײַזן װי אַ װײַטערונג פֿון צוויי אָדער דרייַ סעקונדעס פֿאַר אַ אודיו וואָלט זיך געװײנטלעך געװען אַ װײַטערונג.

י. POST צו https://api.tts.ai/v1/tts/stream/ מיטן זעלבן קאָפּ ווי דער נאָרמאַלער /v1/tts/ סוף־פּונקט. דער ענטפֿער איז אַ SSE־סטרימ פֿון base64־קאָדירטע WAV־צײַגלעך. דער פרייער װירוס שטיצט 10 װירוס־גענעװירונגען אַ טאָג פֿאַר אַ אַנאָנימישן ניצער; אױטאָמאַטיזירטע ניצערס באַקומען די פֿולע שריפֿטצײכן־פֿאַרבינדונג פֿאַר אַ קאָנטאָם

קאָקאָראָ ניצט פֿאַר־געלערנטע שפּראַכן און קלאָנירט ניט. MOSS-TTS-רעאַלטעימ (װען אינטערגרײצט) שטיצט ניט־צוגעפֿירטע שפּראַך־קלאָנירונג פֿון אַ 3־סעקונדע רעפֿערענץ. פֿאַר אַ פֿולער שפּראַך־קלאָנירונג הײַנט, ניצט די נאָרמאַלע /טעקסט־צו־שפּראַך/ בלעטערער מיט צײַט־פֿאַרב אָדער GPT-SoVITS — די זענען ניט־סטרימינג־קעגנשטעליק אָבער פּראָדוצירן צוגעפֿירטע שפּראַכן.

דער זעלבער שריפֿטצײכן־קײט װי דער נאָרמאַלער TTS סוף־פּונקט. Kokoro איז אַ פריי־הײב (1x־קײט). MOSS-TTS-רעאַלטעימ װעט לײענען אױף דער נאָרמאַלער הײב (2x־קײט) װען עס איז אױסגעשלעפּט. דער סטרימינג־פּראָטאָקאָל װײַזט ניט קיין צאָלונג־צופֿרידנקייט

יָה — צופּאַרבינדן דעם סטרימינג־סוף־פּונקט מיט אַ Twilio שפּראַך־װײַב־האָק צו פֿײַערן לעבן־אויער אין אַ טעלעפֿאָנירן־צורופֿט. אונדזער שפּראַך־אַגענט־פּלאַטפֿאָר טוט דאָס שוין פֿאַר IVR און אויסגאַבע־צורופֿט. די סוף־צו־סוף־לײטערונג אויף אַ טעלעפֿאָן־צורופֿט איז נאָרמאַלי 1-2 סעקונדעס, אַרייַנגערעכנט STT און LLM ענטפֿער.

אױב דיר האָט זיך געלאָזט אַ שטיקל אין דער טראַנספּאָרטירונג, װעט דער סטרימינג־שפּילער אַרײַנלאָזן אַ שטיקל אין דער טראַנספּאָרטירונג, ניט אױף אַ שטיקל. פֿאַר פּראָגראַמען װאָס קענען ניט פֿאַרטראָגן װײַטער־צוגײן, װעט מען אַרײַנלאָזן אַ שטיקל אין דער ניט־סטרימינג־סוף־פּונקט, אָדער װעט מען אַרײַנלאָזן 500 מיסלען אודיו אױף דער װײַטער־צוגײן, איידער מען װעט אָנהײבן אױפֿצושפּילן.
5.0/5 (1)

וואָס קען מען פֿאַרבעסערן? דיין אָפּרוף העלפֿט אונדז צו פֿאַרריכטן פּראָבלעמען

שריפֿט גרײס:

פריי פֿאַר די ערשטע 10 װעלט־װײַטערגײונגען אַ טאָג. אַרײַנשרײַבן זיך צו אָפּשלאָסן די פֿולע שריפֿטצײכן־פֿאַרבינדונג און API־צוטריט