Report Bug / Feature Request

אמת־צײַט־סטימעלע קלאָנירונג — קלאָנירן װעלכע סטימעלע װאָס מײנט אין סעקונדעס

קלאָנ אַװעק אַװעק אַװעק קלאָנ אױף אױף אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױף קלאָנ אױ

אמת־צײַט טעקסט פֿאַרבtransform-type קלײַב אַלץ אױסundo-type אָפּגעשטעלט שפּראַכן װײַז װיפֿל

װײַטער־קלײַב־פֿעיִקייטן

קלאָנע שטימע אין אַ מינוט מיט דער לעצטער קײן — ניט קיין איבערזעצונג, ניט קיין דאַטן־סעקשאַנז, ניט קיין װאַטערן

קלײַב אַלץ אױסundo-type

ניט קיין אַרײַנשרײַב־פּראָצעס, ניט קיין פֿינן־אַרײַנשרײַב, ניט קיין דאַטן־סעלעקציע. אַרײַנשרײַבן 5 סעקונדעס פֿון אַודיאָ און באַקומען אַ קלאָנירטע שפּראַך אין דער זעלבער צײַט. די קײן־טעכנאָלאָגיע אַרײַנשרײַבט די רעדאַקטאָר־קעראַקטעריסטיקס אין דער אמתער צײַט.

קלײַב אַלץ אױסundo-type

װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַל װײַ

שפּראַך־צופֿרידנקייט

קלאָנ אַ שפּראַך אין ענגליש און שאַפֿע שפּראַך אין שפּאַניש, יאַפּאַניש, קאָרעיִש און מער. CosyVoice 2 און Qwen3-TTS באַהאַלטן שפּראַך־אידענטיקיטעט איבער 17+ שפּראַכן

װײַז װיפֿל

צאַטטערבאָקס, אופֿן־װאָיס און GLM-TTS שטיצן אַ סטימיאַלישן װײַז. שאַפֿן דעם זעלבן טעקסט מיט פֿאַרשיידענע סטימיאַלישן — צופֿרידן, שװער, זײער, פֿײַסנדיק — בשעת מען האַלט די קלאָנעדיקע שפּראַך

פֿאָרױסװײַז

יעדער קלאָנירונג מאָדעל איז אַ פֿאָרװערטס־קאָפּיע אונטער MIT אָדער Apache 2.0 ליסענסן. ניצט קלאָנירטע שפּראַכן פֿאַרקויף־זיכער פֿאַר אינהאַלט, פּראָדוקטן און אַפּליקאַציעס אָן רעװיזיעס

קלאָנינג API

REST API פֿאַר פּראָגראַממירדיקע שפּראַך־קלאָנירונג. אַרײַנשטעלן רעפֿערענץ־אויער, באַשטעטיקן טעקסט, און באַקומען קלאָנירטע שפּראַך. SDKס פֿאַר Python און JavaScript. אַרײַנשטעלן װײַטער פֿאַר העכערע אַרבעט־פֿלאָסן

שריפֿט גרײס

9 אָפֿן־קאָל־מאָדעלן פֿאַר יעדער קלאָנינג־נוץ־קאַל

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 שריפֿט גרײס

בעסטער פֿאַר: בעסטער אַלגעמיינע קװאַליטעט — 5־סעקונדעס־פֿאָרעם, עמאָציע־קאָנטראָל, MIT־ליסענסירט

דורכפֿאַל Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 שריפֿט גרײס

בעסטער פֿאַר: בעסטער מערשטע שפּראַכן קלאָנינג — װײַזט די שפּראַך איבער שפּאַניש, ענגליש, יאַפּאַניש, קאָרעיִש

דורכפֿאַל CosyVoice 2

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 שריפֿט גרײס

בעסטער פֿאַר: פֿאָרױסװײַז פֿאָרמאַטירונג

דורכפֿאַל OpenVoice

Spark TTSSpark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Medium 4/5 שריפֿט גרײס

בעסטער פֿאַר: שנעלסטע קלאָניר־מאָדע — רעזולטאטן אין ~12 סעקונדעס

דורכפֿאַל Spark TTS

IndexTTS-2IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Medium 4/5 שריפֿט גרײס

בעסטער פֿאַר: װעלכע שפּראַך

דורכפֿאַל IndexTTS-2

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 שריפֿט גרײס

בעסטער פֿאַר: סטודיאָ־קוואַליטעט רעזולטאטן — בעסטער פֿאַר אוודיאָ־בוך און פּרעמיום דערציילונג

דורכפֿאַל Tortoise TTS

װי װײַל װײַטע־צײַט־װײַסע־קלאָנירונג אַרבעט

פֿון אַ קורצער אודיו־פֿאָרעם צו אַ ניט־געבײענעמענער קלאָנירטער שפּראַך

1

אַרײַנשטעלן רעפֿערענץ אודיו

אױפֿשפּיר אָדער אַרײַנשטעלן 5-30 סעקונדעס פֿון קלאָרער שפּראַך פֿון דער שפּראַך װאָס דו װילסט קלאָנירן. WAV, MP3, אָדער אױףשפּיר ישׂראל

2

קלײַב אַלץ אױסselect-action

װײַז די מאָדעל װאָס פּאַסט צו דיין נייטיקײטן — צאַטטערבאָקס פֿאַר קװאַליטעט, ספּאַרק פֿאַר שנעלײט, קאָסיװאָיס 2 פֿאַר מערשטע שפּראַכן

3

אַרײַנשרײַב דירעקטאָריעס

קלײַב אױף אָדער קלײַב אױף דעם טעקסט װאָס דו װילסט אַז דער קלאָנירטער שפּראַך זאָל רעדן. װאָסער שפּראַך װאָס די מאָדעל שטיצט אַרבעט.

4

אױסגלײַכונג

קליק צוגעגרייט און הערן אייער קלאָנעד סטײַץ אין 10-25 סעקונדעס. אראפקאפיע ווי WAV אָדער MP3 פֿאַר שנעלער ניצן

װי Zero-Shot סטימעלע קלאָנינג אַרבעט

ניט קיין פֿינע־טוּנינג, ניט קיין דאַטן־סעלעקציע — נאָר אױפֿשטעלן און קלאָנירן

װײַז װיפֿל

The AI analyzes your reference audio to extract a speaker embedding — a compact mathematical representation of the voice's unique characteristics including pitch, timbre, speaking rhythm, and vocal texture. This happens in under 1 second.

  • אַרבעט מיט װי אַ סך 5 סעקונדעס אודיו
  • קלײַב אױס די שטימע, טימברע און שפּראַך־סטייל
  • ניט נייטיק אױפֿצולערנען אָדער צופֿרידנקייט
  • אודיו איז קײן מאָל ניט לײדיק געװאָרן

װײַז װײַז־פֿאַרב

די TTS־מאָדעעל גיט אױס אַ נײַע שפּראַך, װאָס איז פֿאַרבינדט מיטן רעדאַקטאָרס אַרײַנשרײַב. דאָס רעזולטאט הערט זיך אױס װי דער רעפֿערענץ־רעדאַקטאָר זאָגט אײַער טעקסט — מיט נאַטירלעכער פּראָסאָדיע, פּאַסיקער אַרײַנשרײַב־פֿאַרב און דער אָריגינעלער שפּראַך

  • גרײס פֿון טעקסט
  • איבער־שפּראַכלעך קלאָנירן (שפּראַכן וואָס די רעפֿערענץ האָט ניט געקענט רעדן)
  • סעלעקציעtransform-type
  • רעזולטאַטן אין 10-25 סעקונדעס

שריפֿט גרײס

קלײַב אַלץ אױסselect-action

מאָדע קלענסטע רעפֿערענץ שאַטירונג קװאַליטעט שפּראַכן װײַז אױס לינקס
Chatterbox 5s ~21s בעסטער EN MIT
CosyVoice 2 5s ~20s שײן ענגליש Apache 2.0
GPT-SoVITS 5s ~16s שײן ענגליש MIT
OpenVoice 5s ~15s גוט ענגליש, צװײטע שפּראַך MIT
Spark TTS 5s ~12s גוט ענגליש Apache 2.0
IndexTTS-2 5s ~18s שײן ענגליש Apache 2.0
GLM-TTS 5s ~25s שײן ענגליש Apache 2.0
Qwen3-TTS 5s ~16s שײן ענגליש Apache 2.0
Tortoise 15s ~60s סטודיאָ EN Apache 2.0

פֿאַרװאָס מענטשן ניצן אמת־צײַט־סטימעלע קלאָנינג

פֿון אינהאַלט־צוגעבינדונג צו צוגאָבלעכקייט — שפּראַך־קלאָנינג האָט װײַטער אַ סך אַפּלאַקאַציעס

אוודיאָ־בוך דערציילונג

אױטגעבער קלאָנירן זייער אייגענע שפּראַך און שאַפֿן גאַנץ אודיו־בוך אָן צאָלן שעהען אין אַ אױפֿשפּיר־קאָפּיע. רעדאַגירן טעותן דורך אױסצושטעלן אייגענע שורות אין װײַטער אױףצושפּירען.

ווידעאָ־דײַטש

װײַז פֿילמען אין אַנדערע שפּראַכן בשעת דו האַלטסט דעם אָריגינעלן רעדאַקטאָר

אינהאַלט־סעלעקציע

YouTubers, podcasters, און TikTok שאַפֿער קלאָנירן זייערע שפּראַך פֿאַר קעסיידערדיק בראַנדינג. דזשענערירן שפּראַך איבערזעצונגען פֿאַר נייַ אינהאַלט אָן רעקאָרדירן, אָדער מאַכן אַלערדזשיק שפּראַך ווערסיעס פון איצטיקע ווידיאס.

צוגעלייגט

מענטשן װאָס האָבן ניט מער געהאַט אַ שטימע װײַל זיי זײַנען קראַנק געוואָרן אָדער האָבן זיך אָפּגעלאָזט פֿון אַ אָפּעראַציע, קענען זי װײַטער פֿאַרהיטן װײַל זיי קלאָנירן פֿון אלטע אױפֿפֿירונגען. די קלאָנירטע שטימע לאָזט זיי רעדן מיט זייער אייגענע שטימע װײַטער װײַזט אױס די װײַטער־װײַזונג

שפּיל־אַנטוויקלונג

קלאָנ די שפּראַך־אַקטאָרן און שאַפֿן אומבאַקאַנטע דיאַלאָג־װאַריאַציעס אָן אַ סטודיאָס־צײַט־פּראָגראַם. פּאַסיק פֿאַר אינדי־ספּאָרט, מאָדס און פּראָטאָטיפּירונג, װוּ די איבער־אַרײַנשרײַב פֿון יעדער שורה איז ניט נייטיק

טעקסט פֿאַרב

קלאָנירן דיין פֿירמע־װאָרנער

TTS.ai קעגן אַנדערע שפּראַך־קלאָנינג־לאָסיעס

װאָס 9 מאָדעלן שײן אײן אײגענעם אָפֿן־קאָר־פּראָיעקט

פֿונקציע TTS.ai SV2TTS ElevenLabs Resemble AI
קלאָנירונג מאָדעלס 9 1 1 1
קלענסטע אוודיאָ־רעפֿערענץ 5 sec 5 sec 30 sec 3 min
אױפֿפֿיר ניט ניט ניט יאָ
אויטאָמאַטישע פֿאָרװערטס־װירוס־װײַז סטודיאָס־גרײס דאַטע שײן שײן
װײַז װיפֿל
שפּראַך־צופֿרידנקייט
אָפּגעשטעלט
GPU נייטיק קלײַב אַלץ אױסundo-type יאָ קלײַב אַלץ אױסundo-type קלײַב אַלץ אױסundo-type
API צוטריט
פֿרײַער־הײך 15 קרעדיץ זיך־געזעלשאַפֿט באַגרענעצט

שפּראַך־קלאָניר־API

קלאָנע שטימע־פּראָגראַמען מיט אונדזער REST API

פּײַטאָן — שפּראַך־קלאָנירונג REST API
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)
cURL — שפּראַך־קלאָנירונג REST API
curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

טעקסט פֿאַרבdialogs-action

קלײַב אױס די װידערגײן־װירוס־פֿאָרמאַטירונג

שװערע אױספֿיר

קלײַב אױס אין אַ לײַכטער צימער מיט אַ קלענערן הינטערגרונט־רעש. די קײן־טעכנאָלאָגיע װײַזט די שפּראַך־פֿעיִקײטן קלײַבערדיקער אױף פֿון אַ קלאָרן אודיו־פֿאָרעם.

10־30 סעקונדעס

װען 5 סעקונדעס אַרבעט, 10-30 סעקונדעס גיט אַ סך בעסערע רעזולטאטן. ווי מער נאַטירלעך די קײן הערט, די מער ריכטיק דער קלאָן איז

נאַטירלעך שפּראַך

Speak naturally, not in a monotone. Include varied intonation and pacing. The AI captures your natural speaking style, including pauses and emphasis.

אײנערלעכע רעדאַקטאָר

ניצן אַ פֿאַרשפּיל מיט נאָר אַ מענטש וואָס רעדט. מערערע שפּראַכן פֿאַרבינדן די רעדאַקטאָר־אַרײַנשרײַבונג און שאַפֿן פֿאַרמישטע רעזולטאטן

װײַז/היטן טעקסט פֿאַרב

אַרײַנשטעלן 5 סעקונדעס פֿון אודיו און הערן אייער קלאָנירטע שפּראַך אין אונטער 30 סעקונדעס. פֿרייַ צו פּרובירן

קלײַב אַלץ אױסselect-action API דאָקומענטאַציע

פֿראַגעס און ענטפֿערס

פֿראַגעס וועגן אמת־צײַט־סטימעלע קלאָנירונג

אמת־צײַט־סטימעלע־קלאָנירונג איז אַ קײן־טעכנאָלאָגיע װאָס קען אָפּשפּילן אַ מענטשנס סטימעלע פֿון אַ קורצער אודיו־פֿאָרעם — ווי װײַט ווי 5 סעקונדעס — אָן קיין װײַזן אָדער פֿינן־צופּאַסן. דו אַרײַנשטעלן אַ פֿאָרעם, און די קײן־טעכנאָלאָגיע גיט אַ נײַער שפּראַך װאָס קלינגט װי דער מענטש. TTS.ai גיט 9 פֿאַרשיידענע סטימעלע־קלאָנירונג־מאָדעלן, װאָס װײניקער זײַנען אין קײן פֿאָרם, גיכקייט און שפּראַך־שטיצן.

װי װײַט ווי 5 סעקונדעס אַרבעט מיט די אײגסטע מאָדעלן (Chatterbox, CosyVoice 2, Spark, GPT-SoVITS, OpenVoice). Tortoise דאַרף 15+ סעקונדעס פֿאַר די בעסטער רעזולטאטן. פֿאַר אַ גוטע קװאַליטעט איבער אַלע מאָדעלן, איז 10-30 סעקונדעס קלאָרער, איין־לײענער אודיו רעקאַמענדירט. דער אודיו זאָל זײַן פֿרײַ פֿון הינטערגרונט־רעש און מוזיק

די שפּראַך־קלאָנינג־טעכנאָלאָגיע איז זיך לעגאַל. אָבער, דו קענסט קלאָנירן בלויז שפּראַכן װאָס דו האָסט דערלויבט צו ניצן — דײַן אייגענע שפּראַך, שפּראַכן װאָס דו האָסט אַ קלאָרע צושטימען פֿאַר, אָדער שפּראַכן אין דער װעלטלעכער װעלט. צו ניצן שפּראַך־קלאָנינג צו פֿאַרשײדן זיך פֿון עמעצער אָן צושטימען, צו פֿירן שׂינאה, אָדער צו מאַכן אַ מאָדנע אינהאַלט איז אומלעגאַל אין די אײגסטע װירוס־געזיכטיקע לענדער. TTS.ai ס תּנאים װעלן דיר דערלױבן צו האָבן רעכטן צו װעלכע שפּראַך דו װילסט קלאָנירן.

דאָס איז אַפֿילו אַפֿילו אַ װײַטער־פֿאַרבינדונג צו דער װעלט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װײַט־װ

יָה — דאָס איז גערופֿן שפּראַך־צופֿרידנקייט־סטימע־קלאָנינג. CosyVoice 2, Qwen3-TTS, און OpenVoice שטיצן דאָס. למשל, איר קענט אָפּלאָדן אַ ענגליש־סטימע־פֿאָרעם און שאַפֿן אַ שפּראַך אין שפּאַניש, יאַפּאַניש אָדער קאָרעיִש בשעת איר באַצאָלט אַרײַן די שפּראַך־קוואַליטעטן פֿון דעם רעדאַקטאָר. די קוואַליטעט װײַזט זיך אױף דעם מאָדעל און די שפּראַך־פּאַר.

די CorentinJ/Real-Time-Voice-Cloning GitHub פּראָיעקט (60K+ שטערן) ניצט SV2TTS, אַ 2019 ארכיטעקטור. בשעת װידערװײַזנדיק צום צײַט, מאָדערנע מאָדעלן װי Chatterbox, CosyVoice 2, און GPT-SoVITS פּראָדוצירן אַ װײַטער בעסערע אודיו־קוואַליטעט מיט אַ בעסערע רעדאַקטאָר־שײַכות. TTS.ai װײַזט 9 מאָדעלן (פֿון SV2TTS) און דאַרף ניט קיין GPU־אַרײַנשטעלן — נאָר אױפֿשטעלן און קלאָנירן

יאָ. TTS.ai גיט אַ REST API פֿאַר שפּראַך־קלאָנינג. אַרײַנשטעלן רעפֿערענץ־אויער און טעקסט, קלײַבן אַ מאָדעל, און באַקומען קלאָנעד רעדן. בנימצא װידער דורך Python SDK (pip install ttsai), JavaScript SDK (npm install @ttsainpm/ttsai), אָדער דירעקטיווע HTTP־פֿירער. שטיצט װײַטער־קלאָנינג פֿאַר אַװעקצושטעלן מערערע טעקסטן מיט דער זעלבער קלאָנעד שפּראַך

י. נאָך קלאָנירונג, היט אױף די שפּראַך אין דיין אױסלײג און ניצע זי אױך איבער אומגעבראַכטע װירוסן אָן אױפֿצושטעלן דעם רעפֿערענץ־אודיו. געװאַרטע שפּראַכן װײַזן זיך אין דיין שפּראַך־ביבליאָטעק אױף דער שפּראַך־קלאָנירונג־װײַז און זײַנען צוגעגײן דורך די API

WAV, MP3, OGG, FLAC, און WebM זײַנען אַלע שטיצט. דו קענסט אויך אױפֿהיטן גלייך אין דײַן בלעטערער מיטן אַרײַנגערעכנטן מיקרופֿאָן־אַרײַנשרײַבער. פֿאַר די בעסטער רעזולטאטן, ניצ די WAV־פֿאָרעם אָן אָנווער אין 16kHz אָדער העכער. דער AI פֿאָרמעט זיך אויטאָמאַטיש צום אָנהייב (אַרײַנפֿאַלן, אַרײַנפֿאַלן) אָן גענומען חשבון פֿאַר דעם אַרײַנשרײַב־פֿאָרעם.

דער װײַז־צײַט װײַזט זיך אױף די מאָדעל: Spark איז דער שװערסטער מיט ~12 סעקונדעס, OpenVoice מיט ~15 סעקונדעס, GPT-SoVITS מיט ~16 סעקונדעס, CosyVoice 2 מיט ~20 סעקונדעס, Chatterbox מיט ~21 סעקונדעס, און Tortoise מיט ~60 סעקונדעס. די צײַטן זײַנען פֿאַר אַ װײַז־צײַט־טעקסט. לענגערע טעקסטן נעמען מער צײַט.

יע. אַלע 9 קלאָנינג מאָדעלס אויף TTS.ai ניצן אָפֿן־קאָר־ליסענסן (MIT אָדער Apache 2.0) וואָס דערלױבן קאָממערציעלע ניצן. דו קענסט ניצן קלאָנעד אודיו אין YouTube װידעאָס, פּאָדקאַסטן, אודיו־בוך, אַפּליקאַציעס, שפּילערײַ, טעלעפֿאָן־סיסטעםס, און אױף װעלכע־װעלכע קאָממערציעלע אַפּליקאַציעס — אױב דו האָסט רעכטן צו דער קױל־װײַז

יע. יעדער מאָדעל װאָס מיר לײענען איז אַ פֿאָרװערטס־קאָפּיע און אױפֿצושטעלן אױף GitHub/HuggingFace. דו קענסט זיך זיך הײסטן צײכעס־באָקסן, קאָסי־װאָסיס 2, GPT-SoVITS, אופֿן־װאָסיס, ספּאַרק, אינדעקס־טץ־2, GLM-טץ, קװען־טץ־3, אָדער װאָסיס אױף דײַן אייגענעם GPU־סערװירער. די אײגסטע מאָדעלן דאַרפן אַ NVIDIA GPU מיט 4־24 גיגאבייט VRAM, לויט דעם מאָדעל. TTS.ai װעט זיך זײער באַהאַנדלן מיט דער אינפֿאָרמאַציע, אַזוי דו דאַרפֿסט עס ניט טאָן.
5.0/5 (1)

What could we improve? Your feedback helps us fix issues.

קלאָנירן אַװעק אַװעק

9 אָפֿן־קאָל װײַז־קלאָנינג־מאָדעלן. 5־סעקונדע־פֿאָרשלאָגן. ניט נייטיק קיין איבערזעצונג. פּרובירן פֿאַרבײַ — אַרײַנשטעלן אייער אודיו און הערן דעם קלאָן אין אַ מינוט