Report Bug / Feature Request

د ریښتیني وخت غږ کلونینګ - په ثانیو کې هر غږ کلون کړئ

د 9 خلاص سرچینې غږ کلون کولو ماډلونه په شمول د Chatterbox، CosyVoice 2، GPT-SoVITS، او OpenVoice. د هیڅ ډول روزنې سره صفر-شوټ کلونینګ - د نمونې پورته کول او د خبرو اترو تولید کول سمدلاسه. ټول ماډلونه په سوداګریز ډول جواز لري.

رښتيني مهال 5-دوهم نمونې 9 کلونينګ ماډلونه پرانيستل شوی سرچينه 17+ ژبې احساس کنټرول

د رښتينې مهال غږ کلوننګ ځانګړتياوې

د ای ای سره د ای ای سره سمدلاسه د ای ای سره سمدلاسه غږونه - هیڅ روزنه ، هیڅ ډیټا ، هیڅ انتظار

زېرمه-شوت کلوننګ

نه روزنه، نه fine-tuning، نه dataset ټولګه. د غږ 5 ثانیې پورته او په فوري توګه د کلون شوي غږ ترلاسه کړئ. د AI په ریښتیني وخت کې د ویناوال ځانګړتیاوې استخراجوي.

9 کلونينګ ماډلونه

د Chatterbox، CosyVoice 2، GPT-SoVITS، OpenVoice، Spark، IndexTTS-2، GLM-TTS، Qwen3-TTS، او Tortoise څخه غوره کړئ. هر ماډل د کیفیت، سرعت او ژبې لپاره مختلف قوتونه لري.

ژبني نقلونه

په انګلیسي ژبه کې د غږ کلون او په چينايي، جاپاني، كوريايي، او نور خبرې توليد. CosyVoice 2 او Qwen3-TTS په 17+ ژبو غږ هويت ساتي.

احساس کنټرول

Chatterbox، OpenVoice، او GLM-TTS د احساساتو شرایطو نسل ملاتړ کوي. د مختلفو احساساتو سره ورته متن رامینځته کړئ - خوښ، خفه، غصه، غږ - پداسې حال کې چې د کلون شوي غږ ساتل.

خلاص سرچينه او سوداګريز

هر کلونینګ ماډل د MIT یا Apache 2.0 جوازونو لاندې خلاص سرچینه ده. د محتوا، محصولاتو او غوښتنلیکونو لپاره د سوداګرۍ لپاره د کلون شوي غږونو کارول.

API نقلول

د پروګرام کولو غږ کلون کولو لپاره REST API. د حوالې آډیو پورته کړئ، متن مشخص کړئ، او د کلون شوي وینا ترلاسه کړئ. د پایټن او جاواسکریپټ لپاره SDKs. د لوړ حجم کارونو لپاره د ډله کلون کول.

د غږ د نقلولو بېلګه

د هر کلونینګ کارولو قضیې لپاره 9 خلاص سرچینې ماډلونه

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 غږ نقلول

د: لپاره غوره غوره عمومي کیفیت - د 5 ثانیو نمونې، احساس کنترول، MIT جواز

هڅه Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 غږ نقلول

د: لپاره غوره غوره څو ژبه کلون - په ټول چينايي، انګليسي، جاپاني، كوريايي غږ ساتي

هڅه CosyVoice 2

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 غږ نقلول

د: لپاره غوره د احساس او د ډول انتقال سره د چټک ټون رنګ بدلون

هڅه OpenVoice

Spark TTSSpark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Medium 4/5 غږ نقلول

د: لپاره غوره چټک کلون کولو ماډل - په ~ 12 ثانیو کې پایلې

هڅه Spark TTS

IndexTTS-2IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Medium 4/5 غږ نقلول

د: لپاره غوره د لوړ غږونکي ورته والی سره د چینايي-انګلیسي غوره کلونینګ

هڅه IndexTTS-2

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 غږ نقلول

د: لپاره غوره د سټوډیو کیفیت پایلې - د آډیو کتابونو او پریمیم کیسې لپاره غوره

هڅه Tortoise TTS

څنګه د ریښتیني وخت غږ کلونینګ کار کوي

له يوې لنډې غږيزې نمونې نه تر بې حده کلون شويو خبرو

1

مرجع غږيز لېښل

د غږ څخه چې تاسو غواړئ کلون کړئ د واضح وینا 5-30 ثانیې ثبت یا پورته کړئ. WAV، MP3، یا په مستقیم ډول په خپل بریښنالیک کې ثبت کړئ.

2

د نقل کولو بېلګه وټاکﺉ

د ماډل غوره کړئ چې ستاسو اړتیاوې پوره کوي - د کیفیت لپاره Chatterbox، د سرعت لپاره Spark، د څو ژبو لپاره CosyVoice 2.

3

ليکنه وليکﺉ

. هغه ليکنه وليکﺉ يا يې سرته ورسو چې غواړﺉ په نقل شوي غږ کې ووايي. کومه ژبه چې د ماډل له خوا ملاتړ کيږي کار کوي

4

رالېښنې

کلیک تولید او په 10-25 ثانیو کې خپل کلون شوي غږ واورېدل. د فوري کارولو لپاره د WAV یا MP3 په توګه ډاونلوډ کړئ.

څنګه د Zero-Shot غږ کلونینګ کار کوي

نه fine-tuning، نه dataset ټولګه - یوازې پورته او کلون

غږونکی نغوتې استخراجول

AI ستاسو د حوالې آډیو تحلیل کوي ترڅو د غږ غږولو لپاره د غږ غږولو لپاره - د غږ یو کمپیکٹ ریاضی استازیتوب

  • د غږ د 5 ثانیو په څیر لږ کار کوي
  • د غږ، ټيمبر او خبرې کولو ډول نیول
  • نه روزنه یا fine-tuning اړین
  • غږ هېڅکله هم تل لپاره نه ساتل کيږي

د خبرو اترو سمون

د TTS ماډل د نوي وینا په ویناوال embedding شرط تولیدوي. د پایلې په څیر د حوالې د ویناوال ستاسو د متن وايي غږونه - سره د طبیعي prosody، مناسب ټینګار، او د اصلي غږ

  • له يوې بېلګه نه بې حده وينا توليدول
  • د کراس-لغوي کلوننګ (په ژبو کې د حوالې didn خبرې
  • احساس او ډول لیږد
  • په 10-25 ثانیو کې پایلې

د غږ د کلون کولو ماډل پرتله کول

د خپل کلون استعمال حالت لپاره سم ماډل وټاکئ

بېلګه لږترلږه اخځ چټکتيا :څرنګوالی ژبې احساس منښتليک
Chatterbox 5s ~21s غوره EN MIT
CosyVoice 2 5s ~20s ښه چين، انګلستان، جاپان، کوريا Apache 2.0
GPT-SoVITS 5s ~16s ښه CN، EN، JP، KO MIT
OpenVoice 5s ~15s ښه انګليسي، چيني، اسپانيايي، فرانسوي MIT
Spark TTS 5s ~12s ښه چين Apache 2.0
IndexTTS-2 5s ~18s ښه چين Apache 2.0
GLM-TTS 5s ~25s ښه چين Apache 2.0
Qwen3-TTS 5s ~16s ښه چين، انګلستان، جاپان، کوريا Apache 2.0
Tortoise 15s ~60s سټېډيو EN Apache 2.0

څه خلک د ریښتیني وخت غږ کلونینګ لپاره کاروي

د محتوا جوړولو څخه د لاسرسي وړتيا - د غږ کلونينګ بې پایلې غوښتنلیکونه لري

غږيز کتاب لنډيز

لیکوالان د خپل ځان غږ کلون کوي او په یوه ریکارډ بوټ کې ساعتونه لګولو پرته ټول آډیو کتابونه رامینځته کوي. د بیا ثبت کولو پرځای د یو واحد جملو رامینځته کولو سره غلطۍ بدل کړئ.

ويډيو ډبلنګ

په نورو ژبو کې د اصلي غږونکي ساتلو په حال کې د ویډیوګانو ډب کول

منځپانګې جوړول

یوټیوبران، پوډکاسټران، او د ټیک ټاک جوړونکي د دوامداره برانڈ کولو لپاره خپل غږ کلون کوي. د نوي موادو لپاره د غږونو تولید پرته له ثبت کولو څخه، یا د موجوده ویډیوګانو بدیل ژبې نسخې رامینځته کړئ.

لاسرسی

خلک چې د ناروغۍ یا جراحي له امله خپل غږ له لاسه ورکړی شي کولی شي د پخوانیو ریکارډونو څخه د کلون کولو له لارې ساتل شي. د کلون شوي غږ دوی ته اجازه ورکوي چې د متن څخه د وینا له لارې په خپل غږ کې اړیکه ونیسي.

لوبې پرمختيا

د غږ لوبغاړي کلون کړئ او د سټوډیو وخت پرته د ټاکل شوي وخت پرته د خبرو اترو بې حده بدلونونه رامینځته کړئ. د انډی لوبو، موډونو، او پروټوټایپ لپاره مثالی چیرې چې هر کرښه بیا ثبت کول نه

IVR & د ټېلېفون سیستمونه

د خپل شرکت ویاند کلون کړئ

TTS.ai د نورو غږ کلون کولو حلونو پروړاندې

ولې د 9 ماډلونه د یو واحد خلاص سرچینې پروژې ماتوي

ځانګړنه TTS.ai SV2TTS ElevenLabs Resemble AI
بېلګه نقلول 9 1 1 1
لږترلږه. ارشيو غږيز 5 sec 5 sec 30 sec 3 min
روزنه اړينه ده نه نه نه هو
غږيز کیفیت (۲۰۲۵) سټېډيو کچ نېټه ښه ښه
احساس کنټرول
ژبني نقلونه
پرانيستل شوی سرچينه
اړين GPU بادل هو بادل بادل
لاسرسی API
وړیا کچ ۱۵ کرېډیټونه ځان کوربه محدود

غږ کلوننګ API

د REST API سره د پروګرام کولو غږونه کلون کړئ

پېټان - غږ نقلول REST API
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)
غږ کلوننګ REST API
curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

د غوره غږ کلونينګ پایلو لپاره لارښوونې

د دې ثبت لارښوونو سره د ټولو دقیق غږ کلون ترلاسه کړئ

خاموش چاپېريال

په يو آرام خونه کې د لږ تر لږه د پس منظر د شور ریکارډ. د AI د پاک غږ څخه د غږ ځانګړتیاوې په دقیق ډول استخراجوي.

10-30 ثانیې

پداسې حال کې چې د 5 ثانیو کار کوي، 10-30 ثانیې په پام کې نیولو سره ښه پایلې ورکوي. د AI ډیر طبیعي وینا اوریدل کیږي، د کلون ډیر دقیق.

طبیعي وينا

په طبیعي توګه خبرې وکړئ، نه په یو monotone کې. د مختلفو intonation او pacing شامل کړئ. د AI ستاسو د طبیعي خبرې کولو سټایل نیولی، په شمول د وقفو او ټینګار.

يو غږونکی

د يوې نمونې سره يوازې يو شخص خبرې کوله وکاروئ. څو غږونه د غږونکي embedding ګډوډ او مخلوط پایلې تولیدوي.

نن د غږونو نقلول پېل کړئ

د غږ 5 ثانیې پورته کړئ او ستاسو د کلون شوي غږ په 30 ثانیو کې اوریدل. وړیا هڅه وکړئ.

اوس غږ نقلول لاسوندونه

ډېرې پوښتنې

د رښتينې وخت غږ کلون کولو په اړه عام پوښتنې

د ریښتیني وخت غږ کلونینګ د AI ټیکنالوژي ده چې کولی شي د 5 ثانیو په څیر د 5 ثانیو څخه د یو کس غږ تکرار کړي - پرته له کومې روزنې یا ښه تنظیم کولو څخه. تاسو نمونه پورته کوئ، او AI نوی وینا رامینځته کوي چې د هغه شخص په څیر غږ کوي. TTS.ai د 9 مختلف غږ کلونینګ ماډلونه وړاندې کوي، هر یو د کیفیت، سرعت او ژبې ملاتړ لپاره مختلف قوتونه لري.

د 5 ثانیو په څیر لږ د ډیری ماډلونو سره کار کوي (Chatterbox، CosyVoice 2، Spark، GPT-SoVITS، OpenVoice). Tortoise د غوره پایلو لپاره 15 + ثانیو ته اړتیا لري. د ټولو ماډلونو په اوږدو کې د غوره کیفیت لپاره، د روښانه، واحد غږیز غږیز 10-30 ثانیې سپارښتنه کیږي. غږ باید د پس منظر غږ او موسیقۍ څخه آزاد وي.

د غږ کلون کولو ټیکنالوژي په خپله قانوني ده. په هرصورت، تاسو باید یوازې هغه غږونه کلون کړئ چې تاسو یې د کارولو اجازه لرئ - ستاسو خپل غږ، غږونه چې تاسو یې واضح رضایت لرئ، یا په عامه ډومین کې غږونه. د غږ کلون کولو کارولو لپاره د رضایت پرته د چا نوم اخیستل، د درغلۍ ترسره کول، یا د غلطو موادو جوړول په ډیری قضایی سیمو کې غیرقانوني دي. د TTS.ai شرایطو ته اړتیا لرئ چې تاسو د هر غږ حقونه ولرئ چې تاسو یې کلون کوئ.

دا ستاسو د کارولو په قضیه پورې اړه لري. Chatterbox د احساس کنټرول سره د لوړ کیفیت انګلیسي کلونونه تولیدوي. CosyVoice 2 د څو ژبو کلون کولو لپاره غوره دی (چینایی، انګلیسي، جاپاني، کوریایي). Spark په ~ 12 ثانیو کې ترټولو چټک دی. Tortoise د سټوډیو کیفیت پایلې تولیدوي مګر ورو دی. GPT-SoVITS په چینایي غږ کلون کولو کې ښه دی. هڅه وکړئ څو ماډلونه ستاسو د غږ لپاره غوره لوبه ومومي.

هو - دا د کراس ژبې غږ کلون کولو په نوم یادیږي. CosyVoice 2، Qwen3-TTS، او OpenVoice دا ملاتړ کوي. د مثال په توګه، تاسو کولی شئ د انګلیسي غږ نمونې پورته کړئ او په چینایي، جاپاني، یا کوریایي کې خبرې وکړئ، پداسې حال کې چې د ویناوال غږیز ځانګړتیاوې ساتي. کیفیت د ماډل او ژبې جوړه لخوا توپیر لري.

د CorentinJ / ریښتیني وخت-غږ-کلونینګ GitHub پروژه (60K + ستوری) SV2TTS، د 2019 معمارۍ کاروي. پداسې حال کې چې په وخت کې د پرمختګ په حال کې دي، عصري ماډلونه لکه چاټرباکس، کوسي واچ 2، او GPT-سوویتس د ښه غږونکي ورته والی سره په پام کې نیولو سره د غږ کیفیت ښه کوي. TTS.ai د 9 state-of-the-art ماډلونه (د SV2TTS په مقابل کې) چلوي او د GPU ترتیب ته اړتیا نلري - یوازې اپ لوډ او کلون.

هو. TTS.ai د غږ کلون کولو لپاره یو REST API چمتو کوي. د حوالې آډیو او متن پورته کړئ، یو ماډل غوره کړئ، او د کلون شوي وینا ترلاسه کړئ. د Python SDK (`pip install ttsai`) له لارې شتون لري، JavaScript SDK (`npm install @ttsainpm / ttsai`)، یا مستقیم HTTP غوښتنې. د ورته کلون شوي غږ سره د څو متنونو پروسس کولو لپاره د ډله کلون کولو ملاتړ کوي.

هو. د کلون کولو وروسته، خپل حساب ته غږ وساتئ او د مراجعو غږ بیا ولولئ پرته له دې چې د بې شمیره نسلونو په اوږدو کې بیا وکاروئ. ساتل شوي غږونه د غږ کلون کولو پاڼه کې ستاسو په غږ کتابتون کې ښکاري او د API له لارې لاسرسی لري.

WAV، MP3، OGG، FLAC، او WebM ټول ملاتړ کیږي. تاسو هم کولی شئ په مستقیم ډول په خپل بریښنالیک کې د جوړ شوي مایکروفون ریکارډر په کارولو سره ثبت کړئ. د غوره پایلو لپاره، په 16kHz یا لوړ کې د زیانونو پرته WAV بڼه وکاروئ. د AI په اتوماتيک ډول د انټرنیټ (resampling، شور فلټرولو) پرته له دې چې د ننوتلو بڼه.

د نسل وخت د ماډل لخوا توپیر لري: سپارک په ~ 12 ثانیو کې ترټولو چټک دی، د OpenVoice په ~ 15 ثانیو کې، د GPT-SoVITS په ~ 16 ثانیو کې، د CosyVoice 2 په ~ 20 ثانیو کې، د Chatterbox په ~ 21 ثانیو کې، او د Tortoise په ~ 60 ثانیو کې. دا وختونه د معمولي جملې اوږدوالي متن لپاره دي. اوږدې متنونه په تناسب کې اوږده وخت نیسي.

هو. د TTS.ai په اړه د 9 ټول کلون کولو ماډلونه د خلاص سرچینې جوازونه کاروي (MIT یا Apache 2.0) چې د سوداګریزو کارونې اجازه ورکوي. تاسو کولی شئ د یوټیوب ویډیوګانو، پوډکاسټونو، آډیو کتابونو، غوښتنلیکونو، لوبو، تلیفون سیسټمونو او نورو سوداګریزو غوښتنلیکونو کې کلون شوي غږ وکاروئ - که تاسو د سرچینې غږ حقونه لرئ.

هو. هر ماډل چې موږ یې چلوو خلاص سرچینه ده او په GitHub / HuggingFace کې شتون لري. تاسو کولی شئ د خپل GPU سرور کې د چاټرباکس، کوسي ویکس 2، GPT-سوویتس، اوپن ویکس، سپارک، انډکسټټس-2، GLM-TTS، Qwen3-TTS، یا تورټوز ځان کوربه کړئ. ډیری ماډلونه د 4-24GB VRAM سره د NVIDIA GPU ته اړتیا لري د ماډل پورې اړه لري. TTS.ai ټول زیربناوې اداره کوي نو تاسو اړتیا نلرئ.
5.0/5 (1)

What could we improve? Your feedback helps us fix issues.

په سېکېنډونو کې کوم غږ نقلول

9 د خلاصې سرچینې غږ کلون کولو ماډلونه. د 5 ثانیو نمونې. هیڅ روزنه نه اړتیا لري. دا وړیا هڅه وکړئ - خپل غږ پورته کړئ او سمدلاسه کلون اوریدل.