Report Bug / Feature Request

वास्तविक समय आवाज पुकार रहा है - द्वितीय में कोई भी आवाज बंद करें

संदर्भ ऑडियो के सिर्फ 5 सेकंड के लिए किसी भी आवाज का उल्लेख करें। 9 खुले स्रोत मॉडलों सहित, कॉल्टर-टिक्स मॉडलों सहित, कोस्टीटीटीटीटीटीएस 2, जी. एस. एस.

रीयल- समय 5- सेकेंड नमूना 9 नकलिंग मॉडल स्रोत खोलें 17+ भाषाएँ शानदार नियंत्रण

वास्तविक समय आवाज कलोन विशेषताएँ

अवस्था- ऑफ-फिर एआई — कोई प्रशिक्षण नहीं, कोई डाटासेट, इंतजार नहीं कर रहा है

शून्य- झूठे क्रेनिंग

कोई प्रशिक्षण, कोई अच्छी तरह से तैयार नहीं, कोई अच्छी तरह से तैयार नहीं है. ऑडियो के 5 सेकंड का अपलोड और एक क्लोन ध्वनि तुरंत प्राप्त. एआई को वास्तव में समय पर स्पीकर की विशेषताएँ बताता है.

9 नकलिंग मॉडल

चैट बाक्स से चुनें, कोसंपरेशन 2, जीटीएस, ओपन-टाइप्स, ओपन- स्पेस्स, इंडेक्स- स्पेस-टीएस-टीएस-टीएस, क्यूवे33-टीएस, और ई. प्रत्येक मॉडल में गुणवत्ता, गति, और भाषा के लिए अलग ताकत है.

क्रास- कैरिटेनिंग

अंग्रेज़ी में एक आवाज और चीनी, जापानी, कोरियाई, और अधिक से अधिक भाषा में भाषण बनाता है. कोच्य 2 और क्यूई3-ट-टॉट्स की पहचान 17+ भाषाओं के पार.

शानदार नियंत्रण

चैट बक्स, खुला, और GLM-ट-टीएस का समर्थन करता है. अलग भावनाओं के साथ एक ही पाठ बनाएँ — खुश, दुखी, क्रोधित, क्रोध — जबकि क्लोन आवाज रखने के दौरान.

स्रोत व्यावसायिक खोलें (M)

प्रत्येक क्रिप्टो मॉडल एमटीमेंट या 2.0 लाइसेंस के तहत स्रोत खुला है. सामग्री, उत्पादों, और अनुप्रयोगों के लिए क्लोन किये गए ध्वनि व्यावसायिक प्रयोग करें.

कोडिंग एपीआई

प्रोग्राम स्थापित आवाज के लिए ROMMESUNT. अपलोड ऑडियो, पाठ निर्धारित करें, और क्लोन किये गए भाषण प्राप्त करें. पायथन तथा जावास्क्रिप्ट के लिए SKKs. ट्रांसमिटिंग उच्च-वोल फूल फूल फूल फूल के लिए स्कैन करें.

आवाजिंग मॉडल

9 प्रत्येक हथियार के लिए ओपन-source मॉडल का प्रयोग करें

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 आवाज कोलोन

के लिए उत्तम: सबसे उत्तम गुण — 5- सेकेंड नमूने, भावना नियंत्रण, एमआईटी लाइसेंस

कोशिश करें Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 आवाज कोलोन

के लिए उत्तम: ज़्यादा - से - ज़्यादा अलग - अलग भाषाएँ बोलनेवाले लोग, चीनी, अंग्रेज़ी, जापानी, कोरियाई भाषा में ध्वनि की रक्षा करते हैं

कोशिश करें CosyVoice 2

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 आवाज कोलोन

के लिए उत्तम: कनेक्शन तथा शैली ट्रांसफर के साथ तीव्र टोन रंग परिवर्तन

कोशिश करें OpenVoice

Spark TTSSpark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Medium 4/5 आवाज कोलोन

के लिए उत्तम: अत्यंत उर्ध्वाधर मॉडल — परिणाम ~12 सेकेंड में

कोशिश करें Spark TTS

IndexTTS-2IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Medium 4/5 आवाज कोलोन

के लिए उत्तम: उच्च स्पीकर के साथ चीनी-ई-ईंग- कैंसिल

कोशिश करें IndexTTS-2

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 आवाज कोलोन

के लिए उत्तम: स्टिडियो- टेक परिणाम — ऑडियोबुक तथा प्रीडिनियम की जानकारी के लिए उत्तम

कोशिश करें Tortoise TTS

कैसे वास्तविक समय आवाज कैशिंग कार्य करता है

संक्षिप्त ऑडियो नमूना से बिना क्लोन किये भाषण के लिए

1

संदर्भ ऑडियो अपलोड करें

रिकॉर्ड या अपलोड 5 30 सेकंड की आवाज से आप क्लोन करना चाहते हैं. WAV, एमपी3, या अपने ब्राउज़र में सीधे रिकार्ड करना चाहते हैं.

2

कलोन मॉडल चुनें

वह मॉडल चुनिए जो आपकी ज़रूरतों के साथ मेल खाता है — गुणवत्ता के लिए चैट बाक्स, गति के लिए कूर्क, कोस 2 भाषाओं के लिए ।

3

अपना पाठ दाखिल करें

जो भी भाषा आप क्लोन किए गए आवाज में बात करना चाहते हैं, उसे टाइप करें या चिपकाएं.

4

डाउनलोड बनाएँ (D)

10- 25 सेकंड में आपकी क्लोन आवाज को चालू करता है. तत्काल उपयोग के लिए डब्ल्यूएएसई या एमपी3 डाउनलोड करें.

शून्य कैसे झूठे आवाज कैशिंग कार्य करता है

कोई बढ़िया पंक्ति नहीं, कोई डाटासेट संग्रह नहीं — सिर्फ अपलोड व क्लोन

स्पीकर एम्बेडिंग निकालें

एआई अपने संदर्भ को एक स्पीकर को निकालने के लिए अपने संदर्भ का विश्लेषण करता है - आवाज की अनोखी विशेषताओं में गणितीय प्रतिनिधित्व जिसमें गणितीय गुण शामिल हैं, टम्बम्बैट, स्वर, और मुखिक बनावट सम्मिलित हैं। यह 1 सेकंड में होता है।

  • ऑडियो के 5 सेकेंड के रूप में छोटे रूप में काम करता है
  • कैप्चर राम्ब, बॉल्कन, और शैलीName
  • कोई प्रशिक्षण या बढ़िया कमीशन आवश्यक नहीं
  • ऑडियो हमेशा के लिए जमा नहीं है

शर्तयुक्त स्पीच सिंथस

TTS मॉडल नया भाषण तैयार करता है, जो वक्‍ता को खास तौर पर पेश करता है ।

  • एकल नमूना से असीमित बोली उत्पन्न करें
  • क्रॉस- कम्प्लीशन ( भाषाओं में बोल्ट संदर्भ नहीं किया गया)
  • सिनेथ तथा शैली ट्रांसफर
  • परिणाम 10- 25 सेकंड सेकण्ड में

आवाजिंग मॉडल तुलना

अपने प्रतिद्वंद्वी प्रयोग के लिए दायाँ मॉडल चुनें

मॉडल न्यून. संदर्भ गति विशेषता भाषाएँ ताज्जुब की बात है । लाइसेंस
Chatterbox 5s ~21s उत्तम EN MIT
CosyVoice 2 5s ~20s उत्कृष्ट सीनेट, वर्णन, जेपी, केओ+ Apache 2.0
GPT-SoVITS 5s ~16s उत्कृष्ट सीनेट, ए., केओ MIT
OpenVoice 5s ~15s अच्छा एन, एएस, FR+ MIT
Spark TTS 5s ~12s अच्छा ए., ए. Apache 2.0
IndexTTS-2 5s ~18s उत्कृष्ट ए., ए. Apache 2.0
GLM-TTS 5s ~25s उत्कृष्ट ए., ए. Apache 2.0
Qwen3-TTS 5s ~16s उत्कृष्ट सीनेट, वर्णन, जेपी, केओ+ Apache 2.0
Tortoise 15s ~60s स्टिडियो EN Apache 2.0

लोग वास्तविक समय आवाज के लिए क्या इस्तेमाल करते हैं

पहुंचनीयता के लिए सृष्टि से — आवाज़ के पास अन्तहीन अनुप्रयोग हैं

ऑडियो-बुक असंपादक

लेखक क्लोन करता है और सारी ऑडियोबुकयाँ बिना रिकॉर्ड किए दर्ज किए बनाई जा रही हैं. गलतीयों को फिर से उत्पन्न करने के बजाए एक बार फिर एक वाक्य तैयार करने के द्वारा संपादित करें.

वीडियो दुबिंग

मूल स्पीकर की आवाज़ को बनाए रखने के दौरान Dbe-B वीडियो. क्रॉस-चिंग मॉडल जैसे कोचिक 2 और क्यूवे3-ट-ट-टॉट्स की पहचान चीनी, अंग्रेज़ी, जापानी, और कोरियाई के माध्यम से सुरक्षित है.

विषयवस्तु बनाने का निर्माण

मौजूदा वीडियो के बगैर नई सामग्री के लिए आवाज बनाएं या किसी अन्य प्रकार के वीडियो के संस्करण बनाएँ.

पहुँच

जिन लोगों ने बीमारी या ऑपरेशन के कारण अपनी आवाज़ खो दी है वे इसे पुराने रिकॉर्डिंग से सुरक्षित रख सकते हैं. क्लोन आवाज उन्हें पाठ-से-ब के माध्यम से अपनी आवाज में संवाद दे सकता है.

खेल विकास

क्लोन ध्वनि कर्ता और बिना अनुसूचन के असीमित संवाद बनाता है. Andiods, modins खेलों के लिए बिल्कुल सही, और तय करने के लिए जहां हर लाइन फिर से जांच नहीं है.

फोन तंत्र फिर से लिखें (O)

फोन मेन्यू के लिए अपनी कंपनी के आवाज और ऑटोएम्ड जवाब के लिए। अद्यतन मैं एक आवाज़ के बिना तुरंत प्रेरित करता हूँ - सिर्फ नया पाठ बनाने के लिए और तैयार।

TTS.ai vs अन्य आवाज का समाधान

9 मॉडल एक एकल खुले स्रोत परियोजना को मारता है

विशेषता TTS.ai SV2TTS ElevenLabs Resemble AI
कलोन मॉडल 9 1 1 1
न्यून. संदर्भ ऑडियो 5 sec 5 sec 30 sec 3 min
प्रशिक्षण आवश्यक नहीं नहीं नहीं हाँ
ऑडियो क्वालिटी (2025) स्टूडेडिओ- थर्मिन तिथि भेजी गई उत्कृष्ट उत्कृष्ट
शानदार नियंत्रण
क्रास- कैरिटेनिंग
स्रोत खोलें
जीपीयू आवश्यक बंद करें (C) हाँ बंद करें (C) बंद करें (C)
एपीआई पहुँच
फ्री टीयर 15,000 अक्षर स्व- होस्ट सीमित

आवाज कोलोन एपीआई

एक स्वर की आवाज़ जो हमारे पुनःप्रयोगक एपीआई से मेल खाती है

पायथन - आवाजिंग REST API
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)
यूआरएल — आवाज का ताला लगाना REST API
curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

उत्तम आवाज कैशिंग परिणाम के लिए सुझाव

इन रिकार्डिंग निर्देशों के साथ सबसे सही आवाज क्लोन प्राप्त करें

ठंडे वातावरण

निम्न पृष्ठभूमि शोर के साथ एक शांत कमरे में रिकार्ड करें. एआई आवाज को साफ ऑडियो से अधिक सही प्रकार से आकर्षित करता है.

10- 30 सेकण्ड

5 सेकंड काम करता है, 10-30 सेकंड बहुत अच्छा परिणाम देता है. अधिक प्राकृतिक भाषण एआई सुनता है, क्लोन उपयोगकर्ता अधिक सही.

स्वाभाविक भाषण

स्वाभाविक रूप से, एक एकल व्यक्‍ति में बात मत कीजिए ।

एकल स्पीकर

अनेक आवाज़ें वक्‍ता को परेशान करती हैं और उसके परिणाम उत्पन्‍न करते हैं ।

आज कालोन चालू करें

ऑडियो का 5 सेकंड अपलोड करें और आपके क्लोन आवाज को 30 सेकंड में सुनते हुए सुनें. कोशिश करने के लिए मुक्त.

आवाज अभी क्लोन करें एपीआई प्रलेखन

बार बार पूछे जाने वाले प्रश्न

वास्तविक समय आवाजस्वाभाविक प्रश्नों के बारे में आम सवाल

रीयल-समय आवाज एआई प्रौद्योगिकी है जो एक छोटे से ऑडियो नमूना से एक व्यक्ति की आवाज फिर से गुना कर सकता है — किसी भी प्रशिक्षण या अच्छी तरह से करने के बिना 5 सेकंड के. आप एक उदाहरण अपलोड करें, और एआई नई भाषा बनाता है कि व्यक्ति की तरह लगता है. TTS.ai अलग-अलग भाषा, और भाषा के लिए एक अलग प्रकार की गति, और समर्थन.

कम से कम 5 सेकंड के रूप में अधिकतर मॉडलों के साथ काम करता है (संकार बॉक्स, कोर-स्कर, स्टीफ़ॉयर, GERFACOGS, TEGESF, TEGEGECTCTCTCKS, GEGEGGGERS, TEGEGEGEARS, TEGEGEGEGECTES, TERSF, GICTERS, GANGESF, TEANTERTEANTEANTANTES, TEANTERTEANTEANTEANANTCTENTES, TANANERTENANTENT के रूप में।

आवाजी तकनीक खुद कानूनी है। लेकिन, आप सिर्फ ध्वनि आप इस्तेमाल करने की अनुमति चाहिए — अपनी आवाज, आप के लिए स्पष्ट रूप से सहमति, या सार्वजनिक डोमेन में ध्वनि है। बिना सहमति के किसी को बदनाम करने के लिए ध्वनि का उपयोग किया जा रहा है, धोखाधड़ी, या सामग्री बनाने के लिए. TTS.ai शर्तों की जरूरत है आप किसी भी क्लोन करने के लिए आप किसी भी प्रकार की आवाज की जरूरत है।

यह आपके मामले में लागू होता है. चैटर- बाक्स से सबसे उत्तम विशेषता क्लोन उत्पन्‍न होता है भावनाओं नियंत्रण के साथ. कोस्टीटीटी 2 सबसे अच्छा है भाषा, अंग्रेजी, जापानी, कोरियाई.

जी हाँ, यह क्रूसी आवाज के लिए बुलाया जाता है। Cassy Connv3-conont, और इसे खुला समर्थन। उदाहरण के लिए, आप एक अंग्रेजी आवाज नमूना अपलोड कर सकते हैं और चीनी, जापानी, या कोरियाई भाषा में भाषण तैयार कर सकते हैं जबकि वक्ताओं के मुखिक विशेषताओं को बनाए रखने के द्वारा। आम मॉडल और भाषा जोड़ा।

The CorentinJ/Real-Time-Voice-Cloning GitHub project (60K+ stars) uses SV2TTS, a 2019 architecture. While groundbreaking at the time, modern models like Chatterbox, CosyVoice 2, and GPT-SoVITS produce significantly better audio quality with better speaker similarity. TTS.ai runs 9 state-of-the-art models (vs SV2TTS's one) and requires no GPU setup — just upload and clone.

जी. TTS.ai आवाज के लिए एक RETUVESUNTE है. अपलोड ऑडियो और पाठ चुनें, और क्लोन भाषा प्राप्त करें. पायथन एसके द्वारा उपलब्ध Case tute tute tutiotiviod, जावास्क्रिप्ट SK/dephtiviviviot(diviviodsivivivivivi/ Herd), या H. समर्थन अनेक पाठों के लिए प्रस्तुत करता है उसी तरह क्लोन की जरूरत है.

हाँ. लेकीन, अपने खाते में आवाज सहेजें और फिर बिना दर्ज किए असीमित पीढ़ियों तक उसे फिर से दर्ज करें. आपकी आवाज की लाइब्रेरी में ध्वनि दिखाई देती है और एपीआई के माध्यम से पहुँच कर रहे हैं.

WAV, DLAC, FLAC, और वेबM सभी समर्थित हैं. आप अपने ब्राउज़र में सीधे अपने निर्माण प्रबंधक के प्रयोग से रिकॉर्ड कर सकते हैं. सबसे अच्छे परिणाम के लिए, बेकार WAV का प्रयोग १६kz या अधिक से अधिक के लिए. एआई प्रायोगिक ऑडियो स्वतः प्रयोग करता है (संत्रिंग, फ़िल्टरिंग, )

पीढ़ी का समय मॉडल के अनुसार भिन्‍न होता है -12 सेकंड में, GBSICOGICAS को ~16 सेकंड में, कोस्टी 2 सेकंड में, ~21 सेकंड में चैटबॉक्स, और ~21 सेकंड में Becutiters. इन समय के लिए सामान्य रूप से वाक्य के रूप में इस्तेमाल किया जाता है.

Yes. All 9 cloning models on TTS.ai use open-source licenses (MIT or Apache 2.0) that permit commercial use. You can use cloned audio in YouTube videos, podcasts, audiobooks, apps, games, phone systems, and any other commercial application — provided you have rights to the source voice.

Yes. Every model we run is open source and available on GitHub/HuggingFace. You can self-host Chatterbox, CosyVoice 2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS, or Tortoise on your own GPU server. Most models require an NVIDIA GPU with 4-24GB VRAM depending on the model. TTS.ai handles all the infrastructure so you don't have to.
5.0/5 (1)

क्या हम सुधार कर सकते हैं?

द्वितीय आवाज में किसी भी आवाज का पता लगाएँ

9 ओपन-source आवाज मॉडल. 5-दूसरे नमूने. कोई प्रशिक्षण की आवश्यकता नहीं. इसे मुक्त करने की कोशिश करें - अपने ऑडियो अपलोड करें और क्लोन तत्काल सुन लें.