ৰিয়েল-টাইম ভয়েস ক্লোনিং — ছেকেণ্ডত যিকোনো ভয়েছ ক্লোন কৰক
কেৱল ৫ ছেকেণ্ডৰ অডিঅ'ৰ সহায়ত যিকোনো শব্দ ক্লোন কৰক। Chatterbox, CosyVoice2, GPT-SoVITS আৰু OpenVoice সহ ৯টা মুক্ত উৎসৰ শব্দ ক্লোন মডেল। প্ৰশিক্ষণৰ প্ৰয়োজন নোহোৱাকৈ Zero-shot ক্লোনিং - এটা নমুনা আপলোড কৰক আৰু পোনতে শব্দ নিৰ্মাণ কৰক। সকলো মডেল বাণিজ্যিকভাৱে লাইচেঞ্চিত।
ৰিয়েল-টাইম ভয়েস ক্লোনিং বৈশিষ্ট্যসমূহ
state-of-the-art AI ৰ সৈতে তাৎক্ষণিকভাবে ক্লোন কৰক - কোনো প্ৰশিক্ষণ নাই, কোনো ডেটাসেট নাই, কোনো অপেক্ষা নাই
Zero-Shot ক্লোনিং
কোনো প্ৰশিক্ষণ নাই, কোনো ফাইন-টুনিং নাই, কোনো ডাটাসেট সংগ্ৰহ নাই। ৫ ছেকেণ্ডৰ অডিঅ' আপলোড কৰক আৰু তাৎক্ষণিকভাৱে এটা ক্লোন কৰা কন্ঠ প্ৰাপ্ত কৰক। AI ৰ দ্বাৰা ৰিয়েল-টাইমত স্পিকারৰ বৈশিষ্ট্যসমূহ আহৰণ কৰা হয়।
৯ ক্লোনিং মডেল
Chatterbox, CosyVoice 2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS আৰু Tortoise ৰ পৰা বাছক। প্ৰত্যেক মডেলৰ বিভিন্ন গুণ, গতি আৰু ভাষা আছে।
ক্ৰচ-লিঙ্গুৱেল ক্লোনিং
ইংৰাজী ভাষাত এটা শব্দ ক্লোন কৰক আৰু চীনা, জাপানি, কোৰীয় আৰু আকৌ অধিক ভাষাত কথা কওক। CosyVoice2এবং Qwen3-TTS এ ১৭+ ভাষাত শব্দৰ পৰিচয় সংৰক্ষণ কৰে।
ইমোচন নিয়ন্ত্ৰণ
Chatterbox, OpenVoice, আৰু GLM-TTS এ আবেগ-সংক্রান্ত উৎপাদন সমৰ্থন কৰে। একই টেক্সট বিভিন্ন আবেগ - সুখী, দুখী, ক্ষুব্ধ, চুইচ কৰা - ৰ সৈতে উৎপাদন কৰক - ক্লোন কৰা কন্ঠটো ৰক্ষা কৰি।
মুক্ত উৎস আৰু বাণিজ্যিক
প্ৰতিটো ক্লোনিং মডেল MIT অথবা Apache 2.0 লাইচেঞ্চৰ অধীনত ওপেন সোর্স। ক্লোন কৰা শব্দসমূহ বাণিজ্যিকভাৱে কোনো ৰেয়্যালিটি নোহোৱাকৈ সমল, উৎপাদন আৰু এপ্লিকেচনসমূহৰ বাবে ব্যৱহাৰ কৰক।
API ক্লোন কৰা হৈছে
প্ৰগ্ৰামিক কন্ঠ ক্লোন কৰাৰ বাবে REST API। সংযোগ অডিঅ' আপলোড কৰক, টেক্সট ধাৰ্য্য কৰক, আৰু ক্লোন কৰা কথোপকথন গ্ৰহণ কৰক। Python আৰু JavaScript ৰ বাবে SDK। উচ্চ ভলিউম কাৰ্য্যক্ৰমৰ বাবে ব্যাচ ক্লোন কৰা।
শব্দ ক্লোনিং মডেলসমূহ
প্ৰতিটো ক্লোনিং ব্যৱহাৰৰ ক্ষেত্ৰত ৯টা উন্মুক্ত উৎসৰ মডেল
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
সৰ্বোত্তম: সৰ্বোত্তম সামগ্ৰিক গুণমান - ৫ ছেকেণ্ডৰ নমুনা, অনুভূতি নিয়ন্ত্ৰণ, MIT লাইচেঞ্চিত
চেষ্টা কৰক Chatterbox
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
সৰ্বোত্তম: সেৰা বহুভাষিক ক্লোনিং — চীনা, ইংৰাজী, জাপানি, কোৰীয়ত শব্দ সংৰক্ষণ কৰে
চেষ্টা কৰক CosyVoice 2
OpenVoice
Premium
Instant voice cloning with granular control over style, emotion, and accent.
সৰ্বোত্তম: ইমোচন আৰু বিন্যাস স্থানান্তৰৰ সৈতে দ্ৰুত টোন ৰঙ ৰূপান্তৰ
চেষ্টা কৰক OpenVoice
Spark TTS
Standard
Voice cloning TTS with controllable emotion and speaking style via prompts.
সৰ্বোত্তম: দ্রুততম ক্লোনিং মডেল — ~১২ ছেকেণ্ডত ফলাফল
চেষ্টা কৰক Spark TTS
IndexTTS-2
Standard
Zero-shot TTS with fine-grained emotion control and high expressiveness.
সৰ্বোত্তম: উচ্চ স্পীকাৰ অনুৰূপতাৰ সৈতে চীনা- ইংৰাজী ক্লোনিংName
চেষ্টা কৰক IndexTTS-2
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
সৰ্বোত্তম: স্টুডিঅ'-গুণমানৰ ফলাফল - অডিঅ'বই আৰু প্ৰিমিয়াম নাৰায়ণ্যৰ বাবে সৰ্বোত্তম
চেষ্টা কৰক Tortoise TTSৰিয়েল-টাইম ভয়েস ক্লোনিং কিদৰে কাম কৰে
এটা সংক্ষিপ্ত অডিঅ' নমুনা পৰা অসীমিত ক্লোন কৰা কথোপকথনলৈ
অনুসূচীত অডিঅ' আপলোড কৰক
ক্লোন কৰিব বিচৰা শব্দৰ পৰা ৫-৩০ ছেকেণ্ডৰ স্পষ্ট কথা ৰেকৰ্ড কৰক বা আপলোড কৰক। WAV, MP3, অথবা আপোনাৰ ব্ৰাউছাৰত সরাসৰি ৰেকৰ্ড কৰক।
এটা ক্লোনিং আৰ্হি বাছক
আপোনাৰ প্ৰয়োজন অনুসৰি আৰ্হি বাছক — গুণগত মানৰ বাবে Chatterbox, গতি বৃদ্ধিৰ বাবে Spark, বহুভাষিকৰ বাবে CosyVoice2।
আপোনাৰ লিপি লিখক
ক্লোন কৰা শব্দত আপুনি যি লিখনী ক'ব বিচাৰে তা টাইপ কৰক অথবা পেইস্ট কৰক। মডেলে সমৰ্থিত যিকোনো ভাষা ব্যৱহাৰ কৰক।
সৃষ্টি কৰক আৰু ডাউনল'ড কৰক
সৃষ্টি কৰক ক্লিক কৰক আৰু ১০-২৫ ছেকেণ্ডত আপোনাৰ ক্লোন কৰা শব্দ শুনিব। তাৎক্ষণিক ব্যৱহাৰৰ বাবে WAV অথবা MP3 ৰূপে ডাউনল'ড কৰক।
Zero-Shot শব্দ ক্লোনিং কিদৰে কাম কৰে
কোনো ফাইন-টুনিং নাই, কোনো ডাটাসেট সংগ্ৰহ নাই — অকল আপলোড আৰু ক্লোন কৰক
স্পিকার এম্বেডিং এক্সট্ৰেক্ট
AI এ আপোনাৰ সংজ্ঞা অডিঅ' বিশ্লেষণ কৰি এটা স্পিকার এম্বেডিং এক্সট্ৰেক্ট কৰে - শব্দৰ এটা কমপেক্ট গাণিতিক প্ৰতিনিধিত্ব
- ৫ ছেকেণ্ডৰ অডিঅ'ৰ সৈতে কাম কৰে
- পিট, টিম্বৰ আৰু কথোপকথনৰ বিন্যাস ৰেকৰ্ড কৰে
- কোনো প্ৰশিক্ষণ বা ফাইন-টুইনৰ প্ৰয়োজন নাই
- অডিঅ' কখনোই স্থায়ীৰূপে সংৰক্ষণ কৰা নহয়
ধাৰ্য্যত বাক্য সংশ্লেষণName
TTS মডেলে স্পিকারৰ এম্বেডিংৰ ওপৰত নিৰ্ভৰ কৰি নতুন কথন সৃষ্টি কৰে। ফলাফলটি সংশ্লিষ্ট স্পিকারে আপোনাৰ টেক্সট ক'ব বুলি শোনা যায় - স্বাভাৱিক প্ৰোসোডি, উপযুক্ত জোৰ আৰু মূল কথনৰ সৈতে
- এটা একক নমুনা থেকে অসীমিত কথন সৃষ্টি কৰক
- ক্ৰচ-লেঙ্গুৱেজ ক্লোনিং (সংযোগ কৰা ভাষাত কথা কওক)
- অনুভূতি আৰু বিন্যাস স্থানান্তৰ কৰক
- ১০-২৫ ছেকেণ্ডত ফলাফল
শব্দ ক্লোনিং মডেলৰ তুলনা
আপোনাৰ ক্লোনিং ব্যৱহাৰৰ ক্ষেত্ৰত সঠিক আৰ্হি বাছক
| আৰ্হি | সৰ্বনিম্ন সংযোগক্ষেত্ৰ | গতি | গুণমান | ভাষাসমূহ | অনুভূতি | অনুমতি |
|---|---|---|---|---|---|---|
| Chatterbox | 5s | ~21s | সেৰা | EN | MIT | |
| CosyVoice 2 | 5s | ~20s | অসাধাৰণ | CN, EN, JP, KO+ | Apache 2.0 | |
| GPT-SoVITS | 5s | ~16s | অসাধাৰণ | CN, EN, JP, KO | MIT | |
| OpenVoice | 5s | ~15s | ভাল | ইংৰাজী, চীনা, স্পেনিশ, ফ্ৰান্স | MIT | |
| Spark TTS | 5s | ~12s | ভাল | CN, EN | Apache 2.0 | |
| IndexTTS-2 | 5s | ~18s | অসাধাৰণ | CN, EN | Apache 2.0 | |
| GLM-TTS | 5s | ~25s | অসাধাৰণ | CN, EN | Apache 2.0 | |
| Qwen3-TTS | 5s | ~16s | অসাধাৰণ | CN, EN, JP, KO+ | Apache 2.0 | |
| Tortoise | 15s | ~60s | স্টুডিঅ' | EN | Apache 2.0 |
মানুহে কি কাৰণে ৰিয়েল-টাইম ভয়েস ক্লোনিং ব্যৱহাৰ কৰে
বিষয়বস্তু সৃষ্টিৰ পৰা অভিগম্যতালৈ — শব্দ ক্লোনিংৰ অগণন প্ৰয়োগ আছে
অডিঅ'বইৰ বৰ্ণনা
লেখকে নিজৰ কন্ঠক ক্লোন কৰে আৰু ৰেকৰ্ডিং বুথত ঘন্টা কটাব নোৱৰাকৈ সম্পূৰ্ণ অডিঅ'বুকসমূহ সৃষ্টি কৰে। পুনৰ ৰেকৰ্ড কৰাৰ পৰিবৰ্তে একক বাক্য পুনৰুদ্ধাৰ কৰি ভুলসমূহ সম্পাদন কৰক।
ভিডিঅ' ডুবিং
মূল কথোপকথক ৰক্ষা কৰি ভিডিঅ'সমূহ অন্য ভাষাত ডব কৰক
বিষয়বস্তু সৃষ্টি
YouTubers, podcasters, আৰু TikTok সৃষ্টিকৰ্তাসকলে স্থিতিশীল ব্ৰেণ্ডিংৰ বাবে তেওঁলোকৰ কণ্ঠক ক্লোন কৰে। ৰেকৰ্ড নকৰাকৈ নতুন সামগ্ৰীৰ বাবে voiceovers সৃষ্টি কৰক, বা বৰ্তমান ভিডিঅ'ৰ বিকল্প ভাষাৰ সংস্কৰণ সৃষ্টি কৰক।
অভিগম
যিসকল লোকৰ অসুখ বা অস্ত্রোপচাৰৰ বাবে কণ্ঠৰ ক্ষমতা হেৰুৱাইছে, তেওঁলোকে পুৰণি ৰেকৰ্ডসমূহৰ পৰা ক্লোন কৰি সেইটো সংৰক্ষণ কৰিব পাৰে। ক্লোন কৰা কণ্ঠে তেওঁলোকক টেক্সট-টু-স্পীচৰ দ্বাৰা নিজৰ কণ্ঠত যোগাযোগ কৰিব পাৰিব।
খেলা বিকাশ
কণ্ঠ অভিনেতা ক্লোন কৰক আৰু স্টুডিঅ' সময় নিৰ্ধাৰণ নকৰি অসীমিত ডাইলগ বৈচিত্র্য সৃষ্টি কৰক। ইণ্ডী খেল, মোড আৰু প্ৰটোটাইপিংৰ বাবে পূৰ্ণ যিখানে প্ৰতিটো শাৰী পুনৰ-ৰেকৰ্ড কৰা নহয়
ফোন ব্যৱস্থা
আপোনাৰ কোম্পানীৰ মুখপাত্ৰক ক্লোন কৰক
TTS.ai আৰু অন্যান্য শব্দ ক্লোন সমাধানসমূহ
কিয়9মডেল এটা একক মুক্ত উৎস প্ৰকল্পক পৰাভূত কৰে
| বৈশিষ্ট্য | TTS.ai | SV2TTS | ElevenLabs | Resemble AI |
|---|---|---|---|---|
| আৰ্হি ক্লোন কৰা হৈছে | 9 | 1 | 1 | 1 |
| সৰ্বনিম্ন অনুচ্ছেদ অডিঅ' | 5 sec | 5 sec | 30 sec | 3 min |
| প্ৰশিক্ষণ প্ৰয়োজন | নহয় | নহয় | নহয় | হ্যাঁ |
| অডিঅ'ৰ গুণমান (২০২৫) | স্টুডিঅ'-গ্ৰেড | তাৰিখ | অসাধাৰণ | অসাধাৰণ |
| ইমোচন নিয়ন্ত্ৰণ | ||||
| ক্ৰচ-লিঙ্গুৱেল ক্লোনিং | ||||
| মুক্ত উৎস | ||||
| GPU প্ৰয়োজনীয় | মেঘ | হ্যাঁ | মেঘ | মেঘ |
| API অভিগম | ||||
| মুক্ত স্তৰ | ১৫,০০০ আখৰ | স্ব-হোস্ট | সীমাবদ্ধ |
শব্দ ক্লোনিং API
আমাৰ REST API ৰ সৈতে প্ৰগ্ৰামিং ভাবে কণ্ঠসমূহ ক্লোন কৰক
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-...")
# Clone a voice from a 5-second sample
result = client.clone_voice(
name="My Cloned Voice",
file="reference.wav", # 5-30 seconds of clear speech
model="chatterbox", # or cosyvoice2, openvoice, spark...
text="Hello! This is my cloned voice speaking new text.",
)
# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
f.write(audio)
curl -X POST https://api.tts.ai/v1/voice-clone \
-H "Authorization: Bearer sk-tts-YOUR_KEY" \
-F "reference=@voice_sample.wav" \
-F "text=This is my cloned voice." \
-F "model=chatterbox"
সৰ্বোত্তম শব্দ ক্লোন ফলাফলৰ বাবে টিপস
এই ৰেকৰ্ডিং নিৰ্দেশনাসমূহৰ সৈতে সৰ্বাধিক সঠিক শব্দ ক্লোন প্ৰাপ্ত কৰক
শান্ত পৰিবেশ
নিম্নতম পটভূমিৰ শব্দ সহ এক শান্ত কক্ষত ৰেকৰ্ড কৰক। AI এ স্বচ্ছ অডিঅ'ৰ পৰা শব্দৰ বৈশিষ্ট্য অধিক সঠিকভাৱে আহৰণ কৰে।
১০-৩০ ছেকেণ্ড
৫ ছেকেণ্ডৰ কামৰ বিপৰীতে ১০-৩০ ছেকেণ্ডৰ ফলন অধিক ভাল হয়। AI-এ যিমানেই স্বাভাৱিকভাৱে কথা ক’ব সিমানেই ক্লোন সঠিক হ’ব।
স্বাভাৱিক কথন
স্বাভাৱিকভাৱে কথা কওক, একঘেয়ে নহয়। বিভিন্ন উচ্চাৰণ আৰু গতি অন্তৰ্ভুক্ত কৰক। AI এ আপোনাৰ স্বাভাৱিক কথা ক'বলৈ ধৰণ, অন্তৰ্ভুক্ত কৰে স্থগিত আৰু জোৰ দিয়ক।
একক স্পিকার
কেৱল এটা ব্যক্তিৰ সৈতে এটা নমুনা ব্যৱহাৰ কৰক। একাধিক কন্ঠে স্পিকার এম্বেডিং ত্ৰুটিযুক্ত কৰে আৰু মিশ্ৰিত ফলাফল প্ৰদান কৰে।
আজি শব্দ ক্লোন কৰা আৰম্ভ কৰক
৫ ছেকেণ্ডৰ অডিঅ' আপলোড কৰক আৰু ৩০ ছেকেণ্ডত আপোনাৰ ক্লোন কৰা কন্ঠ শুনিব পাৰিব। চেষ্টা কৰিবলৈ বিনামূলীয়া।
এটা শব্দ এতিয়া ক্লোন কৰক API দস্তাবেজসদায় সোধা প্ৰশ্নসমূহ
ৰিয়েল-টাইম শব্দ ক্লোনিং সম্পৰ্কে সাধাৰণ প্ৰশ্নসমূহ
আমি কি উন্নত কৰিব পাৰো? আপোনাৰ মতামত আমাক সমস্যা সমাধানত সহায় কৰে।
ছেকেণ্ডত যিকোনো শব্দ ক্লোন কৰক
৯টা মুক্ত উৎসৰ শব্দ ক্লোনিং মডেল। ৫ ছেকেণ্ডৰ নমুনা। প্ৰশিক্ষণ প্ৰয়োজন নহয়। ইয়াক বিনামূলীয়াকৈ চেষ্টা কৰক - আপোনাৰ অডিঅ' আপলোড কৰক আৰু ক্লোন তৰ লগে লগে শুনিব।