বাস্তব-সময়ের ভয়েস ক্লোনিং - সেকেন্ডের মধ্যে যেকোন ভয়েস ক্লোন করুন
মাত্র ৫ সেকেন্ডের রেফারেন্স অডিও সহ যেকোন শব্দ ক্লোন করুন। Chatterbox, CosyVoice2, GPT-SoVITS এবং OpenVoice সহ ৯টি উন্মুক্ত উৎস শব্দ ক্লোন মডেল। কোন প্রশিক্ষণের প্রয়োজন ছাড়াই শূন্য-শট ক্লোনিং - একটি নমুনা আপলোড করুন এবং তাৎক্ষণিকভাবে কথা বলুন। সব মডেল বাণিজ্যিক লাইসেন্সযুক্ত।
বাস্তব-সময়ের শব্দ ক্লোনিং বৈশিষ্ট্য
অত্যাধুনিক AI এর সাহায্যে অবিলম্বে কণ্ঠ ক্লোন করুন - কোন প্রশিক্ষণ, কোন ডেটাসেট, কোন অপেক্ষা নেই
জিরো-শট ক্লোনিং
কোন প্রশিক্ষণ নেই, কোন ফিন-টুইন নেই, কোন ডাটাসেট সংগ্রহ নেই। ৫ সেকেন্ডের অডিও আপলোড করুন এবং তাৎক্ষণিকভাবে একটি ক্লোন কণ্ঠস্বর পাবেন। AI স্পিকারের বৈশিষ্ট্য বাস্তব সময়ে বের করে।
৯টি ক্লোনিং মডেল
Chatterbox, CosyVoice2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS এবং Tortoise থেকে বেছে নিন। প্রত্যেক মডেলের বিভিন্ন গুণমান, গতি এবং ভাষার শক্তি আছে।
ক্রস- লিঙ্গুয়াল ক্লোনিং
ইংরেজি ভাষায় একটি কণ্ঠস্বর ক্লোন করুন এবং চীনা, জাপানি, কোরীয় এবং আরও অনেক ভাষায় কথাবার্তা তৈরি করুন। CosyVoice2এবং Qwen3-TTS ১৭+ ভাষার মধ্যে কণ্ঠস্বর পরিচয় সংরক্ষণ করে।
আবেগ নিয়ন্ত্রণ
Chatterbox, OpenVoice এবং GLM-TTS আবেগ-সংক্রান্ত উৎপাদন সমর্থন করে। একই টেক্সট বিভিন্ন আবেগ সহ উত্পাদন করুন - খুশি, দুঃখিত, রেগে, চুপচাপ - ক্লোন করা কণ্ঠস্বর বজায় রেখে।
ওপেন সোর্স এবং বাণিজ্যিক
প্রতিটি ক্লোন মডেল এমআইটি বা অ্যাপাচি ২.০ লাইসেন্সের অধীনে উন্মুক্ত উৎস। ক্লোন করা শব্দ বাণিজ্যিকভাবে কোন রুট-ট্যাক্স ছাড়াই বিষয়বস্তু, পণ্য এবং অ্যাপ্লিকেশনের জন্য ব্যবহার করুন।
API ক্লোন করা হচ্ছে
প্রোগ্রামিং ভয়েস ক্লোনিং এর জন্য REST API। রেফারেন্স অডিও আপলোড করুন, টেক্সট উল্লেখ করুন, এবং ক্লোন করা ভাষণ গ্রহণ করুন। পাইথন এবং জাভাস্ক্রিপ্ট এর জন্য SDK। উচ্চ পরিমাণের ওয়ার্কফ্লোর জন্য ব্যাচ ক্লোনিং।
শব্দের ক্লোন মডেল
প্রতিটি ক্লোনিং ব্যবহারের ক্ষেত্রে ৯টি উন্মুক্ত উৎস মডেল
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
সর্বোত্তম: সর্বোচ্চ সার্বিক গুণমান — ৫ সেকেন্ডের নমুনা, আবেগ নিয়ন্ত্রণ, এমআইটি লাইসেন্সপ্রাপ্ত
চেষ্টা করো Chatterbox
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
সর্বোত্তম: সর্বোত্তম বহুভাষিক ক্লোনিং — চীনা, ইংরেজি, জাপানি, কোরীয় ভাষায় শব্দ সংরক্ষণ করে
চেষ্টা করো CosyVoice 2
OpenVoice
Premium
Instant voice cloning with granular control over style, emotion, and accent.
সর্বোত্তম: আবেগ এবং শৈলী স্থানান্তর সঙ্গে দ্রুত টোন রং রূপান্তর
চেষ্টা করো OpenVoice
Spark TTS
Standard
Voice cloning TTS with controllable emotion and speaking style via prompts.
সর্বোত্তম: দ্রুততম ক্লোন মডেল — ফলাফল ~12 সেকেন্ডে
চেষ্টা করো Spark TTS
IndexTTS-2
Standard
Zero-shot TTS with fine-grained emotion control and high expressiveness.
সর্বোত্তম: উচ্চ স্পিকার অনুরূপতার সাথে চমৎকার চীনা-ইংরেজি ক্লোনিং
চেষ্টা করো IndexTTS-2
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
সর্বোত্তম: স্টুডিও-মানের ফলাফল - অডিওবুক এবং প্রাইম নারেটিং এর জন্য সেরা
চেষ্টা করো Tortoise TTSকিভাবে বাস্তব-সময়ের ভয়েস ক্লোনিং কাজ করে
অডিও নমুনা থেকে অসীমিত ক্লোন করা বক্তব্য
রেফারেন্স অডিও আপলোড করো
আপনি যে শব্দটি ক্লোন করতে চান তা থেকে ৫-৩০ সেকেন্ডের পরিষ্কার কথা রেকর্ড করুন অথবা আপলোড করুন। WAV, MP3, অথবা আপনার ব্রাউজার থেকে সরাসরি রেকর্ড করুন।
একটি ক্লোন মডেল বেছে নিন
আপনার প্রয়োজন অনুযায়ী মডেল বেছে নিন - গুণগত মান, স্পার্ক, কোসিভয়েস ২, বহুভাষিকতার জন্য।
আপনার লেখা লিখুন
ক্লোন করা কন্ঠে আপনি যে লেখাটি বলতে চান তা টাইপ অথবা সাঁটান। মডেল দ্বারা সমর্থিত যেকোন ভাষাই কাজ করবে।
ডাউনলোড করো
ক্লিক করুন তৈরি করুন এবং আপনার ক্লোন করা কণ্ঠস্বরটি ১০-২৫ সেকেন্ডের মধ্যে শুনুন। তাৎক্ষণিক ব্যবহারের জন্য WAV বা MP3 হিসাবে ডাউনলোড করুন।
জিরো-শট ভয়েস ক্লোনিং কিভাবে কাজ করে
কোন ফিন-টুইনিং, কোন ডাটাসেট সংগ্রহ নেই - শুধু আপলোড এবং ক্লোন করুন
স্পিকারের অভ্যন্তরীণ এক্সট্র্যাক্ট
AI আপনার রেফারেন্স অডিও বিশ্লেষণ করে একটি স্পিকার এম্বেডিং বের করে আনবে - একটি কম্প্যাক্ট গাণিতিক প্রতিনিধিত্বের কন্ঠের অনন্য বৈশিষ্ট্য সহ পিট, টিমব্রে, কথা বলার রীতি, এবং কণ্ঠের টেক্সচার। এটি ১ সেকেন্ডের কম সময়ে ঘটে।
- অডিও ৫ সেকেন্ডের মধ্যে কাজ করে
- পিচ, টিমব্রে এবং কথা বলার শৈলী ধারণ করে
- কোন প্রশিক্ষণ বা ফিন-টুইনের প্রয়োজন নেই
- অডিও কখনো স্থায়ীভাবে সংরক্ষণ করা হয় না
কৃত্রিম ভাষা সংশ্লেষণ
TTS মডেল স্পিকারের অন্তর্ভুক্তির উপর নির্ভর করে নতুন কথাবার্তার সৃষ্টি করে। ফলাফলটি রেফারেন্স স্পিকারের আপনার লেখা বলার মতো শোনাবে - প্রাকৃতিক প্রসোডি, উপযুক্ত জোর এবং যেকোনো ভাষা বা বিষয়বস্তুতে মূল শব্দের বৈশিষ্ট্য সংরক্ষিত থাকবে।
- একক নমুনা থেকে অসীমিত বক্তৃতা উত্পাদন করুন
- ক্রস- ভাষা ক্লোনিং (সংযোগে ব্যবহৃত ভাষায় কথা বলুন)
- আবেগ এবং শৈলী স্থানান্তর
- ১০-২৫ সেকেন্ডের মধ্যে ফলাফল
শব্দের ক্লোনিং মডেলের তুলনা
আপনার ক্লোনিং ব্যবহারের ক্ষেত্রে সঠিক মডেল নির্বাচন করুন
| মডেল | সর্বনিম্ন রেফারেন্স | গতি | গুণমান | ভাষা | আবেগ | লাইসেন্স |
|---|---|---|---|---|---|---|
| Chatterbox | 5s | ~21s | সেরা | EN | MIT | |
| CosyVoice 2 | 5s | ~20s | অসাধারণ | সিএন, ইংরেজি, জাপানি, কোরিয়ান | Apache 2.0 | |
| GPT-SoVITS | 5s | ~16s | অসাধারণ | সিএন, ইংরেজি, জাপানি, কোরিয়ান | MIT | |
| OpenVoice | 5s | ~15s | ভাল | ইংরেজি, চীনা, স্প্যানিশ, ফরাসি+ | MIT | |
| Spark TTS | 5s | ~12s | ভাল | সিএন, এন | Apache 2.0 | |
| IndexTTS-2 | 5s | ~18s | অসাধারণ | সিএন, এন | Apache 2.0 | |
| GLM-TTS | 5s | ~25s | অসাধারণ | সিএন, এন | Apache 2.0 | |
| Qwen3-TTS | 5s | ~16s | অসাধারণ | সিএন, ইংরেজি, জাপানি, কোরিয়ান | Apache 2.0 | |
| Tortoise | 15s | ~60s | স্টুডিও | EN | Apache 2.0 |
মানুষ কি জন্য রিয়েল-টাইম ভয়েস ক্লোনিং ব্যবহার করে
বিষয়বস্তু তৈরি থেকে শুরু করে ব্যবহারের সুবিধা – শব্দ ক্লোনিং এর অসংখ্য প্রয়োগ রয়েছে।
অডিওবইয়ের বর্ণনা
লেখক তাদের নিজের কণ্ঠ ক্লোন করে এবং রেকর্ডিং বুথে ঘণ্টা কাটানোর পরিবর্তে সম্পূর্ণ অডিওবুক তৈরি করে। পুনরায় রেকর্ড করার পরিবর্তে একক বাক্য পুনরুদ্ধার করে ভুলগুলি সম্পাদন করুন।
ভিডিও দ্বৈতকরণ
ভিডিওগুলোকে অন্য ভাষায় ডাব করে, কিন্তু মূল বক্তার কণ্ঠ বজায় রাখে। কসিভয়েস ২ এবং কুয়েন৩-টিটিএসের মতো ক্রস-লিঙ্গুইজ মডেলগুলো চীনা, ইংরেজি, জাপানি এবং কোরিয়ান ভাষার মধ্যে কণ্ঠ পরিচয় বজায় রাখে।
বিষয়বস্তু তৈরি করা হচ্ছে
ইউটিউব, পডকাস্ট এবং টিকটক তৈরিকারীরা তাদের কণ্ঠস্বরকে ক্লোন করে স্থায়ী ব্র্যান্ডিংয়ের জন্য। রেকর্ডিং ছাড়াই নতুন বিষয়বস্তু তৈরি করুন, অথবা বিদ্যমান ভিডিওগুলোর বিকল্প ভাষা সংস্করণ তৈরি করুন।
প্রবেশযোগ্যতা
যারা অসুস্থতা বা সার্জারির কারণে তাদের কণ্ঠ হারিয়েছেন তারা পুরনো রেকর্ড থেকে কণ্ঠ ক্লোন করে তা সংরক্ষণ করতে পারেন। ক্লোন করা কণ্ঠ তাদেরকে টেক্সট-টু-স্পিকারের মাধ্যমে তাদের নিজের কণ্ঠে যোগাযোগ করতে দেয়।
খেলা ডেভেলপমেন্ট
কণ্ঠ অভিনেতাদের ক্লোন করুন এবং স্টুডিও সময় নির্ধারণ না করে অসীমিত ডায়ালগ বৈচিত্র্য তৈরি করুন। ইন্ডিয়া গেম, মোড এবং প্রোটোটাইপিং এর জন্য পূর্ণ যেখানে প্রতিটি লাইন পুনরায় রেকর্ড করা সম্ভব নয়।
IVR এবং ফোন সিস্টেম
ফোন মেনু এবং স্বয়ংক্রিয় উত্তরের জন্য আপনার কোম্পানির মুখপাত্রের কণ্ঠ ক্লোন করুন। একটি কণ্ঠ অভিনেতা বুকিং না করেই IVR প্রম্পট ইতোমধ্যে আপডেট করুন - শুধু নতুন টেক্সট টাইপ করুন এবং উত্পাদন করুন।
TTS.ai বনাম অন্যান্য ভয়েস ক্লোনিং সমাধান
কেন ৯ মডেল একক মুক্ত উৎস প্রকল্পকে হারায়
| বৈশিষ্ট্য | TTS.ai | SV2TTS | ElevenLabs | Resemble AI |
|---|---|---|---|---|
| মডেল ক্লোন করা হচ্ছে | 9 | 1 | 1 | 1 |
| সর্বনিম্ন রেফারেন্স অডিও | 5 sec | 5 sec | 30 sec | 3 min |
| প্রশিক্ষণ প্রয়োজন | না | না | না | হ্যাঁ |
| অডিও গুণমান (২০২৫) | স্টুডিও- গ্রেড | তারিখ | অসাধারণ | অসাধারণ |
| আবেগ নিয়ন্ত্রণ | ||||
| ক্রস- লিঙ্গুয়াল ক্লোনিং | ||||
| ওপেন সোর্স | ||||
| GPU প্রয়োজন | মেঘ | হ্যাঁ | মেঘ | মেঘ |
| API ব্যবহার | ||||
| মুক্ত স্তর | ১৫ ক্রেডিট | স্বয়ংক্রিয় হোস্ট | সীমাবদ্ধ |
শব্দ ক্লোনিং API
আমাদের REST API এর সাথে প্রোগ্রামিং দ্বারা কণ্ঠস্বর ক্লোন করুন
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-...")
# Clone a voice from a 5-second sample
result = client.clone_voice(
name="My Cloned Voice",
file="reference.wav", # 5-30 seconds of clear speech
model="chatterbox", # or cosyvoice2, openvoice, spark...
text="Hello! This is my cloned voice speaking new text.",
)
# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
f.write(audio)
curl -X POST https://api.tts.ai/v1/voice-clone \
-H "Authorization: Bearer sk-tts-YOUR_KEY" \
-F "reference=@voice_sample.wav" \
-F "text=This is my cloned voice." \
-F "model=chatterbox"
সর্বোত্তম শব্দ ক্লোন ফলাফল জন্য টিপস
এই রেকর্ডিং নির্দেশিকা সহ সবচেয়ে সঠিক ভয়েস ক্লোন পেতে
নিরবতা
নিম্নমানের পটভূমির শব্দ সহ একটি নিরাপদ কক্ষে রেকর্ড করুন। AI পরিষ্কার অডিও থেকে শব্দের বৈশিষ্ট্য আরও সঠিকভাবে বের করে আনে।
১০-৩০ সেকেন্ড
৫ সেকেন্ড কাজ করলেও ১০-৩০ সেকেন্ডে অনেক ভালো ফলাফল পাওয়া যায়। AI যত বেশি প্রাকৃতিক কথা শুনবে, ক্লোন তত বেশি সঠিক হবে।
প্রাকৃতিক বক্তৃতা
স্বাভাবিকভাবে কথা বলুন, একই ধরনের শব্দে নয়। বিভিন্ন ধরনের উচ্চারণ এবং গতি অন্তর্ভুক্ত করুন। AI আপনার স্বাভাবিক কথা বলার ধরন ধরে রাখে, যেমন বিরতি এবং জোর।
একক স্পিকার
শুধুমাত্র একজন ব্যক্তির কথা বলার জন্য একটি নমুনা ব্যবহার করুন। একাধিক কণ্ঠস্বর স্পিকারের অন্তর্ভুক্তির সাথে ঝামেলা সৃষ্টি করে এবং মিশ্রিত ফলাফল তৈরি করে।
আজ থেকেই শব্দের ক্লোন তৈরি শুরু করুন
৫ সেকেন্ডের অডিও আপলোড করুন এবং ৩০ সেকেন্ডের মধ্যে আপনার ক্লোন করা কণ্ঠ শুনুন। বিনামূল্যে চেষ্টা করুন।
এখন একটি শব্দ ক্লোন করো API নথিপত্রপ্রায়শ জিজ্ঞাসিত প্রশ্ন
বাস্তব-সময়ের ভয়েস ক্লোনিং সম্পর্কে সাধারণ প্রশ্ন
আমরা কি উন্নতি করতে পারি? আপনার ফিডব্যাক আমাদের সমস্যা সমাধানে সাহায্য করে।
সেকেন্ডের মধ্যে যেকোন শব্দ ক্লোন করুন
৯টি মুক্ত উৎস ভয়েস ক্লোনিং মডেল। ৫ সেকেন্ডের নমুনা। কোন প্রশিক্ষণ প্রয়োজন নেই। এটি বিনামূল্যে চেষ্টা করুন - আপনার অডিও আপলোড করুন এবং ক্লোনটি তাৎক্ষণিকভাবে শুনুন।