ৰিয়েল-টাইম ভয়েস ক্লোনিং — ছেকেণ্ডত যিকোনো ভয়েছ ক্লোন কৰক

কেৱল ৫ ছেকেণ্ডৰ অডিঅ'ৰ সহায়ত যিকোনো শব্দ ক্লোন কৰক। Chatterbox, CosyVoice2, GPT-SoVITS আৰু OpenVoice সহ ৯টা মুক্ত উৎসৰ শব্দ ক্লোন মডেল। প্ৰশিক্ষণৰ প্ৰয়োজন নোহোৱাকৈ Zero-shot ক্লোনিং - এটা নমুনা আপলোড কৰক আৰু পোনতে শব্দ নিৰ্মাণ কৰক। সকলো মডেল বাণিজ্যিকভাৱে লাইচেঞ্চিত।

ৰিয়েল-টাইম ৫-ছেকেণ্ডৰ নমুনা ৯ ক্লোনিং মডেল মুক্ত উৎস ভাষাসমূহ ইমোচন নিয়ন্ত্ৰণ

মুক্ত আৰম্ভ কৰক মূল্য দেখুৱাওক

ৰিয়েল-টাইম ভয়েস ক্লোনিং বৈশিষ্ট্যসমূহ

state-of-the-art AI ৰ সৈতে তাৎক্ষণিকভাবে ক্লোন কৰক - কোনো প্ৰশিক্ষণ নাই, কোনো ডেটাসেট নাই, কোনো অপেক্ষা নাই

Zero-Shot ক্লোনিং

কোনো প্ৰশিক্ষণ নাই, কোনো ফাইন-টুনিং নাই, কোনো ডাটাসেট সংগ্ৰহ নাই। ৫ ছেকেণ্ডৰ অডিঅ' আপলোড কৰক আৰু তাৎক্ষণিকভাৱে এটা ক্লোন কৰা কন্ঠ প্ৰাপ্ত কৰক। AI ৰ দ্বাৰা ৰিয়েল-টাইমত স্পিকারৰ বৈশিষ্ট্যসমূহ আহৰণ কৰা হয়।

৯ ক্লোনিং মডেল

Chatterbox, CosyVoice 2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS আৰু Tortoise ৰ পৰা বাছক। প্ৰত্যেক মডেলৰ বিভিন্ন গুণ, গতি আৰু ভাষা আছে।

ক্ৰচ-লিঙ্গুৱেল ক্লোনিং

ইংৰাজী ভাষাত এটা শব্দ ক্লোন কৰক আৰু চীনা, জাপানি, কোৰীয় আৰু আকৌ অধিক ভাষাত কথা কওক। CosyVoice2এবং Qwen3-TTS এ ১৭+ ভাষাত শব্দৰ পৰিচয় সংৰক্ষণ কৰে।

ইমোচন নিয়ন্ত্ৰণ

Chatterbox, OpenVoice, আৰু GLM-TTS এ আবেগ-সংক্রান্ত উৎপাদন সমৰ্থন কৰে। একই টেক্সট বিভিন্ন আবেগ - সুখী, দুখী, ক্ষুব্ধ, চুইচ কৰা - ৰ সৈতে উৎপাদন কৰক - ক্লোন কৰা কন্ঠটো ৰক্ষা কৰি।

মুক্ত উৎস আৰু বাণিজ্যিক

প্ৰতিটো ক্লোনিং মডেল MIT অথবা Apache 2.0 লাইচেঞ্চৰ অধীনত ওপেন সোর্স। ক্লোন কৰা শব্দসমূহ বাণিজ্যিকভাৱে কোনো ৰেয়্যালিটি নোহোৱাকৈ সমল, উৎপাদন আৰু এপ্লিকেচনসমূহৰ বাবে ব্যৱহাৰ কৰক।

API ক্লোন কৰা হৈছে

প্ৰগ্ৰামিক কন্ঠ ক্লোন কৰাৰ বাবে REST API। সংযোগ অডিঅ' আপলোড কৰক, টেক্সট ধাৰ্য্য কৰক, আৰু ক্লোন কৰা কথোপকথন গ্ৰহণ কৰক। Python আৰু JavaScript ৰ বাবে SDK। উচ্চ ভলিউম কাৰ্য্যক্ৰমৰ বাবে ব্যাচ ক্লোন কৰা।

শব্দ ক্লোনিং মডেলসমূহ

প্ৰতিটো ক্লোনিং ব্যৱহাৰৰ ক্ষেত্ৰত ৯টা উন্মুক্ত উৎসৰ মডেল

Chatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

মধ্যম 5/5 ধ্বনি ক্লোনিং

সৰ্বোত্তম: সৰ্বোত্তম সামগ্ৰিক গুণমান - ৫ ছেকেণ্ডৰ নমুনা, অনুভূতি নিয়ন্ত্ৰণ, MIT লাইচেঞ্চিত

চেষ্টা কৰক Chatterbox

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

মধ্যম 5/5 ধ্বনি ক্লোনিং

সৰ্বোত্তম: সেৰা বহুভাষিক ক্লোনিং — চীনা, ইংৰাজী, জাপানি, কোৰীয়ত শব্দ সংৰক্ষণ কৰে

চেষ্টা কৰক CosyVoice 2

OpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

মধ্যম 4/5 ধ্বনি ক্লোনিং

সৰ্বোত্তম: ইমোচন আৰু বিন্যাস স্থানান্তৰৰ সৈতে দ্ৰুত টোন ৰঙ ৰূপান্তৰ

চেষ্টা কৰক OpenVoice

Spark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

মধ্যম 4/5 ধ্বনি ক্লোনিং

সৰ্বোত্তম: দ্রুততম ক্লোনিং মডেল — ~১২ ছেকেণ্ডত ফলাফল

চেষ্টা কৰক Spark TTS

IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

মধ্যম 4/5 ধ্বনি ক্লোনিং

সৰ্বোত্তম: উচ্চ স্পীকাৰ অনুৰূপতাৰ সৈতে চীনা- ইংৰাজী ক্লোনিংName

চেষ্টা কৰক IndexTTS-2

Tortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

ধীর 5/5 ধ্বনি ক্লোনিং

সৰ্বোত্তম: স্টুডিঅ'-গুণমানৰ ফলাফল - অডিঅ'বই আৰু প্ৰিমিয়াম নাৰায়ণ্যৰ বাবে সৰ্বোত্তম

চেষ্টা কৰক Tortoise TTS

ৰিয়েল-টাইম ভয়েস ক্লোনিং কিদৰে কাম কৰে

এটা সংক্ষিপ্ত অডিঅ' নমুনা পৰা অসীমিত ক্লোন কৰা কথোপকথনলৈ

1

অনুসূচীত অডিঅ' আপলোড কৰক

ক্লোন কৰিব বিচৰা শব্দৰ পৰা ৫-৩০ ছেকেণ্ডৰ স্পষ্ট কথা ৰেকৰ্ড কৰক বা আপলোড কৰক। WAV, MP3, অথবা আপোনাৰ ব্ৰাউছাৰত সরাসৰি ৰেকৰ্ড কৰক।

2

এটা ক্লোনিং আৰ্হি বাছক

আপোনাৰ প্ৰয়োজন অনুসৰি আৰ্হি বাছক — গুণগত মানৰ বাবে Chatterbox, গতি বৃদ্ধিৰ বাবে Spark, বহুভাষিকৰ বাবে CosyVoice2।

3

আপোনাৰ লিপি লিখক

ক্লোন কৰা শব্দত আপুনি যি লিখনী ক'ব বিচাৰে তা টাইপ কৰক অথবা পেইস্ট কৰক। মডেলে সমৰ্থিত যিকোনো ভাষা ব্যৱহাৰ কৰক।

4

সৃষ্টি কৰক আৰু ডাউনল'ড কৰক

সৃষ্টি কৰক ক্লিক কৰক আৰু ১০-২৫ ছেকেণ্ডত আপোনাৰ ক্লোন কৰা শব্দ শুনিব। তাৎক্ষণিক ব্যৱহাৰৰ বাবে WAV অথবা MP3 ৰূপে ডাউনল'ড কৰক।

Zero-Shot শব্দ ক্লোনিং কিদৰে কাম কৰে

কোনো ফাইন-টুনিং নাই, কোনো ডাটাসেট সংগ্ৰহ নাই — অকল আপলোড আৰু ক্লোন কৰক

স্পিকার এম্বেডিং এক্সট্ৰেক্ট

AI এ আপোনাৰ সংজ্ঞা অডিঅ' বিশ্লেষণ কৰি এটা স্পিকার এম্বেডিং এক্সট্ৰেক্ট কৰে - শব্দৰ এটা কমপেক্ট গাণিতিক প্ৰতিনিধিত্ব

৫ ছেকেণ্ডৰ অডিঅ'ৰ সৈতে কাম কৰে
পিট, টিম্বৰ আৰু কথোপকথনৰ বিন্যাস ৰেকৰ্ড কৰে
কোনো প্ৰশিক্ষণ বা ফাইন-টুইনৰ প্ৰয়োজন নাই
অডিঅ' কখনোই স্থায়ীৰূপে সংৰক্ষণ কৰা নহয়

ধাৰ্য্যত বাক্য সংশ্লেষণName

TTS মডেলে স্পিকারৰ এম্বেডিংৰ ওপৰত নিৰ্ভৰ কৰি নতুন কথন সৃষ্টি কৰে। ফলাফলটি সংশ্লিষ্ট স্পিকারে আপোনাৰ টেক্সট ক'ব বুলি শোনা যায় - স্বাভাৱিক প্ৰোসোডি, উপযুক্ত জোৰ আৰু মূল কথনৰ সৈতে

এটা একক নমুনা থেকে অসীমিত কথন সৃষ্টি কৰক
ক্ৰচ-লেঙ্গুৱেজ ক্লোনিং (সংযোগ কৰা ভাষাত কথা কওক)
অনুভূতি আৰু বিন্যাস স্থানান্তৰ কৰক
১০-২৫ ছেকেণ্ডত ফলাফল

শব্দ ক্লোনিং চেষ্টা কৰক

শব্দ ক্লোনিং মডেলৰ তুলনা

আপোনাৰ ক্লোনিং ব্যৱহাৰৰ ক্ষেত্ৰত সঠিক আৰ্হি বাছক

আৰ্হি	সৰ্বনিম্ন সংযোগক্ষেত্ৰ	গতি	গুণমান	ভাষাসমূহ	অনুমতি
Chatterbox	5s	~21s	সেৰা	EN	MIT
CosyVoice 2	5s	~20s	অসাধাৰণ	CN, EN, JP, KO+	Apache 2.0
GPT-SoVITS	5s	~16s	অসাধাৰণ	CN, EN, JP, KO	MIT
OpenVoice	5s	~15s	ভাল	ইংৰাজী, চীনা, স্পেনিশ, ফ্ৰান্স	MIT
Spark TTS	5s	~12s	ভাল	CN, EN	Apache 2.0
IndexTTS-2	5s	~18s	অসাধাৰণ	CN, EN	Apache 2.0
GLM-TTS	5s	~25s	অসাধাৰণ	CN, EN	Apache 2.0
Qwen3-TTS	5s	~16s	অসাধাৰণ	CN, EN, JP, KO+	Apache 2.0
Tortoise	15s	~60s	স্টুডিঅ'	EN	Apache 2.0

আৰ্হিৰ তুলনা কৰক

মানুহে কি কাৰণে ৰিয়েল-টাইম ভয়েস ক্লোনিং ব্যৱহাৰ কৰে

বিষয়বস্তু সৃষ্টিৰ পৰা অভিগম্যতালৈ — শব্দ ক্লোনিংৰ অগণন প্ৰয়োগ আছে

অডিঅ'বইৰ বৰ্ণনা

লেখকে নিজৰ কন্ঠক ক্লোন কৰে আৰু ৰেকৰ্ডিং বুথত ঘন্টা কটাব নোৱৰাকৈ সম্পূৰ্ণ অডিঅ'বুকসমূহ সৃষ্টি কৰে। পুনৰ ৰেকৰ্ড কৰাৰ পৰিবৰ্তে একক বাক্য পুনৰুদ্ধাৰ কৰি ভুলসমূহ সম্পাদন কৰক।

ভিডিঅ' ডুবিং

মূল কথোপকথক ৰক্ষা কৰি ভিডিঅ'সমূহ অন্য ভাষাত ডব কৰক

বিষয়বস্তু সৃষ্টি

YouTubers, podcasters, আৰু TikTok সৃষ্টিকৰ্তাসকলে স্থিতিশীল ব্ৰেণ্ডিংৰ বাবে তেওঁলোকৰ কণ্ঠক ক্লোন কৰে। ৰেকৰ্ড নকৰাকৈ নতুন সামগ্ৰীৰ বাবে voiceovers সৃষ্টি কৰক, বা বৰ্তমান ভিডিঅ'ৰ বিকল্প ভাষাৰ সংস্কৰণ সৃষ্টি কৰক।

অভিগম

যিসকল লোকৰ অসুখ বা অস্ত্রোপচাৰৰ বাবে কণ্ঠৰ ক্ষমতা হেৰুৱাইছে, তেওঁলোকে পুৰণি ৰেকৰ্ডসমূহৰ পৰা ক্লোন কৰি সেইটো সংৰক্ষণ কৰিব পাৰে। ক্লোন কৰা কণ্ঠে তেওঁলোকক টেক্সট-টু-স্পীচৰ দ্বাৰা নিজৰ কণ্ঠত যোগাযোগ কৰিব পাৰিব।

খেলা বিকাশ

কণ্ঠ অভিনেতা ক্লোন কৰক আৰু স্টুডিঅ' সময় নিৰ্ধাৰণ নকৰি অসীমিত ডাইলগ বৈচিত্র্য সৃষ্টি কৰক। ইণ্ডী খেল, মোড আৰু প্ৰটোটাইপিংৰ বাবে পূৰ্ণ যিখানে প্ৰতিটো শাৰী পুনৰ-ৰেকৰ্ড কৰা নহয়

ফোন ব্যৱস্থা

আপোনাৰ কোম্পানীৰ মুখপাত্ৰক ক্লোন কৰক

এটা শব্দ এতিয়া ক্লোন কৰক

TTS.ai আৰু অন্যান্য শব্দ ক্লোন সমাধানসমূহ

কিয়9মডেল এটা একক মুক্ত উৎস প্ৰকল্পক পৰাভূত কৰে

বৈশিষ্ট্য	TTS.ai	SV2TTS	ElevenLabs	Resemble AI
আৰ্হি ক্লোন কৰা হৈছে	9	1	1	1
সৰ্বনিম্ন অনুচ্ছেদ অডিঅ'	5 sec	5 sec	30 sec	3 min
প্ৰশিক্ষণ প্ৰয়োজন	নহয়	নহয়	নহয়	হ্যাঁ
অডিঅ'ৰ গুণমান (২০২৫)	স্টুডিঅ'-গ্ৰেড	তাৰিখ	অসাধাৰণ	অসাধাৰণ
ইমোচন নিয়ন্ত্ৰণ
ক্ৰচ-লিঙ্গুৱেল ক্লোনিং
মুক্ত উৎস
GPU প্ৰয়োজনীয়	মেঘ	হ্যাঁ	মেঘ	মেঘ
API অভিগম
মুক্ত স্তৰ	১৫,০০০ আখৰ	স্ব-হোস্ট	সীমাবদ্ধ

মুক্ত চেষ্টা কৰক

শব্দ ক্লোনিং API

আমাৰ REST API ৰ সৈতে প্ৰগ্ৰামিং ভাবে কণ্ঠসমূহ ক্লোন কৰক

Python - শব্দ ক্লোনিং REST API

from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)

cURL — শব্দ ক্লোনিং REST API

curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

API দস্তাবেজ প্ৰদৰ্শন কৰক

সৰ্বোত্তম শব্দ ক্লোন ফলাফলৰ বাবে টিপস

এই ৰেকৰ্ডিং নিৰ্দেশনাসমূহৰ সৈতে সৰ্বাধিক সঠিক শব্দ ক্লোন প্ৰাপ্ত কৰক

শান্ত পৰিবেশ

নিম্নতম পটভূমিৰ শব্দ সহ এক শান্ত কক্ষত ৰেকৰ্ড কৰক। AI এ স্বচ্ছ অডিঅ'ৰ পৰা শব্দৰ বৈশিষ্ট্য অধিক সঠিকভাৱে আহৰণ কৰে।

১০-৩০ ছেকেণ্ড

৫ ছেকেণ্ডৰ কামৰ বিপৰীতে ১০-৩০ ছেকেণ্ডৰ ফলন অধিক ভাল হয়। AI-এ যিমানেই স্বাভাৱিকভাৱে কথা ক’ব সিমানেই ক্লোন সঠিক হ’ব।

স্বাভাৱিক কথন

স্বাভাৱিকভাৱে কথা কওক, একঘেয়ে নহয়। বিভিন্ন উচ্চাৰণ আৰু গতি অন্তৰ্ভুক্ত কৰক। AI এ আপোনাৰ স্বাভাৱিক কথা ক'বলৈ ধৰণ, অন্তৰ্ভুক্ত কৰে স্থগিত আৰু জোৰ দিয়ক।

একক স্পিকার

কেৱল এটা ব্যক্তিৰ সৈতে এটা নমুনা ব্যৱহাৰ কৰক। একাধিক কন্ঠে স্পিকার এম্বেডিং ত্ৰুটিযুক্ত কৰে আৰু মিশ্ৰিত ফলাফল প্ৰদান কৰে।

ক্লোনিং আৰম্ভ কৰক

আজি শব্দ ক্লোন কৰা আৰম্ভ কৰক

৫ ছেকেণ্ডৰ অডিঅ' আপলোড কৰক আৰু ৩০ ছেকেণ্ডত আপোনাৰ ক্লোন কৰা কন্ঠ শুনিব পাৰিব। চেষ্টা কৰিবলৈ বিনামূলীয়া।

এটা শব্দ এতিয়া ক্লোন কৰক API দস্তাবেজ

সদায় সোধা প্ৰশ্নসমূহ

ৰিয়েল-টাইম শব্দ ক্লোনিং সম্পৰ্কে সাধাৰণ প্ৰশ্নসমূহ

ৰিয়েল-টাইম ভয়েস ক্লোনিং হৈছে AI প্ৰযুক্তি যি কোনো প্ৰশিক্ষণ বা ফাইন-টুনিং অবিহনে এটা সংক্ষিপ্ত অডিঅ' নমুনা - ৫ ছেকেণ্ডৰ দৰে -ৰ পৰা এটা ব্যক্তিৰ ভয়েস পুনৰ সৃষ্টি কৰিব পাৰে। আপুনি এটা নমুনা আপলোড কৰে, আৰু AI এ সেই ব্যক্তিৰ দৰে শব্দ কৰা নতুন ভাষণ সৃষ্টি কৰে। TTS.ai এ ৯ খন ভিন্ন ভয়েস ক্লোনিং মডেল প্ৰদান কৰে, প্ৰত্যেকটোতে বিভিন্ন শক্তিৰ বাবে গুণমান, গতি, আৰু ভাষা সমৰ্থন।

অধিকাংশ মডেল (Chatterbox, CosyVoice2, Spark, GPT-SoVITS, OpenVoice) ৰ সৈতে কমেও ৫ ছেকেণ্ডৰ কাম কৰে। Tortoise ৰ বাবে সৰ্বোত্তম ফলাফল লাভৰ বাবে ১৫+ ছেকেণ্ডৰ প্ৰয়োজন। সকলো মডেলসমূহৰ বাবে সৰ্বোত্তম গুণমানৰ বাবে, ১০-৩০ ছেকেণ্ডৰ স্পষ্ট, একক স্পিকার অডিঅ'ৰ সুপারিশ কৰা হয়। অডিঅ'ত পটভূমিৰ শব্দ আৰু সঙ্গীতৰ অভাৱ হ'ব লাগিব।

শব্দ ক্লোন প্ৰযুক্তি স্বয়ং বৈধ। তথাপি, আপুনি কেৱল ব্যৱহাৰৰ অনুমতি থকা শব্দসমূহ ক্লোন কৰিব লাগিব - আপোনাৰ নিজৰ শব্দ, শব্দসমূহ যিবোৰৰ বাবে আপোনাৰ স্পষ্ট অনুমতি আছে, অথবা শব্দসমূহ পাবলিক ডমেইনত। অনুমতি নোহোৱাকৈ কাৰোবাৰ প্ৰতিকৃতিত ব্যৱহাৰ কৰিবলৈ শব্দ ক্লোন ব্যৱহাৰ কৰা, প্ৰতাৰণা কৰা, অথবা বিভ্রান্তিকৰ বিষয়বস্তু সৃষ্টি কৰা অধিকাংশ শাসক অঞ্চলত অবৈধ। TTS.ai ৰ শৰ্তাৱলীৰ দ্বাৰা আপুনি যিকোনো শব্দ ক্লোন কৰাৰ অধিকাৰ থকাৰ প্ৰয়োজন হয়।

ই আপোনাৰ ব্যৱহাৰৰ ক্ষেত্ৰত নিৰ্ভৰ কৰে। Chatterbox এ অনুভূতি নিয়ন্ত্ৰণ সহ উচ্চমানৰ ইংৰাজী ক্লোনসমূহ সৃষ্টি কৰে। CosyVoice2এ বহুভাষিক ক্লোনিং (চীনা, ইংৰাজী, জাপানি, কোৰীয়) ৰ বাবে সৰ্বোত্তম। Spark ৰ গতি ~12 ছেকেণ্ডত সৰ্বোচ্চ। Tortoise এ স্টুডিঅ'-গুণমানৰ ফলাফলসমূহ সৃষ্টি কৰে কিন্তু ধীর। GPT-SoVITS এ চীনা শব্দ ক্লোনিংত অসাধাৰণ। আপোনাৰ শব্দৰ বাবে সৰ্বোত্তম মিল বিচাৰিবলৈ একাধিক মডেল চেষ্টা কৰক।

হ্যাঁ — ইয়াক ক্ৰচ-লেঙ্গুৱেজ ভয়েস ক্লোনিং বোলে। CosyVoice 2, Qwen3-TTS, আৰু OpenVoice ই ইয়াক সমৰ্থন কৰে। উদাহৰণস্বৰূপ, আপুনি এটা ইংৰাজী ভয়েছ নমুনা আপলোড কৰিব পাৰিব আৰু চীনা, জাপানি, অথবা কোৰীয় ভাষাত কথা ক'ব পাৰিব যি সময়ত ক'ব পৰা ব্যক্তিৰ কণ্ঠৰ বৈশিষ্ট্য সংৰক্ষণ কৰা হয়। গুণমান মডেল আৰু ভাষা জোৰা অনুসৰি সলনি হয়।

CorentinJ/Real-Time-Voice-Cloning GitHub প্ৰকল্প (৬০K+ তৰংগ) SV2TTS ব্যৱহাৰ কৰে, এটা ২০১৯ স্থাপত্য। সেই সময়ত আধুনিক মডেল যেনে Chatterbox, CosyVoice2এবং GPT-SoVITSয়ে ভাল স্পিকারৰ সমানতাৰ সৈতে যথেষ্ট ভাল অডিঅ' গুণমান প্ৰদান কৰে। TTS.aiএ ৯টা state-of-the-art মডেল চলায় (VS SV2TTSৰ এটা) আৰু GPU সেটআপ প্ৰয়োজন নহয় — অকল আপলোড আৰু ক্লোন কৰক।

হ'ব। TTS.ai এ শব্দ ক্লোন কৰাৰ বাবে এটা REST API প্ৰদান কৰে। সংযোগ অডিঅ' আৰু টেক্সট আপলোড কৰক, এটা মডেল বাছক, আৰু ক্লোন কৰা কথা গ্ৰহণ কৰক। Python SDK (`pip install ttsai`), JavaScript SDK (`npm install @ttsainpm/ttsai`), অথবা সরাসৰি HTTP অনুৰোধসমূহৰ দ্বাৰা উপলব্ধ। একই ক্লোন কৰা শব্দৰ সৈতে একাধিক টেক্সট প্ৰক্ৰিয়াকৰণৰ বাবে ব্যাচ ক্লোনিং সমৰ্থন কৰে।

হ্যাঁ। ক্লোন কৰাৰ পিছত, আপোনাৰ একাওন্টত শব্দ সংৰক্ষণ কৰক আৰু অনুলিপি অডিঅ' পুনৰ আপলোড নকৰি অসীমিত প্ৰজন্মত পুনৰ ব্যৱহাৰ কৰক। সংৰক্ষিত শব্দসমূহ আপোনাৰ শব্দ লাইব্ৰেৰিত শব্দ ক্লোনিং পৃষ্ঠাত প্ৰদৰ্শিত হয় আৰু APIৰ দ্বাৰা অভিগম কৰিব পাৰি।

WAV, MP3, OGG, FLAC আৰু WebM সমৰ্থিত। আপুনি আপোনাৰ ব্ৰাউছাৰত সুপ্ৰতিষ্ঠিত মাইক ৰেকৰ্ডাৰ ব্যৱহাৰ কৰি প্ৰত্যক্ষভাৱে ৰেকৰ্ড কৰিব পাৰে। সৰ্বোত্তম ফলাফলৰ বাবে, lossless WAV বিন্যাস ১৬kHz বা অধিকত ব্যৱহাৰ কৰক। AI এ স্বয়ংক্ৰিয়ভাৱে অডিঅ'ক প্ৰি-প্ৰসেচ কৰে (ৰি-ছেম্পলিং, নৰ্দমা পৰিস্ৰাৱন) ইনপুট বিন্যাসৰ ওপৰত নিৰ্ভৰ নকৰাকৈ।

আৰ্হি অনুযায়ী সৃষ্টিৰ সময় সলনি হয়: Spark ৰ বাবে সৰ্বোচ্চ সময় ~১২ ছেকেণ্ড, OpenVoice ৰ বাবে ~১৫ ছেকেণ্ড, GPT-SoVITS ৰ বাবে ~১৬ ছেকেণ্ড, CosyVoice ২ ৰ বাবে ~২০ ছেকেণ্ড, Chatterbox ৰ বাবে ~২১ ছেকেণ্ড, আৰু Tortoise ৰ বাবে ~৬০ ছেকেণ্ড। এই সময়সমূহ সাধাৰণ বাক্যদৈৰ্ঘ্যৰ টেক্সটৰ বাবে। দীঘল টেক্সটৰ বাবে অনুপাতগতভাৱে অধিক সময় লাগে।

হ্যাঁ। TTS.ai ৰ সকলো ৯টা ক্লোনিং মডেলে বাণিজ্যিক ব্যৱহাৰৰ অনুমতি দিয়া ওপেন-সোর্স লাইচেঞ্চ (MIT অথবা Apache 2.0) ব্যৱহাৰ কৰে। আপুনি YouTube ভিডিঅ', পডকাস্ট, অডিঅ'বুক, এপ্লিকেচন, খেল, ফোন চিস্টেম, আৰু যিকোনো বাণিজ্যিক এপ্লিকেচনত ক্লোন কৰা অডিঅ' ব্যৱহাৰ কৰিব পাৰে — যদি আপুনি উৎস শব্দৰ অধিকাৰ আছে।

হ'ব। আমি চলা প্ৰতিটো মডেল ওপেন সোর্স আৰু GitHub/HuggingFace ত উপলব্ধ। আপুনি আপোনাৰ GPU সেৱকেত Chatterbox, CosyVoice2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS, অথবা Tortoise স্ব-হোস্ট কৰিব পাৰে। অধিকাংশ মডেলৰ বাবে 4-24GB VRAM ৰ সৈতে NVIDIA GPU ৰ প্ৰয়োজন। TTS.ai এ সকলো আন্তঃগাঁথনি ব্যৱস্থাপনা কৰে যাতে আপুনি কৰিব নালাগে।

ছেকেণ্ডত যিকোনো শব্দ ক্লোন কৰক

৯টা মুক্ত উৎসৰ শব্দ ক্লোনিং মডেল। ৫ ছেকেণ্ডৰ নমুনা। প্ৰশিক্ষণ প্ৰয়োজন নহয়। ইয়াক বিনামূলীয়াকৈ চেষ্টা কৰক - আপোনাৰ অডিঅ' আপলোড কৰক আৰু ক্লোন তৰ লগে লগে শুনিব।

বিনামূল্যে নিবন্ধন কৰক মূল্য দেখুৱাওক

ৰিয়েল-টাইম ভয়েস ক্লোনিং — ছেকেণ্ডত যিকোনো ভয়েছ ক্লোন কৰক

ৰিয়েল-টাইম ভয়েস ক্লোনিং বৈশিষ্ট্যসমূহ

Zero-Shot ক্লোনিং

৯ ক্লোনিং মডেল

ক্ৰচ-লিঙ্গুৱেল ক্লোনিং

ইমোচন নিয়ন্ত্ৰণ

মুক্ত উৎস আৰু বাণিজ্যিক

API ক্লোন কৰা হৈছে

শব্দ ক্লোনিং মডেলসমূহ

Chatterbox

CosyVoice 2

OpenVoice

Spark TTS

IndexTTS-2

Tortoise TTS

ৰিয়েল-টাইম ভয়েস ক্লোনিং কিদৰে কাম কৰে

অনুসূচীত অডিঅ' আপলোড কৰক

এটা ক্লোনিং আৰ্হি বাছক

আপোনাৰ লিপি লিখক

সৃষ্টি কৰক আৰু ডাউনল'ড কৰক

Zero-Shot শব্দ ক্লোনিং কিদৰে কাম কৰে

স্পিকার এম্বেডিং এক্সট্ৰেক্ট

ধাৰ্য্যত বাক্য সংশ্লেষণName

শব্দ ক্লোনিং মডেলৰ তুলনা

মানুহে কি কাৰণে ৰিয়েল-টাইম ভয়েস ক্লোনিং ব্যৱহাৰ কৰে

অডিঅ'বইৰ বৰ্ণনা

ভিডিঅ' ডুবিং

বিষয়বস্তু সৃষ্টি

অভিগম

খেলা বিকাশ

ফোন ব্যৱস্থা

TTS.ai আৰু অন্যান্য শব্দ ক্লোন সমাধানসমূহ

শব্দ ক্লোনিং API

সৰ্বোত্তম শব্দ ক্লোন ফলাফলৰ বাবে টিপস

শান্ত পৰিবেশ

১০-৩০ ছেকেণ্ড

স্বাভাৱিক কথন

একক স্পিকার

আজি শব্দ ক্লোন কৰা আৰম্ভ কৰক

সদায় সোধা প্ৰশ্নসমূহ

ৰিয়েল-টাইম ভয়েস ক্লোনিং কি?

এটা শব্দ ক্লোন কৰিবলৈ কিমান অডিঅ'ৰ প্ৰয়োজন?

শব্দৰ ক্লোনিং বৈধ নে?

কোনটো শব্দ ক্লোনিং মডেল সৰ্বোত্তম?

মই এটা শব্দ ক্লোন কৰি এটা ভিন্ন ভাষাত ক'ব পাৰিম নে?

TTS.ai ৰ তুলনা কিদৰে ৰিয়েল-টাইম-ভয়েস-ক্লোনিং (SV2TTS) ৰ সৈতে কৰা যায়?

এটা শব্দ ক্লোন API আছে নে?

মই এটা ক্লোন কৰা শব্দ সংৰক্ষণ কৰি পুনৰ ব্যৱহাৰ কৰিব পাৰিম নে?

কি অডিঅ' বিন্যাসসমূহে সংশ্লিষ্ট নমুনাৰ বাবে কাম কৰে?

শব্দ ক্লোন কৰিবলৈ কিমান সময় লাগে?

ক্লোন কৰা শব্দসমূহ বাণিজ্যিকভাৱে ব্যৱহাৰযোগ্য নে?

মই স্ব-হোস্ট কৰিব পাৰিম নে শব্দ ক্লোনিং মডেলসমূহ?

ছেকেণ্ডত যিকোনো শব্দ ক্লোন কৰক