Report Bug / Feature Request

ৰিয়েল-টাইম ভয়েস ক্লোনিং — ছেকেণ্ডত যিকোনো ভয়েছ ক্লোন কৰক

কেৱল ৫ ছেকেণ্ডৰ অডিঅ'ৰ সহায়ত যিকোনো শব্দ ক্লোন কৰক। Chatterbox, CosyVoice2, GPT-SoVITS আৰু OpenVoice সহ ৯টা মুক্ত উৎসৰ শব্দ ক্লোন মডেল। প্ৰশিক্ষণৰ প্ৰয়োজন নোহোৱাকৈ Zero-shot ক্লোনিং - এটা নমুনা আপলোড কৰক আৰু পোনতে শব্দ নিৰ্মাণ কৰক। সকলো মডেল বাণিজ্যিকভাৱে লাইচেঞ্চিত।

ৰিয়েল-টাইম ৫-ছেকেণ্ডৰ নমুনা ৯ ক্লোনিং মডেল মুক্ত উৎস ভাষাসমূহ ইমোচন নিয়ন্ত্ৰণ

ৰিয়েল-টাইম ভয়েস ক্লোনিং বৈশিষ্ট্যসমূহ

state-of-the-art AI ৰ সৈতে তাৎক্ষণিকভাবে ক্লোন কৰক - কোনো প্ৰশিক্ষণ নাই, কোনো ডেটাসেট নাই, কোনো অপেক্ষা নাই

Zero-Shot ক্লোনিং

কোনো প্ৰশিক্ষণ নাই, কোনো ফাইন-টুনিং নাই, কোনো ডাটাসেট সংগ্ৰহ নাই। ৫ ছেকেণ্ডৰ অডিঅ' আপলোড কৰক আৰু তাৎক্ষণিকভাৱে এটা ক্লোন কৰা কন্ঠ প্ৰাপ্ত কৰক। AI ৰ দ্বাৰা ৰিয়েল-টাইমত স্পিকারৰ বৈশিষ্ট্যসমূহ আহৰণ কৰা হয়।

৯ ক্লোনিং মডেল

Chatterbox, CosyVoice 2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS আৰু Tortoise ৰ পৰা বাছক। প্ৰত্যেক মডেলৰ বিভিন্ন গুণ, গতি আৰু ভাষা আছে।

ক্ৰচ-লিঙ্গুৱেল ক্লোনিং

ইংৰাজী ভাষাত এটা শব্দ ক্লোন কৰক আৰু চীনা, জাপানি, কোৰীয় আৰু আকৌ অধিক ভাষাত কথা কওক। CosyVoice2এবং Qwen3-TTS এ ১৭+ ভাষাত শব্দৰ পৰিচয় সংৰক্ষণ কৰে।

ইমোচন নিয়ন্ত্ৰণ

Chatterbox, OpenVoice, আৰু GLM-TTS এ আবেগ-সংক্রান্ত উৎপাদন সমৰ্থন কৰে। একই টেক্সট বিভিন্ন আবেগ - সুখী, দুখী, ক্ষুব্ধ, চুইচ কৰা - ৰ সৈতে উৎপাদন কৰক - ক্লোন কৰা কন্ঠটো ৰক্ষা কৰি।

মুক্ত উৎস আৰু বাণিজ্যিক

প্ৰতিটো ক্লোনিং মডেল MIT অথবা Apache 2.0 লাইচেঞ্চৰ অধীনত ওপেন সোর্স। ক্লোন কৰা শব্দসমূহ বাণিজ্যিকভাৱে কোনো ৰেয়্যালিটি নোহোৱাকৈ সমল, উৎপাদন আৰু এপ্লিকেচনসমূহৰ বাবে ব্যৱহাৰ কৰক।

API ক্লোন কৰা হৈছে

প্ৰগ্ৰামিক কন্ঠ ক্লোন কৰাৰ বাবে REST API। সংযোগ অডিঅ' আপলোড কৰক, টেক্সট ধাৰ্য্য কৰক, আৰু ক্লোন কৰা কথোপকথন গ্ৰহণ কৰক। Python আৰু JavaScript ৰ বাবে SDK। উচ্চ ভলিউম কাৰ্য্যক্ৰমৰ বাবে ব্যাচ ক্লোন কৰা।

শব্দ ক্লোনিং মডেলসমূহ

প্ৰতিটো ক্লোনিং ব্যৱহাৰৰ ক্ষেত্ৰত ৯টা উন্মুক্ত উৎসৰ মডেল

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 ধ্বনি ক্লোনিং

সৰ্বোত্তম: সৰ্বোত্তম সামগ্ৰিক গুণমান - ৫ ছেকেণ্ডৰ নমুনা, অনুভূতি নিয়ন্ত্ৰণ, MIT লাইচেঞ্চিত

চেষ্টা কৰক Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 ধ্বনি ক্লোনিং

সৰ্বোত্তম: সেৰা বহুভাষিক ক্লোনিং — চীনা, ইংৰাজী, জাপানি, কোৰীয়ত শব্দ সংৰক্ষণ কৰে

চেষ্টা কৰক CosyVoice 2

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 ধ্বনি ক্লোনিং

সৰ্বোত্তম: ইমোচন আৰু বিন্যাস স্থানান্তৰৰ সৈতে দ্ৰুত টোন ৰঙ ৰূপান্তৰ

চেষ্টা কৰক OpenVoice

Spark TTSSpark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Medium 4/5 ধ্বনি ক্লোনিং

সৰ্বোত্তম: দ্রুততম ক্লোনিং মডেল — ~১২ ছেকেণ্ডত ফলাফল

চেষ্টা কৰক Spark TTS

IndexTTS-2IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Medium 4/5 ধ্বনি ক্লোনিং

সৰ্বোত্তম: উচ্চ স্পীকাৰ অনুৰূপতাৰ সৈতে চীনা- ইংৰাজী ক্লোনিংName

চেষ্টা কৰক IndexTTS-2

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 ধ্বনি ক্লোনিং

সৰ্বোত্তম: স্টুডিঅ'-গুণমানৰ ফলাফল - অডিঅ'বই আৰু প্ৰিমিয়াম নাৰায়ণ্যৰ বাবে সৰ্বোত্তম

চেষ্টা কৰক Tortoise TTS

ৰিয়েল-টাইম ভয়েস ক্লোনিং কিদৰে কাম কৰে

এটা সংক্ষিপ্ত অডিঅ' নমুনা পৰা অসীমিত ক্লোন কৰা কথোপকথনলৈ

1

অনুসূচীত অডিঅ' আপলোড কৰক

ক্লোন কৰিব বিচৰা শব্দৰ পৰা ৫-৩০ ছেকেণ্ডৰ স্পষ্ট কথা ৰেকৰ্ড কৰক বা আপলোড কৰক। WAV, MP3, অথবা আপোনাৰ ব্ৰাউছাৰত সরাসৰি ৰেকৰ্ড কৰক।

2

এটা ক্লোনিং আৰ্হি বাছক

আপোনাৰ প্ৰয়োজন অনুসৰি আৰ্হি বাছক — গুণগত মানৰ বাবে Chatterbox, গতি বৃদ্ধিৰ বাবে Spark, বহুভাষিকৰ বাবে CosyVoice2।

3

আপোনাৰ লিপি লিখক

ক্লোন কৰা শব্দত আপুনি যি লিখনী ক'ব বিচাৰে তা টাইপ কৰক অথবা পেইস্ট কৰক। মডেলে সমৰ্থিত যিকোনো ভাষা ব্যৱহাৰ কৰক।

4

সৃষ্টি কৰক আৰু ডাউনল'ড কৰক

সৃষ্টি কৰক ক্লিক কৰক আৰু ১০-২৫ ছেকেণ্ডত আপোনাৰ ক্লোন কৰা শব্দ শুনিব। তাৎক্ষণিক ব্যৱহাৰৰ বাবে WAV অথবা MP3 ৰূপে ডাউনল'ড কৰক।

Zero-Shot শব্দ ক্লোনিং কিদৰে কাম কৰে

কোনো ফাইন-টুনিং নাই, কোনো ডাটাসেট সংগ্ৰহ নাই — অকল আপলোড আৰু ক্লোন কৰক

স্পিকার এম্বেডিং এক্সট্ৰেক্ট

AI এ আপোনাৰ সংজ্ঞা অডিঅ' বিশ্লেষণ কৰি এটা স্পিকার এম্বেডিং এক্সট্ৰেক্ট কৰে - শব্দৰ এটা কমপেক্ট গাণিতিক প্ৰতিনিধিত্ব

  • ৫ ছেকেণ্ডৰ অডিঅ'ৰ সৈতে কাম কৰে
  • পিট, টিম্বৰ আৰু কথোপকথনৰ বিন্যাস ৰেকৰ্ড কৰে
  • কোনো প্ৰশিক্ষণ বা ফাইন-টুইনৰ প্ৰয়োজন নাই
  • অডিঅ' কখনোই স্থায়ীৰূপে সংৰক্ষণ কৰা নহয়

ধাৰ্য্যত বাক্য সংশ্লেষণName

TTS মডেলে স্পিকারৰ এম্বেডিংৰ ওপৰত নিৰ্ভৰ কৰি নতুন কথন সৃষ্টি কৰে। ফলাফলটি সংশ্লিষ্ট স্পিকারে আপোনাৰ টেক্সট ক'ব বুলি শোনা যায় - স্বাভাৱিক প্ৰোসোডি, উপযুক্ত জোৰ আৰু মূল কথনৰ সৈতে

  • এটা একক নমুনা থেকে অসীমিত কথন সৃষ্টি কৰক
  • ক্ৰচ-লেঙ্গুৱেজ ক্লোনিং (সংযোগ কৰা ভাষাত কথা কওক)
  • অনুভূতি আৰু বিন্যাস স্থানান্তৰ কৰক
  • ১০-২৫ ছেকেণ্ডত ফলাফল

শব্দ ক্লোনিং মডেলৰ তুলনা

আপোনাৰ ক্লোনিং ব্যৱহাৰৰ ক্ষেত্ৰত সঠিক আৰ্হি বাছক

আৰ্হি সৰ্বনিম্ন সংযোগক্ষেত্ৰ গতি গুণমান ভাষাসমূহ অনুভূতি অনুমতি
Chatterbox 5s ~21s সেৰা EN MIT
CosyVoice 2 5s ~20s অসাধাৰণ CN, EN, JP, KO+ Apache 2.0
GPT-SoVITS 5s ~16s অসাধাৰণ CN, EN, JP, KO MIT
OpenVoice 5s ~15s ভাল ইংৰাজী, চীনা, স্পেনিশ, ফ্ৰান্স MIT
Spark TTS 5s ~12s ভাল CN, EN Apache 2.0
IndexTTS-2 5s ~18s অসাধাৰণ CN, EN Apache 2.0
GLM-TTS 5s ~25s অসাধাৰণ CN, EN Apache 2.0
Qwen3-TTS 5s ~16s অসাধাৰণ CN, EN, JP, KO+ Apache 2.0
Tortoise 15s ~60s স্টুডিঅ' EN Apache 2.0

মানুহে কি কাৰণে ৰিয়েল-টাইম ভয়েস ক্লোনিং ব্যৱহাৰ কৰে

বিষয়বস্তু সৃষ্টিৰ পৰা অভিগম্যতালৈ — শব্দ ক্লোনিংৰ অগণন প্ৰয়োগ আছে

অডিঅ'বইৰ বৰ্ণনা

লেখকে নিজৰ কন্ঠক ক্লোন কৰে আৰু ৰেকৰ্ডিং বুথত ঘন্টা কটাব নোৱৰাকৈ সম্পূৰ্ণ অডিঅ'বুকসমূহ সৃষ্টি কৰে। পুনৰ ৰেকৰ্ড কৰাৰ পৰিবৰ্তে একক বাক্য পুনৰুদ্ধাৰ কৰি ভুলসমূহ সম্পাদন কৰক।

ভিডিঅ' ডুবিং

মূল কথোপকথক ৰক্ষা কৰি ভিডিঅ'সমূহ অন্য ভাষাত ডব কৰক

বিষয়বস্তু সৃষ্টি

YouTubers, podcasters, আৰু TikTok সৃষ্টিকৰ্তাসকলে স্থিতিশীল ব্ৰেণ্ডিংৰ বাবে তেওঁলোকৰ কণ্ঠক ক্লোন কৰে। ৰেকৰ্ড নকৰাকৈ নতুন সামগ্ৰীৰ বাবে voiceovers সৃষ্টি কৰক, বা বৰ্তমান ভিডিঅ'ৰ বিকল্প ভাষাৰ সংস্কৰণ সৃষ্টি কৰক।

অভিগম

যিসকল লোকৰ অসুখ বা অস্ত্রোপচাৰৰ বাবে কণ্ঠৰ ক্ষমতা হেৰুৱাইছে, তেওঁলোকে পুৰণি ৰেকৰ্ডসমূহৰ পৰা ক্লোন কৰি সেইটো সংৰক্ষণ কৰিব পাৰে। ক্লোন কৰা কণ্ঠে তেওঁলোকক টেক্সট-টু-স্পীচৰ দ্বাৰা নিজৰ কণ্ঠত যোগাযোগ কৰিব পাৰিব।

খেলা বিকাশ

কণ্ঠ অভিনেতা ক্লোন কৰক আৰু স্টুডিঅ' সময় নিৰ্ধাৰণ নকৰি অসীমিত ডাইলগ বৈচিত্র্য সৃষ্টি কৰক। ইণ্ডী খেল, মোড আৰু প্ৰটোটাইপিংৰ বাবে পূৰ্ণ যিখানে প্ৰতিটো শাৰী পুনৰ-ৰেকৰ্ড কৰা নহয়

ফোন ব্যৱস্থা

আপোনাৰ কোম্পানীৰ মুখপাত্ৰক ক্লোন কৰক

TTS.ai আৰু অন্যান্য শব্দ ক্লোন সমাধানসমূহ

কিয়9মডেল এটা একক মুক্ত উৎস প্ৰকল্পক পৰাভূত কৰে

বৈশিষ্ট্য TTS.ai SV2TTS ElevenLabs Resemble AI
আৰ্হি ক্লোন কৰা হৈছে 9 1 1 1
সৰ্বনিম্ন অনুচ্ছেদ অডিঅ' 5 sec 5 sec 30 sec 3 min
প্ৰশিক্ষণ প্ৰয়োজন নহয় নহয় নহয় হ্যাঁ
অডিঅ'ৰ গুণমান (২০২৫) স্টুডিঅ'-গ্ৰেড তাৰিখ অসাধাৰণ অসাধাৰণ
ইমোচন নিয়ন্ত্ৰণ
ক্ৰচ-লিঙ্গুৱেল ক্লোনিং
মুক্ত উৎস
GPU প্ৰয়োজনীয় মেঘ হ্যাঁ মেঘ মেঘ
API অভিগম
মুক্ত স্তৰ ১৫,০০০ আখৰ স্ব-হোস্ট সীমাবদ্ধ

শব্দ ক্লোনিং API

আমাৰ REST API ৰ সৈতে প্ৰগ্ৰামিং ভাবে কণ্ঠসমূহ ক্লোন কৰক

Python - শব্দ ক্লোনিং REST API
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)
cURL — শব্দ ক্লোনিং REST API
curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

সৰ্বোত্তম শব্দ ক্লোন ফলাফলৰ বাবে টিপস

এই ৰেকৰ্ডিং নিৰ্দেশনাসমূহৰ সৈতে সৰ্বাধিক সঠিক শব্দ ক্লোন প্ৰাপ্ত কৰক

শান্ত পৰিবেশ

নিম্নতম পটভূমিৰ শব্দ সহ এক শান্ত কক্ষত ৰেকৰ্ড কৰক। AI এ স্বচ্ছ অডিঅ'ৰ পৰা শব্দৰ বৈশিষ্ট্য অধিক সঠিকভাৱে আহৰণ কৰে।

১০-৩০ ছেকেণ্ড

৫ ছেকেণ্ডৰ কামৰ বিপৰীতে ১০-৩০ ছেকেণ্ডৰ ফলন অধিক ভাল হয়। AI-এ যিমানেই স্বাভাৱিকভাৱে কথা ক’ব সিমানেই ক্লোন সঠিক হ’ব।

স্বাভাৱিক কথন

স্বাভাৱিকভাৱে কথা কওক, একঘেয়ে নহয়। বিভিন্ন উচ্চাৰণ আৰু গতি অন্তৰ্ভুক্ত কৰক। AI এ আপোনাৰ স্বাভাৱিক কথা ক'বলৈ ধৰণ, অন্তৰ্ভুক্ত কৰে স্থগিত আৰু জোৰ দিয়ক।

একক স্পিকার

কেৱল এটা ব্যক্তিৰ সৈতে এটা নমুনা ব্যৱহাৰ কৰক। একাধিক কন্ঠে স্পিকার এম্বেডিং ত্ৰুটিযুক্ত কৰে আৰু মিশ্ৰিত ফলাফল প্ৰদান কৰে।

আজি শব্দ ক্লোন কৰা আৰম্ভ কৰক

৫ ছেকেণ্ডৰ অডিঅ' আপলোড কৰক আৰু ৩০ ছেকেণ্ডত আপোনাৰ ক্লোন কৰা কন্ঠ শুনিব পাৰিব। চেষ্টা কৰিবলৈ বিনামূলীয়া।

এটা শব্দ এতিয়া ক্লোন কৰক API দস্তাবেজ

সদায় সোধা প্ৰশ্নসমূহ

ৰিয়েল-টাইম শব্দ ক্লোনিং সম্পৰ্কে সাধাৰণ প্ৰশ্নসমূহ

ৰিয়েল-টাইম ভয়েস ক্লোনিং হৈছে AI প্ৰযুক্তি যি কোনো প্ৰশিক্ষণ বা ফাইন-টুনিং অবিহনে এটা সংক্ষিপ্ত অডিঅ' নমুনা - ৫ ছেকেণ্ডৰ দৰে -ৰ পৰা এটা ব্যক্তিৰ ভয়েস পুনৰ সৃষ্টি কৰিব পাৰে। আপুনি এটা নমুনা আপলোড কৰে, আৰু AI এ সেই ব্যক্তিৰ দৰে শব্দ কৰা নতুন ভাষণ সৃষ্টি কৰে। TTS.ai এ ৯ খন ভিন্ন ভয়েস ক্লোনিং মডেল প্ৰদান কৰে, প্ৰত্যেকটোতে বিভিন্ন শক্তিৰ বাবে গুণমান, গতি, আৰু ভাষা সমৰ্থন।

অধিকাংশ মডেল (Chatterbox, CosyVoice2, Spark, GPT-SoVITS, OpenVoice) ৰ সৈতে কমেও ৫ ছেকেণ্ডৰ কাম কৰে। Tortoise ৰ বাবে সৰ্বোত্তম ফলাফল লাভৰ বাবে ১৫+ ছেকেণ্ডৰ প্ৰয়োজন। সকলো মডেলসমূহৰ বাবে সৰ্বোত্তম গুণমানৰ বাবে, ১০-৩০ ছেকেণ্ডৰ স্পষ্ট, একক স্পিকার অডিঅ'ৰ সুপারিশ কৰা হয়। অডিঅ'ত পটভূমিৰ শব্দ আৰু সঙ্গীতৰ অভাৱ হ'ব লাগিব।

শব্দ ক্লোন প্ৰযুক্তি স্বয়ং বৈধ। তথাপি, আপুনি কেৱল ব্যৱহাৰৰ অনুমতি থকা শব্দসমূহ ক্লোন কৰিব লাগিব - আপোনাৰ নিজৰ শব্দ, শব্দসমূহ যিবোৰৰ বাবে আপোনাৰ স্পষ্ট অনুমতি আছে, অথবা শব্দসমূহ পাবলিক ডমেইনত। অনুমতি নোহোৱাকৈ কাৰোবাৰ প্ৰতিকৃতিত ব্যৱহাৰ কৰিবলৈ শব্দ ক্লোন ব্যৱহাৰ কৰা, প্ৰতাৰণা কৰা, অথবা বিভ্রান্তিকৰ বিষয়বস্তু সৃষ্টি কৰা অধিকাংশ শাসক অঞ্চলত অবৈধ। TTS.ai ৰ শৰ্তাৱলীৰ দ্বাৰা আপুনি যিকোনো শব্দ ক্লোন কৰাৰ অধিকাৰ থকাৰ প্ৰয়োজন হয়।

ই আপোনাৰ ব্যৱহাৰৰ ক্ষেত্ৰত নিৰ্ভৰ কৰে। Chatterbox এ অনুভূতি নিয়ন্ত্ৰণ সহ উচ্চমানৰ ইংৰাজী ক্লোনসমূহ সৃষ্টি কৰে। CosyVoice2এ বহুভাষিক ক্লোনিং (চীনা, ইংৰাজী, জাপানি, কোৰীয়) ৰ বাবে সৰ্বোত্তম। Spark ৰ গতি ~12 ছেকেণ্ডত সৰ্বোচ্চ। Tortoise এ স্টুডিঅ'-গুণমানৰ ফলাফলসমূহ সৃষ্টি কৰে কিন্তু ধীর। GPT-SoVITS এ চীনা শব্দ ক্লোনিংত অসাধাৰণ। আপোনাৰ শব্দৰ বাবে সৰ্বোত্তম মিল বিচাৰিবলৈ একাধিক মডেল চেষ্টা কৰক।

হ্যাঁ — ইয়াক ক্ৰচ-লেঙ্গুৱেজ ভয়েস ক্লোনিং বোলে। CosyVoice 2, Qwen3-TTS, আৰু OpenVoice ই ইয়াক সমৰ্থন কৰে। উদাহৰণস্বৰূপ, আপুনি এটা ইংৰাজী ভয়েছ নমুনা আপলোড কৰিব পাৰিব আৰু চীনা, জাপানি, অথবা কোৰীয় ভাষাত কথা ক'ব পাৰিব যি সময়ত ক'ব পৰা ব্যক্তিৰ কণ্ঠৰ বৈশিষ্ট্য সংৰক্ষণ কৰা হয়। গুণমান মডেল আৰু ভাষা জোৰা অনুসৰি সলনি হয়।

CorentinJ/Real-Time-Voice-Cloning GitHub প্ৰকল্প (৬০K+ তৰংগ) SV2TTS ব্যৱহাৰ কৰে, এটা ২০১৯ স্থাপত্য। সেই সময়ত আধুনিক মডেল যেনে Chatterbox, CosyVoice2এবং GPT-SoVITSয়ে ভাল স্পিকারৰ সমানতাৰ সৈতে যথেষ্ট ভাল অডিঅ' গুণমান প্ৰদান কৰে। TTS.aiএ ৯টা state-of-the-art মডেল চলায় (VS SV2TTSৰ এটা) আৰু GPU সেটআপ প্ৰয়োজন নহয় — অকল আপলোড আৰু ক্লোন কৰক।

হ'ব। TTS.ai এ শব্দ ক্লোন কৰাৰ বাবে এটা REST API প্ৰদান কৰে। সংযোগ অডিঅ' আৰু টেক্সট আপলোড কৰক, এটা মডেল বাছক, আৰু ক্লোন কৰা কথা গ্ৰহণ কৰক। Python SDK (`pip install ttsai`), JavaScript SDK (`npm install @ttsainpm/ttsai`), অথবা সরাসৰি HTTP অনুৰোধসমূহৰ দ্বাৰা উপলব্ধ। একই ক্লোন কৰা শব্দৰ সৈতে একাধিক টেক্সট প্ৰক্ৰিয়াকৰণৰ বাবে ব্যাচ ক্লোনিং সমৰ্থন কৰে।

হ্যাঁ। ক্লোন কৰাৰ পিছত, আপোনাৰ একাওন্টত শব্দ সংৰক্ষণ কৰক আৰু অনুলিপি অডিঅ' পুনৰ আপলোড নকৰি অসীমিত প্ৰজন্মত পুনৰ ব্যৱহাৰ কৰক। সংৰক্ষিত শব্দসমূহ আপোনাৰ শব্দ লাইব্ৰেৰিত শব্দ ক্লোনিং পৃষ্ঠাত প্ৰদৰ্শিত হয় আৰু APIৰ দ্বাৰা অভিগম কৰিব পাৰি।

WAV, MP3, OGG, FLAC আৰু WebM সমৰ্থিত। আপুনি আপোনাৰ ব্ৰাউছাৰত সুপ্ৰতিষ্ঠিত মাইক ৰেকৰ্ডাৰ ব্যৱহাৰ কৰি প্ৰত্যক্ষভাৱে ৰেকৰ্ড কৰিব পাৰে। সৰ্বোত্তম ফলাফলৰ বাবে, lossless WAV বিন্যাস ১৬kHz বা অধিকত ব্যৱহাৰ কৰক। AI এ স্বয়ংক্ৰিয়ভাৱে অডিঅ'ক প্ৰি-প্ৰসেচ কৰে (ৰি-ছেম্পলিং, নৰ্দমা পৰিস্ৰাৱন) ইনপুট বিন্যাসৰ ওপৰত নিৰ্ভৰ নকৰাকৈ।

আৰ্হি অনুযায়ী সৃষ্টিৰ সময় সলনি হয়: Spark ৰ বাবে সৰ্বোচ্চ সময় ~১২ ছেকেণ্ড, OpenVoice ৰ বাবে ~১৫ ছেকেণ্ড, GPT-SoVITS ৰ বাবে ~১৬ ছেকেণ্ড, CosyVoice ২ ৰ বাবে ~২০ ছেকেণ্ড, Chatterbox ৰ বাবে ~২১ ছেকেণ্ড, আৰু Tortoise ৰ বাবে ~৬০ ছেকেণ্ড। এই সময়সমূহ সাধাৰণ বাক্যদৈৰ্ঘ্যৰ টেক্সটৰ বাবে। দীঘল টেক্সটৰ বাবে অনুপাতগতভাৱে অধিক সময় লাগে।

হ্যাঁ। TTS.ai ৰ সকলো ৯টা ক্লোনিং মডেলে বাণিজ্যিক ব্যৱহাৰৰ অনুমতি দিয়া ওপেন-সোর্স লাইচেঞ্চ (MIT অথবা Apache 2.0) ব্যৱহাৰ কৰে। আপুনি YouTube ভিডিঅ', পডকাস্ট, অডিঅ'বুক, এপ্লিকেচন, খেল, ফোন চিস্টেম, আৰু যিকোনো বাণিজ্যিক এপ্লিকেচনত ক্লোন কৰা অডিঅ' ব্যৱহাৰ কৰিব পাৰে — যদি আপুনি উৎস শব্দৰ অধিকাৰ আছে।

হ'ব। আমি চলা প্ৰতিটো মডেল ওপেন সোর্স আৰু GitHub/HuggingFace ত উপলব্ধ। আপুনি আপোনাৰ GPU সেৱকেত Chatterbox, CosyVoice2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS, অথবা Tortoise স্ব-হোস্ট কৰিব পাৰে। অধিকাংশ মডেলৰ বাবে 4-24GB VRAM ৰ সৈতে NVIDIA GPU ৰ প্ৰয়োজন। TTS.ai এ সকলো আন্তঃগাঁথনি ব্যৱস্থাপনা কৰে যাতে আপুনি কৰিব নালাগে।
5.0/5 (1)

আমি কি উন্নত কৰিব পাৰো? আপোনাৰ মতামত আমাক সমস্যা সমাধানত সহায় কৰে।

ছেকেণ্ডত যিকোনো শব্দ ক্লোন কৰক

৯টা মুক্ত উৎসৰ শব্দ ক্লোনিং মডেল। ৫ ছেকেণ্ডৰ নমুনা। প্ৰশিক্ষণ প্ৰয়োজন নহয়। ইয়াক বিনামূলীয়াকৈ চেষ্টা কৰক - আপোনাৰ অডিঅ' আপলোড কৰক আৰু ক্লোন তৰ লগে লগে শুনিব।