মুক্ত AI টেক্সট-টু-স্পীচName

31+ উন্মুক্ত উৎসৰ মডেল, 231+ শব্দ, 34+ ভাষাসমূহ। কোনো একাওন্টৰ প্ৰয়োজন নাই।

8K+
সৃষ্টিকৰ্তা
30K+
প্ৰজন্ম
31+
AI মডেল
231+
ধ্বনি
0/500 আখৰ · Sign up for 5,000 per generation → মুক্ত
TTS.ai ভাল পায়? আপোনাৰ বন্ধুসকলক কওক!

Voice AI ৰ বাবে আপোনাৰ প্ৰয়োজনীয় সকলো

উন্মুক্ত উৎস AI মডেল দ্বাৰা শক্তিশালী ৩০+ সঁজুলি

31+ AI শব্দ মডেলসমূহ

এটা প্লেটফৰ্মত মুক্ত উৎসৰ TTS মডেলৰ সৰ্বাধিক বিস্তৃত সংকলন

KokoroKokoro মুক্ত

Kokoro এটা ৮২ মিলিয়ন প্ৰাচলৰ টেক্সট-টু-স্পীচ মডেল যি ইয়াৰ ওজনৰ শ্ৰেণীৰ ওপৰত ভালদৰে কাম কৰে। ইয়াৰ ক্ষুদ্ৰ আকাৰ সত্ত্বেও, ই উল্লেখযোগ্যভাৱে প্ৰাকৃতিক আৰু অভিব্যক্তিমূলক ভাষা প্ৰস্তুত কৰে। Kokoro ইংৰাজী, জাপানী, চীনা আৰু কোৰীয় সহ বহুতো ভাষাক বিভিন্ন অভিব্যক্তিমূলক শব্দৰ সৈতে সমৰ্থন কৰে। ই অভূতপূৰ্বভাৱে দ্ৰুতভাৱে চলি থাকে - এটা GPU ত ৰিয়েল-টাইমৰ তুলনাত প্ৰায় ১০০x দ্ৰুতত অডিঅ' প্ৰস্তুত কৰে।

সৰ্বোত্তম: সৰ্বনিম্ন লেটেন্সিৰ সৈতে উচ্চ-মানৰ TTS, স্ট্ৰিমিং এপ্লিকেচনসমূহ

বিনামূল্যে চেষ্টা কৰক

PiperPiper মুক্ত

Piper এটা হালধীয়া টেক্সট-টু-স্পীচ ইঞ্জিন যি Rhasspy দ্বাৰা উন্নত কৰা হৈছে যি VITS আৰু larynx স্থাপত্যসমূহ ব্যৱহাৰ কৰে। ই সম্পূৰ্ণৰূপে CPU ত চলায়, ই ইয়াক এডজ ডিভাইচ, ঘৰ স্বচালিতকৰণ, আৰু অফলাইন TTS প্ৰয়োজন হোৱা এপ্লিকেচনসমূহৰ বাবে আদর্শ কৰি তোলে। 30+ ভাষাত 100 ৰ অধিক কন্ঠৰ সৈতে, Piper এ এটা Raspberry Pi 4 ৰ ওপৰতো প্ৰকৃত-সময়ৰ গতিৰে প্ৰাকৃতিক-স্বৰযুক্ত কথন প্ৰদান কৰে।

সৰ্বোত্তম: দ্ৰুত পূৰ্বপ্ৰদৰ্শন, অভিগম্যতা আৰু অন্তৰ্ভুক্ত এপ্লিকেচনসমূহ

বিনামূল্যে চেষ্টা কৰক

VITSVITS মুক্ত

VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) হৈছে এটা সমান্তৰাল end-to-end TTS পদ্ধতি যি বৰ্তমান দুটা স্তৰৰ মডেলৰ তুলনাত অধিক প্ৰাকৃতিক সুৰযুক্ত অডিঅ' প্ৰস্তুত কৰে। ই প্ৰাকৃতিকতাত উল্লেখযোগ্য উন্নতি সাধন কৰি স্বাভাৱিকীকৰণ প্ৰবাহ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰশিক্ষণ প্ৰক্ৰিয়াৰ সৈতে বৃদ্ধি কৰা variational inference গ্ৰহণ কৰে।

সৰ্বোত্তম: স্বাভাৱিক প্ৰোসোডিৰ সৈতে সাধাৰণ-উদ্দেশ্যৰ টেক্সট-টু-স্পীচ

বিনামূল্যে চেষ্টা কৰক

MeloTTSMeloTTS মুক্ত

MyShell.ai দ্বাৰা MeloTTS এটা বহুভাষিক TTS লাইব্ৰেৰি যি ইংৰাজী (আমেৰিকান, ব্ৰিটিছ, ভাৰতীয়, অস্ট্ৰেলিয়ান), স্পেনিশ, ফৰাচী, চীনা, জাপানি আৰু কোৰীয় সমৰ্থন কৰে। ই অতি দ্রুত, কেৱল CPU ত প্ৰায় ৰিয়েল-টাইম গতিৰে টেক্সট প্ৰক্ৰিয়াকৰণ কৰে। MeloTTS উৎপাদন ব্যৱহাৰৰ বাবে নিৰ্মিত আৰু CPU আৰু GPU উভয়কে সমৰ্থন কৰে।

সৰ্বোত্তম: দ্ৰুত, বহুভাষিক TTS প্ৰয়োজনীয় উৎপাদন এপ্লিকেচনসমূহ

বিনামূল্যে চেষ্টা কৰক

OuteTTSOuteTTS মুক্ত

OuteTTS-এ মূল আৰ্হি সংৰক্ষণ কৰি টেক্সট-টু-স্পীচ ক্ষমতাৰ সৈতে ডাঙৰ ভাষা মডেলসমূহ বিস্তাৰ কৰে। ই llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, আৰু Transformers.js জৰিয়তে ব্ৰাউছাৰ ইনফৰমেচন সহ একাধিক বেকএন্ড সমৰ্থন কৰে। JSON হিচাপে সংৰক্ষিত স্পীকাৰ প্ৰোফাইলসমূহৰ দ্বাৰা zero-shot voice cloning বৈশিষ্ট্যসমূহ।

সৰ্বোত্তম: প্ৰান্তিক প্ৰয়োগ, ব্ৰাউছাৰ-ভিত্তিক TTS, কম সম্পদ বিশিষ্ট পৰিৱেশ

বিনামূল্যে চেষ্টা কৰক

Pocket TTSPocket TTS মুক্ত

Kyutai (Moshi ৰ সৃষ্টিকৰ্তা) ৰ Pocket TTS এটা কমপেক্ট ১০০M প্ৰাচল টেক্সট-টু-স্পীচ মডেল যি ইয়াৰ ওজনৰ ওপৰত ভালদৰে কাম কৰে। ই CPU ত সফলতাৰে চলাব পাৰে, এটা অডিঅ' নমুনা পৰা zero-shot voice cloning সমৰ্থন কৰে, আৰু স্বাভাৱিক-স্বৰযুক্ত কথা প্ৰস্তুত কৰে। সৰু মডেলৰ আকাৰ ই ইয়াক এড্‌জ ডিবেলপমেন্ট আৰু কম-সম্পদ পৰিৱেশৰ বাবে আদর্শ কৰে।

সৰ্বোত্তম: হালধীয়া প্ৰয়োগ, কেৱল CPU পৰিৱেশ, দ্ৰুত শব্দ ক্লোনিং

বিনামূল্যে চেষ্টা কৰক

Kitten TTSKitten TTS মুক্ত

Kitten TTS by KittenML এটা অত্যাধিক হালধীয়া টেক্সট-টু-স্পীচ মডেল যি ONNX ত নিৰ্মিত। ১৫M ৰ পৰা ৮০M প্ৰাচলৰ (ডিস্কত ২৫-৮০ MB) সৈতে, ই GPU ৰ প্ৰয়োজন নোহোৱাকৈ CPU ত উচ্চ-মানৰ শব্দ সংমিশ্ৰণ প্ৰদান কৰে। ৮ টা অন্তৰ্ভুক্ত কৰা শব্দ, সলনি কৰিব পৰা কথাৰ গতি, আৰু সংখ্যা, মুদ্ৰা আৰু এককসমূহৰ বাবে অন্তৰ্ভুক্ত টেক্সট প্ৰিপ্ৰসেসিংৰ বৈশিষ্ট্য। এডিজ ডিবেলপমেন্ট আৰু কম-লেটেন্সি এপ্লিকেচনৰ বাবে আদর্শ।

সৰ্বোত্তম: দ্ৰুত হালধীয়া TTS, প্ৰান্তিক বিকাশ, কম-লেটেন্সি এপ্লিকেচনসমূহ

বিনামূল্যে চেষ্টা কৰক

BarkBark অবিকল্পিত

পৰিবৰ্তন-ভিত্তিক টেক্সট-টু-অডিঅ' মডেল যি বাস্তববাদী বক্তৃতা, সঙ্গীত, আৰু শব্দ প্ৰভাৱসমূহ সৃষ্টি কৰে।

বিকাশক: Suno · অনুমতি: MIT

চেষ্টা কৰক

Bark SmallBark Small অবিকল্পিত

দ্ৰুত অনুমান আৰু কম মেমৰি ব্যৱহাৰৰ সৈতে Bark ৰ হালধীয়া সংস্কৰণ।

বিকাশক: Suno · অনুমতি: MIT

চেষ্টা কৰক

CosyVoice 2CosyVoice 2 অবিকল্পিত

Alibaba ৰ মানৱ-সমান প্ৰাকৃতিকতা আৰু নিকট-শূণ্য লেটেন্সিৰ সৈতে স্কেলেবল ষ্ট্ৰীমিং TTS।

বিকাশক: Alibaba (Tongyi Lab) · অনুমতি: Apache 2.0

চেষ্টা কৰক

Dia TTSDia TTS অবিকল্পিত

মাল্টি-স্পীকাৰ ডাইলগ নিৰ্মাণ মডেল যি স্পীকাৰসমূহৰ মাজত প্ৰাকৃতিক কথোপকথন সৃষ্টি কৰে।

বিকাশক: Nari Labs · অনুমতি: Apache 2.0

চেষ্টা কৰক

Parler TTSParler TTS অবিকল্পিত

প্ৰাকৃতিক ভাষাত আপুনি যি ধ্বনি বিচাৰে তাক বৰ্ণনা কৰক আৰু Parler এ মিল থকা ধ্বনি সৃষ্টি কৰিব।

বিকাশক: Hugging Face · অনুমতি: Apache 2.0

চেষ্টা কৰক

GLM-TTSGLM-TTS অবিকল্পিত

মুক্ত উৎসৰ TTS মডেলসমূহৰ ভিতৰত সৰ্বনিম্ন অক্ষৰ ত্ৰুটিৰ হাৰ প্ৰাপ্ত কৰে।

বিকাশক: Zhipu AI · অনুমতি: GLM-4 License

চেষ্টা কৰক

IndexTTS-2IndexTTS-2 অবিকল্পিত

শূণ্য-শট TTS fine-grained অনুভূতি নিয়ন্ত্ৰণ আৰু উচ্চ অভিব্যক্তিৰ সৈতে।

বিকাশক: Index Team · অনুমতি: Bilibili Model License

চেষ্টা কৰক

Spark TTSSpark TTS অবিকল্পিত

কন্ট্ৰোল কৰিব পৰা অনুভূতি আৰু প্ৰমপ্টসমূহৰ দ্বাৰা কথোপকথনৰ শৈলীৰ সৈতে শব্দ ক্লোনিং TTS।

বিকাশক: SparkAudio · অনুমতি: CC BY-NC-SA 4.0

চেষ্টা কৰক

GPT-SoVITSGPT-SoVITS অবিকল্পিত

অডিঅ'ৰ কেৱল ৫ ছেকেণ্ডৰ পৰা যিকোনো শব্দৰ প্ৰতিলিপি প্ৰস্তুত কৰা TTS ক্লোনিং কয়েকটা শব্দৰ দ্বাৰা।

বিকাশক: RVC-Boss · অনুমতি: MIT

চেষ্টা কৰক

OrpheusOrpheus অবিকল্পিত

১০০K ঘণ্টাৰ কথন তথ্যৰ ওপৰত প্ৰশিক্ষিত মানৱ-স্তরৰ আবেগিক TTS মডেল।

বিকাশক: Canopy Labs · অনুমতি: Llama 3.2 Community

চেষ্টা কৰক

Qwen3 TTSQwen3 TTS অবিকল্পিত

Alibaba ৰ বহুভাষী TTS, যিটোত শব্দ ক্লোনিং, প্ৰাক-নিৰ্ধাৰিত শব্দ, আৰু টেক্সটৰ পৰা শব্দৰ নকশা আছে।

বিকাশক: Alibaba (Qwen) · অনুমতি: Apache 2.0

চেষ্টা কৰক

Chatterbox TurboChatterbox Turbo অবিকল্পিত

Sub-200ms latency ৰ সৈতে দ্ৰুত Chatterbox আৰু হাস্যৰ বাবে paralinguistic ট্যাগ, কাহ, আৰু অধিক।

বিকাশক: Resemble AI · অনুমতি: MIT

চেষ্টা কৰক

Dia 2Dia 2 অবিকল্পিত

মাল্টি-স্পীকাৰ ডায়লগ আৰু প্যাৰালিঙ্গুইষ্টিক চিহ্নসমূহৰ সৈতে ষ্ট্ৰীমিং-প্ৰথম কথোপকথন TTS।

বিকাশক: Nari Labs · অনুমতি: Apache 2.0

চেষ্টা কৰক

VoxCPMVoxCPM অবিকল্পিত

Tokenizer-free TTS প্ৰস্তুত কৰা 44.1kHz অডিঅ' প্ৰসঙ্গ-সচেতন অনুচ্ছেদ স্থিতিশীলতাৰ সৈতে।

বিকাশক: OpenBMB · অনুমতি: Apache 2.0

চেষ্টা কৰক

TADATADA অবিকল্পিত

দ্বৈত-অভিযোজনৰ সৈতে শূণ্য-হলুচিনাইচন TTS, তুলনামূলক LLM TTS ৰ তুলনাত ৫x দ্ৰুত।

বিকাশক: Hume AI · অনুমতি: MIT

চেষ্টা কৰক

VibeVoiceVibeVoice অবিকল্পিত

পোডকাস্ট আৰু অডিঅ'বুকৰ দৰে দীৰ্ঘ-আকৃতিৰ বহু-ভাষক সমলসমূহৰ বাবে Microsoft মডেল।

বিকাশক: Microsoft · অনুমতি: MIT

চেষ্টা কৰক

CosyVoice3CosyVoice3 অবিকল্পিত

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

বিকাশক: Alibaba (FunAudioLLM) · অনুমতি: Apache 2.0

চেষ্টা কৰক

ChatterboxChatterbox প্ৰিমিয়াম

Resemble AI ৰ পৰা আবেগ নিয়ন্ত্ৰণৰ সৈতে state-of-the-art zero-shot শব্দ ক্লোনিং।

গুণ:

চেষ্টা কৰক

Tortoise TTSTortoise TTS প্ৰিমিয়াম

বহু-ভাষা টেক্সট-টু-স্পীচ স্ব-পৰিবৰ্তনশীল স্থাপত্যৰ সৈতে গুণগত মানত গুৰুত্ব আৰোপ কৰা হৈছে।

গুণ:

চেষ্টা কৰক

StyleTTS 2StyleTTS 2 প্ৰিমিয়াম

মানৱ স্তৰৰ টেক্সট-টু-স্পীচ ষ্টাইল প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰশিক্ষণৰ জৰিয়তে।

গুণ:

চেষ্টা কৰক

OpenVoiceOpenVoice প্ৰিমিয়াম

শৈলী, অনুভূতি, আৰু উচ্চাৰণৰ ওপৰত granular নিয়ন্ত্ৰণৰ সৈতে তাৎক্ষণিক শব্দ ক্লোনিং।

গুণ:

চেষ্টা কৰক

Sesame CSMSesame CSM প্ৰিমিয়াম

উপযুক্ত সময় আৰু অনুভূতিৰ সৈতে প্ৰাকৃতিক বাৰ্তালাপৰ সৃষ্টি কৰা কথোপকথন মডেল।

গুণ:

চেষ্টা কৰক

MOSS-TTSMOSS-TTS প্ৰিমিয়াম

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

গুণ:

চেষ্টা কৰক

MegaTTS3MegaTTS3 প্ৰিমিয়াম

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

গুণ:

চেষ্টা কৰক

CosyVoice 2CosyVoice 2

Alibaba ৰ মানৱ-সমান প্ৰাকৃতিকতা আৰু নিকট-শূণ্য লেটেন্সিৰ সৈতে স্কেলেবল ষ্ট্ৰীমিং TTS।

ভাষা: en, zh, ja, ko, fr, de, it, es

ধ্বনি ক্লোন কৰক

GLM-TTSGLM-TTS

মুক্ত উৎসৰ TTS মডেলসমূহৰ ভিতৰত সৰ্বনিম্ন অক্ষৰ ত্ৰুটিৰ হাৰ প্ৰাপ্ত কৰে।

ভাষা: en, zh

ধ্বনি ক্লোন কৰক

IndexTTS-2IndexTTS-2

শূণ্য-শট TTS fine-grained অনুভূতি নিয়ন্ত্ৰণ আৰু উচ্চ অভিব্যক্তিৰ সৈতে।

ভাষা: en, zh

ধ্বনি ক্লোন কৰক

Spark TTSSpark TTS

কন্ট্ৰোল কৰিব পৰা অনুভূতি আৰু প্ৰমপ্টসমূহৰ দ্বাৰা কথোপকথনৰ শৈলীৰ সৈতে শব্দ ক্লোনিং TTS।

ভাষা: en, zh

ধ্বনি ক্লোন কৰক

GPT-SoVITSGPT-SoVITS

অডিঅ'ৰ কেৱল ৫ ছেকেণ্ডৰ পৰা যিকোনো শব্দৰ প্ৰতিলিপি প্ৰস্তুত কৰা TTS ক্লোনিং কয়েকটা শব্দৰ দ্বাৰা।

ভাষা: en, zh, ja, ko

ধ্বনি ক্লোন কৰক

ChatterboxChatterbox

Resemble AI ৰ পৰা আবেগ নিয়ন্ত্ৰণৰ সৈতে state-of-the-art zero-shot শব্দ ক্লোনিং।

ভাষা: en

ধ্বনি ক্লোন কৰক

Tortoise TTSTortoise TTS

বহু-ভাষা টেক্সট-টু-স্পীচ স্ব-পৰিবৰ্তনশীল স্থাপত্যৰ সৈতে গুণগত মানত গুৰুত্ব আৰোপ কৰা হৈছে।

ভাষা: en

ধ্বনি ক্লোন কৰক

OpenVoiceOpenVoice

শৈলী, অনুভূতি, আৰু উচ্চাৰণৰ ওপৰত granular নিয়ন্ত্ৰণৰ সৈতে তাৎক্ষণিক শব্দ ক্লোনিং।

ভাষা: en, zh, ja, ko, fr, de, es, it

ধ্বনি ক্লোন কৰক

Qwen3 TTSQwen3 TTS

Alibaba ৰ বহুভাষী TTS, যিটোত শব্দ ক্লোনিং, প্ৰাক-নিৰ্ধাৰিত শব্দ, আৰু টেক্সটৰ পৰা শব্দৰ নকশা আছে।

ভাষা: en, zh, ja, ko, de, fr, ru, pt, es, it

ধ্বনি ক্লোন কৰক

Chatterbox TurboChatterbox Turbo

Sub-200ms latency ৰ সৈতে দ্ৰুত Chatterbox আৰু হাস্যৰ বাবে paralinguistic ট্যাগ, কাহ, আৰু অধিক।

ভাষা: en

ধ্বনি ক্লোন কৰক

VoxCPMVoxCPM

Tokenizer-free TTS প্ৰস্তুত কৰা 44.1kHz অডিঅ' প্ৰসঙ্গ-সচেতন অনুচ্ছেদ স্থিতিশীলতাৰ সৈতে।

ভাষা: en, zh

ধ্বনি ক্লোন কৰক

OuteTTSOuteTTS

LLM-ভিত্তিক TTS যি CPU, GPU, অথবা llama.cpp আৰু Transformers.js ৰ দ্বাৰা ব্ৰাউছাৰত চলায়।

ভাষা: en

ধ্বনি ক্লোন কৰক

Pocket TTSPocket TTS

এটা একক নমুনাৰ পৰা শব্দ ক্লোনিংৰ সৈতে Kyutai ৰ দ্বাৰা হালধীয়া ১০০M প্ৰাচল মডেল।

ভাষা: en, fr

ধ্বনি ক্লোন কৰক

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

ভাষা: en, zh, ja, ko, de, es, fr, it, ru

ধ্বনি ক্লোন কৰক

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

ভাষা: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

ধ্বনি ক্লোন কৰক

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

ভাষা: en, zh

ধ্বনি ক্লোন কৰক

বিকাশক-প্ৰথম API

OpenAI-সংগতিপূৰ্ণ REST API। এটা অন্তবিন্দু, ২২+ মডেল। ৰিয়েল-টাইম এপ্লিকেচনৰ বাবে ষ্ট্ৰীমিং সমৰ্থন।

  • OpenAI-সুসংগত বিন্যাস
  • ৰিয়েল-টাইম এপ্লিকেচনৰ বাবে TTS স্ট্ৰিমিং
  • ডাঙৰ কামসমূহৰ বাবে ব্যাচ প্ৰক্ৰিয়াকৰণ
  • Webhook অধিসূচনাসমূহ
API দস্তাবেজসমূহ দৰ্শন কৰক
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

সৰল, স্বচ্ছ মূল্য নিৰ্ধাৰণ

মুক্তভাৱে আৰম্ভ কৰক। বৃদ্ধিৰ লগে লগে স্কেল কৰক।

মুক্ত

$0

৫০ ক্রেডিট

  • Kokoro, Piper, VITS, MeloTTS
  • ৫০০ আখৰৰ সীমা
  • ৩ জন/ঘন্টা (কোনো একাওন্ট নাই)
বিনামূল্যে নিবন্ধন কৰক

আৰম্ভ কৰক

$9/মিনিট

৫০০ ক্রেডিট/মাহ

  • সকলো ২২+ আৰ্হি
  • প্ৰতি প্ৰজন্মে ১০০,০০০ আখৰ
  • ধ্বনি ক্লোনিং
আৰম্ভ কৰক
সৰ্বাধিক জনপ্ৰিয়

প্ৰো

$29/মিনিট

২,০০০ ক্রেডিট/মাহ

  • আৰম্ভণিত সকলো
  • API অভিগম
  • অগ্ৰাধিকাৰ প্ৰক্ৰিয়াকৰণ
প্ৰফেশনাল হওক

ব্যৱসা

$99/মিনিট

১০,০০০ ক্রেডিট/মাহ

  • Pro ত সকলো
  • বৰ্গ API
  • অগ্ৰাধিকাৰ তালিকা
ব্যৱসায় প্ৰাপ্ত কৰক

ক্রেডিট পেকসমূহ অন্তৰ্ভুক্ত সকলো পৰিকল্পনা চাওক →

সদায় সোধা প্ৰশ্নসমূহ

TTS.ai হৈছে আটাইতকৈ বিস্তৃত AI শব্দ প্লেটফৰ্ম, যি 22+ টেক্সট-টু-স্পিচ মডেল, শব্দ ক্লোনিং, শব্দ-টু-স্পিচ, আৰু অডিঅ' টুল প্ৰদান কৰে। সকলো মডেল মুক্ত উৎস আৰু কোনো ভেণ্ডাৰ লক-ইন নাই।

হ্যাঁ! TTS.ai এ Kokoro, Piper, VITS আৰু MeloTTS মডেলসমূহৰ সৈতে বিনামূলীয়া টেক্সট-টু-স্পীচ প্ৰদান কৰে। কোনো একাওন্টৰ প্ৰয়োজন নাই। ১৫,০০০ বিনামূলীয়া আখৰ আৰু সকলো মডেল ব্যৱহাৰ কৰিবলৈ নিবন্ধন কৰক। পৰিশোধিত পৰিকল্পনা $9/মাহত আৰম্ভ হয়।

গতি বৃদ্ধিৰ বাবে, Kokoro অথবা Piper ব্যৱহাৰ কৰক। গুণমান বৃদ্ধিৰ বাবে, CosyVoice ২ অথবা StyleTTS ২ ব্যৱহাৰ কৰক। ধ্বনি ক্লোন কৰাৰ বাবে, Chatterbox অথবা GPT-SoVITS ব্যৱহাৰ কৰক। ডাইলগৰ বাবে, Dia TTS ব্যৱহাৰ কৰক। তুলনা কৰিবলৈ একই টেক্সটত একাধিক মডেল ব্যৱহাৰ কৰক।

হ্যাঁ। TTS, STT, Voice Cloning, আৰু অডিঅ' টুলসমূহৰ বাবে OpenAI-সমৰ্থিত REST API। Pro ($29/mo) আৰু Enterprise ($99/mo) প্লানসমূহত উপলব্ধ। tts.ai/api/ ত দস্তাবেজসমূহ চাওক।

আৰ্হি অনুসৰি শব্দৰ গুণগত মান ভিন্ন হয়। CosyVoice 2, StyleTTS 2, আৰু Chatterbox ৰ দৰে প্ৰিমিয়াম আৰ্হিসমূহে প্ৰাকৃতিক উচ্চাৰণ আৰু অনুভূতিৰ সৈতে প্ৰায় মানৱীয় গুণগত মানৰ কথা প্ৰস্তুত কৰে। Kokoro ৰ দৰে বিনামূলীয়া আৰ্হিসমূহে অধিকাংশ ব্যৱহাৰৰ ক্ষেত্ৰত অসাধাৰণ গুণগত মান প্ৰদান কৰে।

TTS.ai এ ইয়াৰ মডেল লাইব্ৰেৰিসমূহত ৩০+ ভাষা সমৰ্থন কৰে। ইংৰাজী ভাষাৰ আটাইতকৈ বৃহৎ মডেল সমৰ্থন আছে, কিন্তু CosyVoice2ৰ দৰে মডেলে চীনা, জাপানি আৰু কোৰীয় ভাষা সমৰ্থন কৰে; GPT-SoVITS এ চীনা, জাপানি, কোৰীয় আৰু ইংৰাজী ভাষা সমৰ্থন কৰে; আৰু MeloTTS এ ইংৰাজী, স্পেনিশ, ফৰাচী, চীনা, জাপানি আৰু কোৰীয় ভাষা সমৰ্থন কৰে।

হ'ব। সকলো প্ৰক্ৰিয়াকৰণ আমাৰ নিবেদিত GPU চাৰ্ভাৰৰ ওপৰত হয়। আমি আপোনাৰ টেক্সট ইনপুট অথবা উৎপাদিত অডিঅ' প্ৰদান কৰাৰ পিছত সংৰক্ষণ নকৰো। ক্লোন কৰাৰ বাবে আপলোড কৰা শব্দৰ নমুনাসমূহ কেৱল বৰ্তমান অধিবেশনৰ বাবে ব্যৱহাৰ কৰা হয় আৰু সংৰক্ষণ কৰা নহয়। আমি আপোনাৰ তথ্য তৃতীয় পক্ষৰ সৈতে কেতিয়াও বিনিময় নকৰো অথবা মডেল প্ৰশিক্ষণ দিবলৈ ইয়াক ব্যৱহাৰ নকৰো।

হ্যাঁ। TTS.ai ত সৃষ্টি কৰা সকলো অডিঅ' আপোনাৰ বাণিজ্যিক ব্যৱহাৰৰ বাবে, YouTube ভিডিঅ', পডকাস্ট, অডিঅ'বুক, এপ্লিকেচন, বিজ্ঞাপন, আৰু উৎপাদনৰ বাবে অন্তৰ্ভুক্ত। আমাৰ মডেলসমূহ অনুমোদনযোগ্য লাইচেঞ্চসমূহৰ অধীনত উন্মুক্ত উৎস (MIT, Apache 2.0)। কোনো ৰয়েলটি বা স্বীকৃতিৰ প্ৰয়োজন নাই।

TTS.ai দ্বাৰা অবিকল্পিতৰূপে সৰ্বাধিক গুণমানৰ বাবে WAV বিন্যাসত অডিঅ' নিৰ্গত কৰা হয়। আপুনি আমাৰ বিনামূলীয়া অডিঅ' পৰিবৰ্তনকাৰী টুল ব্যৱহাৰ কৰি MP3, FLAC, OGG, অথবা M4A লে পৰিবৰ্তন কৰিব পাৰে। API দ্বাৰা অনুৰোধত আপোনাৰ পছন্দৰ আউটপুট বিন্যাস সরাসৰি ধাৰ্য্য কৰাটো সমৰ্থিত হয়।

ক্লোন কৰিব বিচৰা শব্দৰ এটা সংক্ষিপ্ত অডিঅ' নমুনা (৫ ছেকেণ্ডৰ ভিতৰত) আপলোড কৰক, তাৰ পিছত সেই শব্দত কথোপকথন সৃষ্টি কৰিবলৈ যিকোনো টেক্সট টাইপ কৰক। Chatterbox, GPT-SoVITS, আৰু CosyVoice2ৰ দৰে মডেলসমূহে কথোপকথন ক্লোনিং সমৰ্থন কৰে। ক্লোন কৰা শব্দটোৱে টোন, উচ্চাৰণ, আৰু কথোপকথনৰ বিন্যাস গ্ৰহণ কৰে।

বিনামূলীয়া মডেলৰ (Kokoro, Piper, VITS, MeloTTS) কোনো একাওন্টৰ প্ৰয়োজন নাই আৰু শূণ্য ক্ৰেডিটৰ মূল্য। প্ৰমিত মডেল (২ ক্ৰেডিট/১K অক্ষৰ) অন্তৰ্ভুক্ত কৰে Bark, CosyVoice 2, F5-TTS, আৰু Dia। প্ৰিমিয়াম মডেল (৪ ক্ৰেডিট/১K অক্ষৰ) অন্তৰ্ভুক্ত কৰে OpenVoice, Chatterbox, StyleTTS 2, আৰু Tortoise। বিনিময় মডেল সাধাৰণতে উচ্চ মান, অধিক শব্দ, আৰু শব্দ ক্লোনিংৰ দৰে অতিৰিক্ত বৈশিষ্ট্য প্ৰদান কৰে।

হ'ব। API-এ ব্যাচ প্ৰক্ৰিয়াকৰণ সমৰ্থন কৰে বড় পৰিমাণৰ টেক্সটক কথোপকথনে ৰূপান্তৰ কৰাৰ বাবে। একাধিক অনুৰোধ জমা কৰক আৰু কাম UUIDs ব্যৱহাৰ কৰি ফলাফলসমূহ অসংগতভাৱে উদ্ধাৰ কৰক। এন্টারপ্ৰাইজ প্লান ($99/mo) ত দ্ৰুত ব্যাচ প্ৰক্ৰিয়াকৰণৰ বাবে প্ৰাথমিকতা ক'উ অভিগম অন্তৰ্ভুক্ত আছে। অডিঅ'বুক উৎপাদন, কোর্স সমল, আৰু বড় পৰিমাণৰ ভয়েস-অভাৰ প্ৰকল্পৰ বাবে আদর্শ।
4.1/5 (21)

আমি কি উন্নত কৰিব পাৰো? আপোনাৰ মতামত আমাক সমস্যা সমাধানত সহায় কৰে।

AI Voice আজি ব্যৱহাৰ আৰম্ভ কৰক

TTS.ai ব্যৱহাৰ কৰি সৃষ্টিকৰ্তা, উন্নয়নকাৰী, আৰু ব্যৱসায়ত যোগদান কৰক