મુક્ત AI લખાણને બોલવામાંName

82M પરિમાણો અત્યંત ઝડપી અભિવ્યક્ત અવાજો બહુભાષી સ્ટ્રીમિંગ આધાર

લાઇટવેટ 82M પરિમાણ મોડેલ સ્ટુડિયો-ગુણવત્તાવાળા ભાષણને ઝડપી અંદાજ સાથે પૂરું પાડે છે.

સ્થિર · 1.5GB VRAM પ્રયત્ન કરો

Piper

CPU-મિત્રતાવાળું ઓફલાઇન સક્ષમ ૧૦૦+ અવાજો 35+ ભાષાઓ SSML આધાર

ઝડપી, સ્થાનિક ન્યુરલ લખાણથી બોલવાની સિસ્ટમ જે રાસ્પબેરી પાઇ અને જડિત ઉપકરણો માટે શ્રેષ્ઠ છે. Name

સ્થિર · 0 (CPU only) VRAM પ્રયત્ન કરો

VITS

અંત-થી-અંત સંયોજન કુદરતી પ્રોસોડી ઝડપી અંદાજ ઘણાબધા સ્પીકર

અંત-થી-અંત લખાણ-થી-ભાષણ માટે વિરોધી શીખવાની સાથે શરતી વિવિધ સ્વયં-એનકોડર.

સ્થિર · 1GB VRAM પ્રયત્ન કરો

MeloTTS

CPU-ઓપ્ટિમાઇઝ થયેલ બહુભાષી ઘણા બધા ઉચ્ચારણો ઉત્પાદન-સજ્જ ઓછું વિલંબ

ઉચ્ચ ગુણવત્તાનું બહુભાષી લખાણ-થી-ભાષણ કે જે CPU પર ન્યૂનતમ વિલંબ સાથે ચલાવે છે.

સ્થિર · 0.5GB (GPU optional) VRAM પ્રયત્ન કરો

Bark

ધ્વનિ અસરો હસવું/સૂઈ જવું સંગીત ઉત્પન્ન કરો ૧૦૦+ સ્પીકર બહુભાષી

ટ્રાન્સફોર્મર આધારિત લખાણ-થી-ઓડિયો મોડેલ કે જે વાસ્તવિક ભાષા, સંગીત, અને ધ્વનિ અસરો પેદા કરે છે.

ધીમો · 5GB VRAM પ્રયત્ન કરો

Bark Small

હળવું સંપૂર્ણ બાર્ક કરતાં ઝડપી ભાવનાત્મક ભાષા બહુભાષી

ઝડપી અંદાજ અને ઓછા મેમરી વપરાશ સાથે Bark ની હળવી આવૃત્તિ.

માધ્યમ · 2GB VRAM પ્રયત્ન કરો

CosyVoice 2

સ્ટ્રીમિંગ શૂન્ય-શૉટ ક્લોનિંગ ક્રોસ-લેંગ્વેજ લાગણી નિયંત્રણ માનવ-સમાનતા

અલીબાબાનું માપન કરી શકાય તેવું સ્ટ્રીમિંગ TTS માનવ-સમાનતાની કુદરતીતા અને નજીક-શૂન્ય લેટન્સી સાથે.

Dia TTS

બહુ-સ્પીકર સંવાદ પેદા કરો કુદરતી ક્રમ લેવો લાગણીસભર અભિવ્યક્તિ 1.6B પરિમાણો

બહુ-સ્પીકર સંવાદ ઉત્પન્ન મોડેલ કે જે સ્પીકર વચ્ચે કુદરતી વાતચીત બનાવે છે.

Parler TTS

અવાજ વર્ણન કુદરતી ભાષા નિયંત્રણ લવચીક અવાજ નિર્માણ કોઈ પૂર્વસુયોજિત અવાજોની જરૂર નથી

તમે પ્રાકૃતિક ભાષામાં ઇચ્છતા અવાજનું વર્ણન કરો અને Parler બંધબેસતા ભાષણને ઉત્પન્ન કરે છે.

Indic Parler TTS

ભારતીય ભાષાઓ અવાજ વર્ણન કુદરતી ભાષા નિયંત્રણ પ્રમાણભૂત ભારતીય ઉચ્ચારણ

કુદરતી ભાષા વૉઇસ નિયંત્રણ સાથે 8+ ભારતીય ભાષાઓ માટે ઉચ્ચ ગુણવત્તાવાળી વાતચીત.

ધીમો · 8GB VRAM પ્રયત્ન કરો

KhanomTan TTS

થાઇ TTS ઘણાબધા સ્પીકર YourTTS આર્કિટેક્ચર વ્યાપારિક-સલામત લાઇસન્સ

થી-ફર્સ્ટ લખાણ-થી-ભાષણ બોલનાર અવાજોની પસંદગી સાથે. Name

સ્થિર · 2GB VRAM પ્રયત્ન કરો

IndexTTS-2

લાગણી નિયંત્રણ શૂન્ય-શૉટ લાગણી વેક્ટર્સ અભિવ્યક્ત ભાષા સુંદર નિયંત્રણ

ઝીરો-શોટ TTS, ફાઇન-ગ્રેનેડ ઇમોશન નિયંત્રણ અને ઉચ્ચ વ્યક્તીત્વ સાથે.

Spark TTS

અવાજ ક્લોનિંગ લાગણી નિયંત્રણ શૈલી નિયંત્રણ પ્રશ્ન આધારિત ૫-સેકન્ડ ક્લોનિંગ

અવાજ ક્લોનિંગ TTS નિયંત્રિત ભાવના અને પ્રોમ્પ્ટ્સ મારફતે બોલવાની શૈલી સાથે.

GPT-SoVITS

૫-સેકન્ડ ક્લોનિંગ ગીત ગાતો અવાજ થોડા-શૉટ શીખવાનું ઉચ્ચ વિશ્વસનીયતા ક્રોસ-ભાષા

થોડા-શૉટ અવાજ ક્લોનિંગ TTS કે જે ઓડિયોનાં માત્ર ૫ સેકન્ડોમાંથી કોઈપણ અવાજને નકલ કરે છે.

ધીમો · 6GB VRAM પ્રયત્ન કરો

Orpheus

માનવ-સ્તરીય લાગણી ૧૦૦K કલાક તાલીમ કુદરતી ભાર અભિવ્યક્ત ભાષા

100,000 કલાકની ભાષણ માહિતી પર તાલીમ આપવામાં આવેલ માનવ સ્તરીય લાગણીશીલ ટીટીએસ મોડેલ.

Chatterbox

શૂન્ય-શૉટ ક્લોનિંગ લાગણી નિયંત્રણ ઉચ્ચ વિશ્વસનીયતા શૈલી પરિવહન એક નમૂના ક્લોનિંગ

Resemble AI માંથી લાગણી નિયંત્રણ સાથે state-of-the-art zero-shot અવાજ ક્લોનિંગ.

Tortoise TTS

ઊંચી ગુણવત્તા બહુ- અવાજ DALL-E આર્કિટેક્ચર અવાજ ક્લોનિંગ આપોઆપ પાછા વળનાર

બહુ- અવાજ લખાણ-થી-ભાષા ગુણવત્તા પર કેન્દ્રિત છે, આત્મ-પલટાતા આર્કિટેક્ચર સાથે.

ધીમો · 8GB VRAM પ્રયત્ન કરો

StyleTTS 2

માનવ-સ્તર શૈલી વિસ્તરણ વિરોધાભાસી તાલીમ કુદરતી ફેરફાર ઉચ્ચ વિશ્વસનીયતા

શૈલી પ્રસારણ અને વિરોધી તાલીમ મારફતે માનવ-સ્તરનું લખાણ-થી-ભાષણ.

OpenVoice

તાત્કાલિક ક્લોન અવાજ રૂપાંતરણ લાગણી નિયંત્રણ એસન્ટ નિયંત્રણ બહુભાષી

શૈલી, લાગણી, અને ભાષા પર ઘન નિયંત્રણ સાથે તરત જ અવાજ ક્લોનિંગ.

Qwen3 TTS

૯ પૂર્વસુયોજિત અવાજો લખાણમાંથી અવાજ ડિઝાઇન લાગણી નિયંત્રણ ભાષાઓ

અલીબાબાનું બહુભાષી TTS પૂર્વસુયોજિત અવાજો અને લખાણમાંથી અવાજ ડિઝાઇન સાથે.

માધ્યમ · 7GB VRAM પ્રયત્ન કરો

VieNeu-TTS-v2

૭ પૂર્વસુયોજિત અવાજો (ઉત્તર + દક્ષિણ ઉચ્ચારણો) En-Vi કોડ-સ્વીચિંગ અવાજ ક્લોનિંગ (3-5s સંદર્ભ) પોડકાસ્ટ / બહુ-સ્પીકર આધાર માત્ર CPU-જ — GPU જરૂરી નથી

વિયેતનામીઝ + અંગ્રેજી કોડ-સ્વીકરણ TTS ૭ પૂર્વસુયોજિત અવાજો અને શૂન્ય-શૉટ અવાજ ક્લોનીંગ સાથે. CPU-only, GPU જરૂરી નથી.

સ્થિર · CPU VRAM પ્રયત્ન કરો

Sesame CSM

વાર્તાલાપ કુદરતી સમય ફરક લેનાર પાછળની ચેનલ 1B પરિમાણો

સંવાદાત્મક ભાષાનું મોડેલ, જે યોગ્ય સમય અને લાગણી સાથે કુદરતી સંવાદ પેદા કરે છે.

ધીમો · 8GB VRAM પ્રયત્ન કરો

Chatterbox Turbo

નીચે-૨૦૦ms વિલંબ પેરાલિંગુઇસ્ટિક ટેગ્સ ૬x વાસ્તવિક સમય અવાજ ક્લોનિંગ વોટરમાર્કિંગ

ઝડપી ચેટબોક્સ સબ-200ms લેટેન્સી અને હસવા, છીંકવા અને વધુ માટે પેરાલિંગવિસ્ટિક ટેગો સાથે.

સ્થિર · 2GB VRAM પ્રયત્ન કરો

VoxCPM

44.1kHz ઓડિયો ટોકેનીઝર-મુક્ત ક્રોસ-ભાષા ક્લોનિંગ સંદર્ભ-જાગૃત LoRA સારી રીતે સુયોજિત

ટોકેનીઝર-મુક્ત TTS સંદર્ભ-જાગૃત ફકરો સુસંગતતા સાથે 44.1kHz ઓડિયો ઉત્પન્ન કરે છે.

સ્થિર · 4GB VRAM પ્રયત્ન કરો

Kani TTS 2

૩GB VRAM અત્યંત ઝડપી હળવું નાનોકોડેક મુક્ત

અત્યંત હળવું 400M અંગ્રેજી TTS મોડેલ માત્ર 3GB VRAM માં ચાલે છે.

સ્થિર · 3GB VRAM પ્રયત્ન કરો

OuteTTS

CPU અનુમાન બ્રાઉઝર અંદાજ ઘણાબધા બેકએન્ડ્સ સ્પીકર રૂપરેખાંકનો

LLM-આધારિત TTS કે જે CPU, GPU, અથવા બ્રાઉઝર પર llama.cpp અને Transformers.js વડે ચલાવે છે.

ધીમો · 2GB VRAM પ્રયત્ન કરો

VibeVoice

બહુ-સ્પીકર ૯૦ મિનિટ સુધી પોડકાસ્ટ ઉત્પન્ન કરો સ્પીકર સુસંગતતા 200ms સ્ટ્રીમિંગ

પોડકાસ્ટ અને ઓડિયોબુક્સ જેવા લાંબા-આકારના બહુ-સ્પીકર સમાવિષ્ટો માટે Microsoft મોડેલ.

સ્થિર · 4GB VRAM પ્રયત્ન કરો

Pocket TTS

100M પરિમાણો CPU અનુમાન અવાજ ક્લોનિંગ એક જ નમૂના ક્લોનિંગ બાજુ-સજ્જ

એક નમૂનામાંથી અવાજ ક્લોનિંગ સાથે Kyutai દ્દારા હળવું 100M પરિમાણ મોડેલ.

સ્થિર · 1GB VRAM પ્રયત્ન કરો

Kitten TTS

CPU-only અંદાજ 80MB મોડેલ માપ નીચે ૮ અંદરના અવાજો ઝડપ નિયંત્રણ ONNX આધારિત ૨૪kHz આઉટપુટ

80MB ની નીચે અત્યંત હળવા TTS. GPU વગર CPU પર ચલાવે છે.

સ્થિર · 0GB VRAM પ્રયત્ન કરો

CosyVoice3

બાય-સ્ટ્રીમિંગ લાગણી નિયંત્રણ અવાજ ક્લોનિંગ ઝડપ/વોલ્યુમ નિયંત્રણ આદેશ નીચે

બાય-સ્ટ્રીમિંગ, ઇમોશન નિયંત્રણ, અને ઝીરો-શોટ અવાજ ક્લોનીંગ સાથે આગળની પેઢીની બહુભાષી TTS.

સ્થિર · 4GB VRAM પ્રયત્ન કરો

NAMAA Saudi TTS

સાઉદી અરેબિક ભાષા આધુનિક પ્રમાણભૂત અરેબિક શૂન્ય-શૉટ અવાજ ક્લોનિંગ લાગણી નિયંત્રણ સ્થાનિક ઉચ્ચારણ

પહેલું ખોલો સાઉદી-અરબી TTS. ચેટબોક્સ-ગુણવત્તાવાળા અવાજ ક્લોનિંગ સાથે સ્થાનિક સાઉદી ભાષા.

માધ્યમ · 6GB VRAM પ્રયત્ન કરો

Darwin TTS

અવાજ ક્લોનિંગ ક્રોસ-ભાષા FFN-બ્લેન્ડેડ ૪ મુખ્ય ભાષાઓ Qwen3 બેકબોન

ક્રોસ- મોડલ Qwen3- TTS ફેરફાર FFN વજન સાથે Qwen3- 1.7B ભાષા મોડેલથી શાંત બહુભાષી ક્લોનિંગ માટે મિશ્રિત છે.

માધ્યમ · 7GB VRAM પ્રયત્ન કરો

MOSS-TTSD

બહુ-સ્પીકર સંવાદ ૫ સ્પીકર સુધી 60min કોહેરેન્ટ ઓડિયો અવાજ ક્લોનિંગ પોડકાસ્ટ સુધારાઓ

બહુ-સ્પીકર સંવાદ ચાલુ રાખવાનું મોડેલ -5સ્પીકર અને 60 મિનિટ સુધીના સંકલિત ઓડિયો સાથે પોડકાસ્ટ-શૈલીના સંવાદોને ઉત્પન્ન કરો.

માધ્યમ · 12GB VRAM પ્રયત્ન કરો

Ming-Omni TTS

44.1kHz આઉટપુટ અવાજ ક્લોનિંગ લાગણી નિયંત્રણ ભાષા નિયંત્રણ BGM ઉત્પન્ન કરો સંકુચિત ૦.૫B

ઇન્ક્લૂઝનએઆઈમાંથી કોમ્પેક્ટ 0.5B ઓમનિ-મોડલ સ્પીકિંગ મોડેલ, હાઈ-ફાઇડેલિટી 44.1kHz આઉટપુટ અને ઝીરો-શોટ વૉઇસ ક્લોનીંગ સાથે.

માધ્યમ · 3GB VRAM પ્રયત્ન કરો

MOSS-TTS Nano