મુક્ત AI લખાણને બોલવામાંName
31+ ઓપન-સોર્સ મોડેલ્સ, 231+ અવાજ, 34+ ભાષાઓ. ખાતું જરૂરી નથી.
વોઇસ AI માટે તમારે જે બધું જ જરૂરી છે
30+ સાધનો ઓપન-સોર્સ એઆઈ મોડેલો દ્વારા શક્તિશાળી
31+ AI અવાજ મોડેલો
એક પ્લેટફોર્મમાં ઓપન-સોર્સ TTS મોડેલોનું સૌથી વિસ્તૃત સંગ્રહ
Kokoro મુક્ત
કોકોરો એ 82 મિલિયન પરિમાણ લખાણ-થી-ભાષા મોડેલ છે કે જે તેના વજન વર્ગની ઉપર સારી રીતે ઊભું રહે છે. તેના નાનકડા કદ છતાં, તે નોંધપાત્ર રીતે કુદરતી અને વ્યક્તીગત ભાષા ઉત્પન્ન કરે છે. કોકોરો અંગ્રેજી, જાપાની, ચીની, અને કોરિયન જેવી અનેક ભાષાઓને વિવિધ વ્યક્તીગત અવાજો સાથે આધાર આપે છે. તે અત્યંત ઝડપથી ચલાવે છે - GPU પર વાસ્તવિક સમય કરતાં લગભગ 100x ઝડપથી ઓડિયો ઉત્પન્ન કરે છે.
માટે શ્રેષ્ઠ: ન્યૂનતમ લેટસી સાથે ઉચ્ચ ગુણવત્તા TTS, સ્ટ્રીમિંગ કાર્યક્રમો
મફત પ્રયત્ન કરો
Piper મુક્ત
Piper એ Rhasspy દ્વારા વિકસિત થયેલ હળવું લખાણ-થી-ભાષા એન્જિન છે કે જે VITS અને larynx આર્કિટેક્ચર વાપરે છે. તે સંપૂર્ણપણે CPU પર ચાલે છે, એજ ઉપકરણો, ઘર સ્વચાલિત, અને ઓફલાઇન TTS જરૂરી કાર્યક્રમો માટે આદર્શ બનાવે છે. 30+ ભાષાઓમાં 100 થી વધુ અવાજો સાથે, Piper એ Raspberry Pi4પર પણ વાસ્તવિક સમયની ઝડપે કુદરતી-સંગીત વાક્ય પૂરુ પાડે છે.
માટે શ્રેષ્ઠ: ઝડપી પૂર્વદર્શનો, સુલભતા, અને જડિત કાર્યક્રમો
મફત પ્રયત્ન કરો
VITS મુક્ત
VITS (વિવિધતા અનુમાન સાથે અંત-થી-અંત લખાણ-થી-ભાષણ માટે વિરોધી શીખવણી) એ એક સમાન અંત-થી-અંત TTS પદ્ધતિ છે કે જે વર્તમાન બે-સ્તર મોડેલો કરતાં વધુ પ્રાકૃતિક રીતે સંભળાતું ઓડિયો પેદા કરે છે. તે સામાન્યીકરણ પ્રવાહ સાથે વધારાયેલ વિવિધતા અનુમાન અને વિરોધી તાલીમ પ્રક્રિયાને સ્વીકારે છે, પ્રાકૃતિકતામાં નોંધપાત્ર સુધારો મેળવે છે.
માટે શ્રેષ્ઠ: સામાન્ય હેતુનું લખાણ-થી-વાક્ય કુદરતી રૂપરેખાંકન સાથેName
મફત પ્રયત્ન કરો
MeloTTS મુક્ત
MyShell.ai દ્દારા MeloTTS એ બહુભાષી TTS લાઇબ્રેરી છે જે અંગ્રેજી (અમેરિકન, બ્રિટિશ, ભારતીય, ઓસ્ટ્રેલિયાઈ), સ્પેનિશ, ફ્રેન્ચ, ચાઇનીઝ, જાપાનીઝ, અને કોરીયનને આધાર આપે છે. તે ખૂબ ઝડપી છે, CPU પર માત્રા પર નજીકના વાસ્તવિક સમયની ઝડપે લખાણને પ્રક્રિયા કરે છે. MeloTTS ઉત્પાદન વપરાશ માટે ડિઝાઇન થયેલ છે અને CPU અને GPU બંનેને આધાર આપે છે.
માટે શ્રેષ્ઠ: ઉત્પાદન કાર્યક્રમોને ઝડપી, બહુભાષી TTS ની જરૂર છે
મફત પ્રયત્ન કરો
OuteTTS મુક્ત
OuteTTS લખાણ-થી-ભાષા ક્ષમતા સાથે મોટા ભાષા મોડેલોને વિસ્તૃત કરે છે જ્યારે મૂળભૂત આર્કિટેક્ચર સંગ્રહ કરે છે. તે llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, અને Transformers.js મારફતે બ્રાઉઝર ઇન્ફર્નેશન સહિત ઘણાં બેકએન્ડ્સને આધાર આપે છે. JSON તરીકે સંગ્રહાયેલ સ્પીકર રૂપરેખા મારફતે શૂન્ય-શૉટ અવાજ ક્લોનિંગ લાક્ષણિકતાઓ.
માટે શ્રેષ્ઠ: એજ ડિપ્લોયમેન્ટ, બ્રાઉઝર આધારિત TTS, ઓછા સ્ત્રોત પર્યાવરણો
મફત પ્રયત્ન કરો
Pocket TTS મુક્ત
પોકેટ TTS ક્યુટાઇ (મોશીના બનાવનારાઓ) દ્દારા સંકુચિત 100M પરિમાણ લખાણ-થી-ભાષણ મોડેલ છે કે જે તેના વજનથી વધારે સારી રીતે પંચ કરે છે. તે CPU પર અસરકારક રીતે ચલાવે છે, એક ઓડિયો નમૂનામાંથી શૂન્ય-શૉટ અવાજ ક્લોનિંગને આધાર આપે છે, અને કુદરતી-સંગીત વાક્ય ઉત્પન્ન કરે છે. નાનું મોડેલ માપ તેને આડી દિશામાં વિસ્તરણ અને ઓછા-સ્ત્રોત પર્યાવરણો માટે આદર્શ બનાવે છે.
માટે શ્રેષ્ઠ: હળવા વજનનું વિસ્તરણ, CPU-only પર્યાવરણો, ઝડપી અવાજ ક્લોનીંગ
મફત પ્રયત્ન કરો
Kitten TTS મુક્ત
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
માટે શ્રેષ્ઠ: Fast lightweight TTS, edge deployment, low-latency applications
મફત પ્રયત્ન કરો
Bark મૂળભૂત
ટ્રાન્સફોર્મર આધારિત લખાણ-થી-ઓડિયો મોડેલ કે જે વાસ્તવિક ભાષા, સંગીત, અને ધ્વનિ અસરો પેદા કરે છે.
ડેવલોપર: Suno · લાઇસન્સ: MIT
પ્રયત્ન કરો
Bark Small મૂળભૂત
ઝડપી અંદાજ અને ઓછા મેમરી વપરાશ સાથે Bark ની હળવી આવૃત્તિ.
ડેવલોપર: Suno · લાઇસન્સ: MIT
પ્રયત્ન કરો
CosyVoice 2 મૂળભૂત
અલીબાબાનું માપન કરી શકાય તેવું સ્ટ્રીમિંગ TTS માનવ-સમાનતાની કુદરતીતા અને નજીક-શૂન્ય લેટન્સી સાથે.
ડેવલોપર: Alibaba (Tongyi Lab) · લાઇસન્સ: Apache 2.0
પ્રયત્ન કરો
Dia TTS મૂળભૂત
બહુ-સ્પીકર સંવાદ ઉત્પન્ન મોડેલ કે જે સ્પીકર વચ્ચે કુદરતી વાતચીત બનાવે છે.
ડેવલોપર: Nari Labs · લાઇસન્સ: Apache 2.0
પ્રયત્ન કરો
Parler TTS મૂળભૂત
તમે પ્રાકૃતિક ભાષામાં ઇચ્છતા અવાજનું વર્ણન કરો અને Parler બંધબેસતા ભાષણને ઉત્પન્ન કરે છે.
ડેવલોપર: Hugging Face · લાઇસન્સ: Apache 2.0
પ્રયત્ન કરો
GLM-TTS મૂળભૂત
ઓપન-સોર્સ TTS મોડેલો વચ્ચે નીચલો અક્ષર ભૂલ દર મેળવે છે.
ડેવલોપર: Zhipu AI · લાઇસન્સ: GLM-4 License
પ્રયત્ન કરો
IndexTTS-2 મૂળભૂત
ઝીરો-શોટ TTS, ફાઇન-ગ્રેનેડ ઇમોશન નિયંત્રણ અને ઉચ્ચ વ્યક્તીત્વ સાથે.
ડેવલોપર: Index Team · લાઇસન્સ: Bilibili Model License
પ્રયત્ન કરો
Spark TTS મૂળભૂત
અવાજ ક્લોનિંગ TTS નિયંત્રિત ભાવના અને પ્રોમ્પ્ટ્સ મારફતે બોલવાની શૈલી સાથે.
ડેવલોપર: SparkAudio · લાઇસન્સ: CC BY-NC-SA 4.0
પ્રયત્ન કરો
GPT-SoVITS મૂળભૂત
થોડા-શૉટ અવાજ ક્લોનિંગ TTS કે જે ઓડિયોનાં માત્ર ૫ સેકન્ડોમાંથી કોઈપણ અવાજને નકલ કરે છે.
ડેવલોપર: RVC-Boss · લાઇસન્સ: MIT
પ્રયત્ન કરો
Orpheus મૂળભૂત
100,000 કલાકની ભાષણ માહિતી પર તાલીમ આપવામાં આવેલ માનવ સ્તરીય લાગણીશીલ ટીટીએસ મોડેલ.
ડેવલોપર: Canopy Labs · લાઇસન્સ: Llama 3.2 Community
પ્રયત્ન કરો
Qwen3 TTS મૂળભૂત
અલીબાબાનું બહુભાષી TTS અવાજ ક્લોનીંગ સાથે, પૂર્વસુયોજિત અવાજો, અને લખાણમાંથી અવાજ ડિઝાઇન સાથે.
ડેવલોપર: Alibaba (Qwen) · લાઇસન્સ: Apache 2.0
પ્રયત્ન કરો
Chatterbox Turbo મૂળભૂત
ઝડપી ચેટબોક્સ સબ-200ms લેટેન્સી અને હસવા, છીંકવા અને વધુ માટે પેરાલિંગવિસ્ટિક ટેગો સાથે.
ડેવલોપર: Resemble AI · લાઇસન્સ: MIT
પ્રયત્ન કરો
Dia 2 મૂળભૂત
સ્ટ્રીમિંગ-પ્રથમ સંવાદ TTS બહુ-સ્પીકર સંવાદ અને પેરાલિંગવિસ્ટિક ક્યુઝ સાથે.
ડેવલોપર: Nari Labs · લાઇસન્સ: Apache 2.0
પ્રયત્ન કરો
VoxCPM મૂળભૂત
ટોકેનીઝર-મુક્ત TTS સંદર્ભ-જાગૃત ફકરો સુસંગતતા સાથે 44.1kHz ઓડિયો ઉત્પન્ન કરે છે.
ડેવલોપર: OpenBMB · લાઇસન્સ: Apache 2.0
પ્રયત્ન કરો
TADA મૂળભૂત
લખાણ-અવાયુક્ત ડબલ એલિમેન્ટ સાથે શૂન્ય-હલક્યુલિનેશન TTS, સરખામણી LLM TTS કરતા ૫x ઝડપી.
ડેવલોપર: Hume AI · લાઇસન્સ: MIT
પ્રયત્ન કરો
VibeVoice મૂળભૂત
પોડકાસ્ટ અને ઓડિયોબુક્સ જેવા લાંબા-આકારના બહુ-સ્પીકર સમાવિષ્ટો માટે Microsoft મોડેલ.
ડેવલોપર: Microsoft · લાઇસન્સ: MIT
પ્રયત્ન કરો
CosyVoice3 મૂળભૂત
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
ડેવલોપર: Alibaba (FunAudioLLM) · લાઇસન્સ: Apache 2.0
પ્રયત્ન કરો
CosyVoice 2
અલીબાબાનું માપન કરી શકાય તેવું સ્ટ્રીમિંગ TTS માનવ-સમાનતાની કુદરતીતા અને નજીક-શૂન્ય લેટન્સી સાથે.
ભાષાઓ: en, zh, ja, ko, fr, de, it, es
અવાજ ક્લોન કરો
IndexTTS-2
ઝીરો-શોટ TTS, ફાઇન-ગ્રેનેડ ઇમોશન નિયંત્રણ અને ઉચ્ચ વ્યક્તીત્વ સાથે.
ભાષાઓ: en, zh
અવાજ ક્લોન કરો
Spark TTS
અવાજ ક્લોનિંગ TTS નિયંત્રિત ભાવના અને પ્રોમ્પ્ટ્સ મારફતે બોલવાની શૈલી સાથે.
ભાષાઓ: en, zh
અવાજ ક્લોન કરો
GPT-SoVITS
થોડા-શૉટ અવાજ ક્લોનિંગ TTS કે જે ઓડિયોનાં માત્ર ૫ સેકન્ડોમાંથી કોઈપણ અવાજને નકલ કરે છે.
ભાષાઓ: en, zh, ja, ko
અવાજ ક્લોન કરો
Chatterbox
Resemble AI માંથી લાગણી નિયંત્રણ સાથે state-of-the-art zero-shot અવાજ ક્લોનિંગ.
ભાષાઓ: en
અવાજ ક્લોન કરો
Tortoise TTS
બહુ- અવાજ લખાણ-થી-ભાષા ગુણવત્તા પર કેન્દ્રિત છે, આત્મ-પલટાતા આર્કિટેક્ચર સાથે.
ભાષાઓ: en
અવાજ ક્લોન કરો
OpenVoice
શૈલી, લાગણી, અને ભાષા પર ઘન નિયંત્રણ સાથે તરત જ અવાજ ક્લોનિંગ.
ભાષાઓ: en, zh, ja, ko, fr, de, es, it
અવાજ ક્લોન કરો
Qwen3 TTS
અલીબાબાનું બહુભાષી TTS અવાજ ક્લોનીંગ સાથે, પૂર્વસુયોજિત અવાજો, અને લખાણમાંથી અવાજ ડિઝાઇન સાથે.
ભાષાઓ: en, zh, ja, ko, de, fr, ru, pt, es, it
અવાજ ક્લોન કરો
Chatterbox Turbo
ઝડપી ચેટબોક્સ સબ-200ms લેટેન્સી અને હસવા, છીંકવા અને વધુ માટે પેરાલિંગવિસ્ટિક ટેગો સાથે.
ભાષાઓ: en
અવાજ ક્લોન કરો
VoxCPM
ટોકેનીઝર-મુક્ત TTS સંદર્ભ-જાગૃત ફકરો સુસંગતતા સાથે 44.1kHz ઓડિયો ઉત્પન્ન કરે છે.
ભાષાઓ: en, zh
અવાજ ક્લોન કરો
OuteTTS
LLM-આધારિત TTS કે જે CPU, GPU, અથવા બ્રાઉઝર પર llama.cpp અને Transformers.js વડે ચલાવે છે.
ભાષાઓ: en
અવાજ ક્લોન કરો
Pocket TTS
એક નમૂનામાંથી અવાજ ક્લોનિંગ સાથે Kyutai દ્દારા હળવું 100M પરિમાણ મોડેલ.
ભાષાઓ: en, fr
અવાજ ક્લોન કરો
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
ભાષાઓ: en, zh, ja, ko, de, es, fr, it, ru
અવાજ ક્લોન કરો
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
ભાષાઓ: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
અવાજ ક્લોન કરો
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
ભાષાઓ: en, zh
અવાજ ક્લોન કરોડેવલોપર-પહેલા API
OpenAI-સુસંગત REST API. એક અંતબિંદુ, ૨૨+ મોડેલો. વાસ્તવિક સમય કાર્યક્રમો માટે સ્ટ્રીમિંગ આધાર.
- OpenAI-સુસંગત બંધારણ
- રિયલ-ટાઇમ કાર્યક્રમો માટે સ્ટ્રીમિંગ TTS
- મોટા કાર્યો માટે બેચ પ્રક્રિયા
- વેબહોક નોંધણીઓ
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
સરળ, પારદર્શક કિંમત
મુક્ત શરૂઆત. તમે વધો તેમ માપન કરો.
મુક્ત
૧૫ ક્રેડિટ્સ
- Kokoro, Piper, VITS, MeloTTS
- 500 અક્ષરોની મર્યાદા
- ૩ જન/કલાક (ખાતું નથી)
શરુઆત કરનાર
500 ક્રેડિટ્સ/મહિનો
- બધા ૨૨+ મોડેલો
- ૧૦૦,૦૦૦ અક્ષરો પ્રતિ પેઢી
- અવાજ ક્લોનિંગ
પ્રો
૨,૦૦૦ ક્રેડિટ્સ/મહિનો
- શરૂઆતમાં બધું
- API પ્રવેશ
- પ્રાથમિકતા પ્રક્રિયા
વારંવાર પૂછાતા પ્રશ્નો
અમે શું સુધારી શકીએ? તમારો પ્રતિભાવ અમને સમસ્યાઓ ઉકેલવામાં મદદ કરે છે.
AI Voice વાપરવાનું આજે શરૂ કરો
TTS.ai ની મદદથી બનાવનારાઓ, વિકાસકર્તાઓ અને વ્યવસાયો સાથે જોડાઓ