Ազատ AI Տեքստից խոսքName
33+ բաց կոդով մոդելներ, 273+ ձայներ, 33+ լեզուներ։ Հաշիվ չի պահանջվում։
Ամեն ինչ, ինչ անհրաժեշտ է ձայնային ինտելեկտի համար
30+ գործիքներ բաց կոդով AI մոդելներով
33+ AI ձայնային մոդելներ
Առանց կոդավորման TTS մոդելների ամենախոշոր հավաքածուն մեկ պլատֆորմում
Kokoro Ազատ
Kokoro- ն 82 միլիոն պարամետրով տեքստը խոսքի վերածող մոդել է, որը իր քաշային դասակարգից շատ ավելին է տալիս։ Անկախ իր փոքր չափից, այն արտադրում է բնական և արտահայտիչ խոսք։ Kokoro- ն աջակցում է մի շարք լեզուների, այդ թվում անգլերեն, յապոնական, չինարեն և կորեերեն, տարբեր արտահայտիչ ձայներով։ Այն աշխատում է անհավատալի արագ՝ ձայնը գեներացնելով գրեթե 100 անգամ արագ, քան իրական ժամանակում GPU- ում։
Լավագույնը ՝ Հնարավոր է նվազագույն ուշացումով, բարձր որակով TTS, ալիքային ծրագրեր
Ստուգել անվճար
Piper Ազատ
Piper- ը Rhasspy- ի կողմից մշակված թեթև տեքստը խոսքի վերածող համակարգ է, որը օգտագործում է VITS և larynx ճարտարապետությունները։ Այն ամբողջությամբ աշխատում է CPU- ի վրա, ինչը այն դարձնում է եզրային սարքերի, տնային ավտոմատացման և օֆլայն TTS պահանջող ծրագրերի համար իդեալական։ 30+ լեզուներով ավելի քան 100 ձայներով Piper- ը ապահովում է բնական հնչողությամբ խոսք իրական ժամանակում նույնիսկ Raspberry Pi 4- ի վրա։
Լավագույնը ՝ Ժամանակակից նախադիտումներ, հասանելիություն և ներկառուցված ծրագրեր
Ստուգել անվճար
VITS Ազատ
VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) զուգահեռ end-to-end TTS մեթոդ է, որը գեներացնում է ավելի բնական հնչողության ձայն, քան ներկայիս երկու փուլային մոդելները։ Այն ընդունում է variation inference- ն ավելացված նորմալացման հոսքերով և հակառակորդի պատրաստման գործընթացով, հասնելով բնականության կարևոր բարելավման։
Լավագույնը ՝ Համատեղելի է բնական ձայնագրության հետ
Ստուգել անվճար
MeloTTS Ազատ
MeloTTS- ը MyShell. ai- ի կողմից ստեղծված բազմլեզու TTS գրադարան է, որը աջակցում է անգլերեն (ամերիկյան, բրիտանական, հնդկական, ավստրալիական), իսպաներեն, ֆրանսերեն, չինարեն, Ճապոներեն և կորեերեն։ Այն շատ արագ է, տեքստը վերամշակում է մոտավորապես իրական ժամանակի արագությամբ միայն պրոցեսորի վրա։ MeloTTS- ը նախագծված է արտադրական օգտագործման համար և աջակցում է ինչպես պրոցեսորի, այնպես էլ GPU- ի եզրակացություններին։
Լավագույնը ՝ Աշխատանքային ծրագրեր, որոնք պահանջում են արագ, բազմալեզու TTS
Ստուգել անվճար
Kani TTS 2 Ազատ
Kani-TTS-2-ը NineNineSix-ի կողմից 400Մ պարամետրով ուլտրա-քիչ ծանրաբեռնված մոդել է, որը կառուցված է NVIDIA NanoCodec-ով ապահովված Liquid AI LFM2 սկավառակի վրա։ Այն աշխատում է ընդամենը 3ԳԲ VRAM-ով և արտադրում է ~10 վայրկյան խոսակցություն ~2 վայրկյանում A100-ի վրա (RTF 0.2)։ Այժմյան հանրային տարբերակը պարունակում է միայն անգլերեն `kani-tts-2-en` ստուգման կետ և չի ցուցադրում ձայնի կլոունինգի համար անհրաժեշտ ձայնի ներդրման կողպեքը՝ կլոունինգի համար օգտագործեք Chatterbox / IndexTTS2 / F5-TTS, կամ Kokoro / MeloTTS՝ ոչ անգլերենի համար։
Լավագույնը ՝ արագ անգլերենի ստեղծում ցածր VRAM-ով սարքավորումների վրա, արագ նախապատրաստում
Ստուգել անվճար
OuteTTS Ազատ
OuteTTS-ը լեզվի մեծ մոդելները լրացնում է տեքստից խոսքի ունակություններով՝ պահպանելով սկզբնական ճարտարապետությունը։ Այն աջակցում է մի քանի backend-եր, այդ թվում llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, և նույնիսկ բրաուզերի եզրակացությունը Transformers.js-ի միջոցով։ Այն ձայնի 0-shot կլոինգի հնարավորություն է տալիս JSON-ի պես պահպանված խոսնակի պրոֆիլների միջոցով։
Լավագույնը ՝ Edge-ի տեղադրում, բրաուզերի վրա հիմնված TTS, ցածր ռեսուրսներով միջավայրեր
Ստուգել անվճար
Pocket TTS Ազատ
Pocket TTS- ը Kyutai- ի (Moshi- ի ստեղծողներ) կողմից ստեղծված կոմպակտ 100Մ պարամետրերով տեքստը խոսքի վերածելու մոդել է, որը իր քաշից շատ ավելին է տալիս։ Այն արդյունավետորեն աշխատում է պրոցեսորի վրա, աջակցում է ձայնի 0- ական կլոնավորմանը մեկ ձայնային նմուշից և արտադրում է բնական հնչողությամբ խոսք։ Փոքր մոդելի չափսը այն դարձնում է իդեալական եզրային տեղակայման և ցածր ռեսուրսներով միջավայրերի համար։
Լավագույնը ՝ Հեշտ տեղադրում, միայն պրոցեսորային միջավայրեր, արագ ձայնային կլոունավորում
Ստուգել անվճար
Kitten TTS Ազատ
Kitten TTS by KittenML- ը ONNX- ի վրա հիմնված ուլտրա- թեթև տեքստը խոսքի վերածելու մոդել է։ 15- ից 80 Մբ պարամետրերի տարբերակներով (25- 80 ՄԲ սկավառակում), այն ապահովում է բարձր որակի ձայնային սինթեզի պրոցեսորի վրա առանց GPU- ի պահանջարկի։ Այն ունի 8 ներկառուցված ձայներ, փոխվող խոսելու արագություն և ներկառուցված տեքստի նախապատրաստում թվերի, արժույթների և միավորների համար։ Հատկապես հարմար է եզրային տեղակայման և ցածր լատենսիվության ծրագրերի համար։
Լավագույնը ՝ արագ, թեթև TTS, եզրային տեղադրում, ցածր ուշացումով ծրագրեր
Ստուգել անվճար
Ming-Omni TTS Ազատ
Ming-omni-tts-0.5B by inclusionAI կոմպակտ omni-modal խոսակցության մոդելն է, որը կառուցված է BailingMM հաստ սկզբունքով, Patch-by-Patch հոսքի համապատասխան ձայնային ադեկվատով։ Այն տալիս է 44.1kHz արտահոսք (CD որակի մոտ), աջակցում է zero-shot ձայնի կլոինինգը 3+ վայրկյան հղումից և ներառում է ներկառուցված զգացմունք / դիալեկտ / BGM կառավարում JSON հրահանգների միջոցով։ Ամենահեշտը — 0.83% WER Չինական ստանդարտների վրա։
Լավագույնը ՝ High-fidelity bilingual narration, emotional-controlled voice acting, Chinese audiobook content
Ստուգել անվճար
MOSS-TTS Nano Ազատ
MOSS-TTS-Nano-100M-ը OpenMOSS-ի MOSS-TTS ընտանիքի կոմպակտ 100Մ-պարամետրերի տարբերակն է, որը կիսում է տևողության-տրանսֆորմացիայի ճարտարապետությունը։ 8B մոդելի բարձրագույն որակը փոխանակում է ~80x փոքր քաշով և զգալիորեն ցածր պահանջվող VRAM-ով, ինչը այն դարձնում է հարմարավետ ազատ-մակարդակով և բարձր արագությամբ տեղադրումների համար։ 20 լեզուների նույն հասանելիությունը։
Լավագույնը ՝ Ազատ-մակարդակ TTS, մեծ քանակությամբ արտադրություն, ցածր-լիցենզիա ինտերակտիվ օգտագործում
Ստուգել անվճար
Bark Լռելյայն
Տրանսֆորմերների վրա հիմնված տեքստը ձայնային մոդել, որը ստեղծում է իրական խոսակցություն, երաժշտություն և ձայնային էֆեկտներ։
Հեղինակ Suno · Լիցենզիա MIT
Փորձեք :
Bark Small Լռելյայն
Bark-ի ավելի թեթև տարբերակը՝ ավելի արագ եզրակացություններով և հիշողության ավելի քիչ օգտագործմամբ։
Հեղինակ Suno · Լիցենզիա MIT
Փորձեք :
CosyVoice 2 Լռելյայն
Alibaba-ի արագացվող TTS-ը, որը բնական է և մոտ է 0-ին.
Հեղինակ Alibaba (Tongyi Lab) · Լիցենզիա Apache 2.0
Փորձեք :
Dia TTS Լռելյայն
Բազմախոսնակ դիալոգների ստեղծման մոդել, որը ստեղծում է խոսողների միջև բնական զրույցներ։
Հեղինակ Nari Labs · Լիցենզիա Apache 2.0
Փորձեք :
Parler TTS Լռելյայն
Օգտագործեք բնական լեզուն և Parler-ը կստեղծի ձեզ համար հարմար ձայն.
Հեղինակ Hugging Face · Լիցենզիա Apache 2.0
Փորձեք :
IndexTTS-2 Լռելյայն
Zero-shot TTS-ը լավ էմոցիոնալ վերահսկողությամբ և բարձր արտահայտչունակությամբ։
Հեղինակ Index Team · Լիցենզիա Bilibili Model License
Փորձեք :
Spark TTS Լռելյայն
TTS-ի ձայնային կլոնավորում՝ վերահսկելի զգացմունքներով և խոսելու ոճով՝ խնդրանքների միջոցով։
Հեղինակ SparkAudio · Լիցենզիա CC BY-NC-SA 4.0
Փորձեք :
GPT-SoVITS Լռելյայն
Ձայնի կլոինգի TTS-ը, որը կրկնօրինակում է ցանկացած ձայն ընդամենը 5 վայրկյան տևողությամբ ձայնային տվյալներից։
Հեղինակ RVC-Boss · Լիցենզիա MIT
Փորձեք :
Orpheus Լռելյայն
100-ամյակի առթիվ 100-ամյակի առթիվ 100-ամյակի առթիվ 100-ամյակի առթիվ 100-ամյակի առթիվ 100-ամյակի առթիվ
Հեղինակ Canopy Labs · Լիցենզիա Llama 3.2 Community
Փորձեք :
Qwen3 TTS Լռելյայն
Alibaba-ի բազմլեզու TTS-ը նախատեսված ձայներով և ձայնի դիզայնով տեքստում։
Հեղինակ Alibaba (Qwen) · Լիցենզիա Apache 2.0
Փորձեք :
VieNeu-TTS-v2 Լռելյայն
Վիետնամերեն + Անգլերեն կոդ-փոխանցող TTS 7 նախատեսված ձայներով և zero-shot ձայնի կլոինգով։ Պահանջվում է միայն CPU, ոչ GPU։
Հեղինակ Phạm Nguyễn Ngọc Bảo · Լիցենզիա Apache 2.0
Փորձեք :
Chatterbox Turbo Լռելյայն
200 մլրդ դրամ, 200 մլն դոլար և 200 մլն եվրո, 200 մլն դոլար և 200 մլն դոլար՝ 2009 թվականի տվյալներով։
Հեղինակ Resemble AI · Լիցենզիա MIT
Փորձեք :
VoxCPM Լռելյայն
Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency Վիքիպահեստում
Հեղինակ OpenBMB · Լիցենզիա Apache 2.0
Փորձեք :
VibeVoice Լռելյայն
Microsoft-ի մոդելը երկար ձևի բազմահնչյուն բովանդակության համար, ինչպիսիք են podcast-ները և ձայնագրված գրքերը։
Հեղինակ Microsoft · Լիցենզիա MIT
Փորձեք :
CosyVoice3 Լռելյայն
Հաջորդ սերունդի բազմալեզու TTS-ը, որը ներառում է bi-streaming, emotional control և zero-shot ձայնային կլոինգ։
Հեղինակ Alibaba (FunAudioLLM) · Լիցենզիա Apache 2.0
Փորձեք :
NAMAA Saudi TTS Լռելյայն
Առաջին բաց արաբերեն-սուդյան TTS-ը։ Սուդյան լեզու Chatterbox-ի որակով ձայնի կլոինով։
Հեղինակ NAMAA Space · Լիցենզիա MIT
Փորձեք :
Darwin TTS Լռելյայն
Cross-modal Qwen3-TTS տարբերակը FFN-ի արժեքներով, որը խառնված է Qwen3-1.7B լեզվի մոդելի հետ՝ ավելի արագ բազմլեզու կլոինգի համար։
Հեղինակ FINAL-Bench · Լիցենզիա Apache 2.0
Փորձեք :
MOSS-TTSD Լռելյայն
Multi-speaker dialogue continuation model — ստեղծում է podcast-style զրույցներ մինչև 5 խոսնակների և 60 րոպե համապատասխան ձայնային նյութով.
Հեղինակ OpenMOSS · Լիցենզիա Apache 2.0
Փորձեք :
CosyVoice 2
Alibaba-ի արագացվող TTS-ը, որը բնական է և մոտ է 0-ին.
Լեզուներ en, zh, ja, ko, fr, de, it, es
Ձայնի հնարք
IndexTTS-2
Zero-shot TTS-ը լավ էմոցիոնալ վերահսկողությամբ և բարձր արտահայտչունակությամբ։
Լեզուներ en, zh
Ձայնի հնարք
Spark TTS
TTS-ի ձայնային կլոնավորում՝ վերահսկելի զգացմունքներով և խոսելու ոճով՝ խնդրանքների միջոցով։
Լեզուներ en, zh
Ձայնի հնարք
GPT-SoVITS
Ձայնի կլոինգի TTS-ը, որը կրկնօրինակում է ցանկացած ձայն ընդամենը 5 վայրկյան տևողությամբ ձայնային տվյալներից։
Լեզուներ en, zh, ja, ko
Ձայնի հնարք
Chatterbox
Էմոցիաների վերահսկման համար ձայնի ռեկլոմացման նորագույն տեխնոլոգիա՝ Resemble AI-ից։
Լեզուներ en
Ձայնի հնարք
Tortoise TTS
Ընդհանուր ձայնային տեքստը խոսքի վերածելու համակարգ, որը կենտրոնացած է որակի վրա և ունի ինքնակրկնվող ճարտարապետություն։
Լեզուներ en
Ձայնի հնարք
OpenVoice
Ձայնի արագ կլոունավորում՝ կերպարի, զգացմունքների և ակցենտերի մանրամասն կառավարմամբ։
Լեզուներ en, zh, ja, ko, fr, es
Ձայնի հնարք
VieNeu-TTS-v2
Վիետնամերեն + Անգլերեն կոդ-փոխանցող TTS 7 նախատեսված ձայներով և zero-shot ձայնի կլոինգով։ Պահանջվում է միայն CPU, ոչ GPU։
Լեզուներ vi, en
Ձայնի հնարք
Chatterbox Turbo
200 մլրդ դրամ, 200 մլն դոլար և 200 մլն եվրո, 200 մլն դոլար և 200 մլն դոլար՝ 2009 թվականի տվյալներով։
Լեզուներ en
Ձայնի հնարք
VoxCPM
Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency Վիքիպահեստում
Լեզուներ en, zh
Ձայնի հնարք
OuteTTS
LLM-ի վրա հիմնված TTS, որը աշխատում է CPU, GPU կամ բրաուզերի միջոցով llama.cpp և Transformers.js.
Լեզուներ en
Ձայնի հնարք
Pocket TTS
Kyutai-ի հեշտ 100M պարամետրերի մոդել, ձայնի կլոինգի համար մեկ նմուշից
Լեզուներ en, fr
Ձայնի հնարք
CosyVoice3
Հաջորդ սերունդի բազմալեզու TTS-ը, որը ներառում է bi-streaming, emotional control և zero-shot ձայնային կլոինգ։
Լեզուներ en, zh, ja, ko, de, es, fr, it, ru
Ձայնի հնարք
NAMAA Saudi TTS
Առաջին բաց արաբերեն-սուդյան TTS-ը։ Սուդյան լեզու Chatterbox-ի որակով ձայնի կլոինով։
Լեզուներ ar
Ձայնի հնարք
Darwin TTS
Cross-modal Qwen3-TTS տարբերակը FFN-ի արժեքներով, որը խառնված է Qwen3-1.7B լեզվի մոդելի հետ՝ ավելի արագ բազմլեզու կլոինգի համար։
Լեզուներ en, ko, ja, zh
Ձայնի հնարք
MOSS-TTSD
Multi-speaker dialogue continuation model — ստեղծում է podcast-style զրույցներ մինչև 5 խոսնակների և 60 րոպե համապատասխան ձայնային նյութով.
Լեզուներ en, zh
Ձայնի հնարք
Ming-Omni TTS
1995-ին թողարկվել է 5.1-ին ձայնային համակարգով 4.1-ին ձայնային համակարգով և 4.4-ին ձայնային համակարգով ձայնային համակարգով։
Լեզուներ en, zh
Ձայնի հնարք
MOSS-TTS Nano
Tiny 100M MOSS-TTS variant — same architecture, 80x smaller, free-tier latency.
Լեզուներ en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Ձայնի հնարքԱռաջին ծրագրավորողի API
OpenAI-ի հետ համընկնող REST API. Մի վերջնական կետ, 22+ մոդելներ. Ցանցային աջակցություն իրական ժամանակի ծրագրերի համար։
- OpenAI- համապատասխան ձևաչափ
- TTS-ի հոսք իրական ժամանակի ծրագրերի համար
- Փաթեթային աշխատանք մեծ աշխատանքների համար
- Webhook հաղորդագրություններ
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Պարզ, թափանցիկ գնահատում
Սկսեք անվճար։ Մեծացեք, երբ աճում եք։
Ազատ
15,000 հերոս + 5,000/օր
- 7 ազատ մոդելներ, այդ թվում և Kokoro
- 5,000 այբուբեն յուրաքանչյուր սերունդում
- API-ի հասանելիություն ներառված է
Ընդունել
500 կետ / ամիս
- Բոլոր 22+ մոդելները
- 100,000 այբուբեն յուրաքանչյուր սերունդում
- Ձայնի կլոնավորում
Օգտագործող
2,000,000 կերպար/ամսվա
- Ամեն ինչ սկզբնականում
- API մուտք
- Առավելություն
Հաճախ տրվող հարցեր
Ի՞նչ կարող ենք բարելավել: Ձեր կարծիքը օգնում է մեզ լուծել խնդիրները:
Սկսեք օգտագործել AI ձայնը այսօր
Միացեք ստեղծողներին, ծրագրավորողներին և բիզնեսին TTS.ai-ը օգտագործելով