თავისუფალი AI ტექსტიდან საუბარიName
35+ ჲრგჲპვნთ მჲევლთ, 285+ დლაჟჲგვ, 55+ ენა. ანგარიში არ არის საჭირო.
ყველაფერი რაც გჭირდებათ ხმოვანი AI- ისთვისName
30+ ინსტრუმენტი ღია კოდის ხელოვნური ინტელექტის მოდელებით
35+ AI ხმის მოდელები
ყველაზე სრულყოფილი ღია კოდის TTS მოდელის კოლექცია ერთ პლატფორმაზე
Kokoro თავისუფალი
Kokoro არის 82 მილიონი პარამეტრის ტექსტიდან საუბრის მოდელირება, რომელიც მაღლა დგას თავისი წონის კლასში. მიუხედავად მისი მცირე ზომისა, ის წარმოქმნის შესანიშნავად ბუნებრივ და გამოხატულ საუბარს. Kokoro მხარს უჭერს მრავალ ენას, მათ შორის ინგლისურს, იაპონურს, ჩინურსა და კორეულს, სხვადასხვა გამოხატული ხმით. ის მუშაობს მართლაც სწრაფად - აუდიოს წარმოქმნა 100-ჯერ სწრაფად ხდება ვიდრე რეალურ დროში GPU- ზე.
საუკეთესო: მაღალი ხარისხის TTS მინიმალური დაგვიანებით, სტრიმინგის პროგრამები
უფასო
Piper თავისუფალი
Piper არის მცირე ზომის ტექსტიდან საუბრის მოდული, რომელიც Rhasspy- მ შექმნა და რომელიც VITS და larynx არქიტექტურას იყენებს. ის სრულად მუშაობს CPU- ზე, რაც მას იდეალურს ხდის edge მოწყობილობებისთვის, სახლის ავტომატიზაციისთვის და პროგრამებისთვის, რომლებსაც სჭირდებათ ონლაინ TTS. 100- ზე მეტი ხმით 30+ ენაზე, Piper აწვდის ბუნებრივად ჟღერილ საუბარს რეალურ დროში, Raspberry Pi 4- ზეც კი.
საუკეთესო: სწრაფი წინასწარ ნახვა, ხელმისაწვდომობა და ჩაშენებული პროგრამებიName
უფასო
VITS თავისუფალი
VITS (Variation Inference with adversarial learning for end- to- end Text- to- Speech) არის პარალელური end- to- end TTS მეთოდი, რომელიც უფრო ბუნებრივ ხმებს ქმნის, ვიდრე მიმდინარე ორპროცენტიანი მოდელები. იგი იყენებს ვარიაციულ დასკვნას, რომელიც გაძლიერებულია ნორმალიზებული ნაკადებით და წინააღმდეგობრივი სწავლების პროცესით, რაც ბუნებრივობის მნიშვნელოვან გაუმჯობესებას იძლევა.
საუკეთესო: ტერმინალის პარამეტრებიName
უფასო
MeloTTS თავისუფალი
MeloTTS by MyShell. ai არის მრავალენოვანი TTS ბიბლიოთეკა, რომელიც მხარს უჭერს ინგლისურს (ამერიკულს, ბრიტანულს, ინდოურს, ავსტრალიურს), ესპანურს, ფრანგულს, ჩინურს, იაპონურს და კორეულს. ის ძალიან სწრაფია, ტექსტი რეალურ დროში თითქმის რეალურ სიჩქარეზე მუშავდება მხოლოდ პროცესორზე. MeloTTS შექმნილია პროდუქციული გამოყენებისთვის და მხარს უჭერს როგორც CPU, ასევე GPU- ს დასკვნას.
საუკეთესო: პროდუქციული პროგრამები, რომლებსაც სჭირდებათ სწრაფი, მრავალენოვანი TTS
უფასო
Kani TTS 2 თავისუფალი
Kani- TTS- 2 by NineNineSix არის ულტრა მსუბუქი 400M პარამეტრების მოდელი, რომელიც დაფუძნებულია Liquid AI LFM2 backbone- ზე NVIDIA NanoCodec- ით. ის მუშაობს მხოლოდ 3GB VRAM- ში და წარმოქმნის ~10 წამის საუბარს ~2 წამში A100- ზე (RTF 0. 2). მიმდინარე საზოგადოებრივი გამოშვება მოიცავს მხოლოდ ინგლისურ `kani- tts- 2- en` კონტროლ პუნქტს და არ აჩვენებს საუბრის ჩასმულ ყურსასმენს, რომელიც საჭიროა ხმათა კლონირებისთვის — გამოიყენეთ Chatterbox / IndexTTS2 / F5- TTS კლონირებისთვის, ან Kokoro / MeloTTS არაინგლისურისთვის.
საუკეთესო: ინგლისური ენის სწრაფი შექმნა დაბალი VRAM-ის მქონე აპარატურაზე, სწრაფი წინასწარ ნახვა
უფასო
OuteTTS თავისუფალი
OuteTTS ზრდის დიდი ენის მოდელს ტექსტიდან საუბრის შესაძლებლობებით, მაგრამ ქმნის ორიგინალურ არქიტექტურას. ის მხარს უჭერს მრავალ უკანელებს, მათ შორის llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM და ბრაუზერის დასკვნას Transformers.js-ის საშუალებით. აქვს ნულოვანი გასროლის ხმათა კლონირება JSON-ის სახით შენახული საუბრის პროფილების საშუალებით.
საუკეთესო: Edge განთავსება, ბრაუზერის დაფუძნებული TTS, დაბალი რესურსების გარემო
უფასო
Pocket TTS თავისუფალი
Pocket TTS Kyutai- ს მიერ (Moshi- ს შემქმნელები) არის კომპაქტური 100M პარამეტრის ტექსტიდან საუბრის მოდელი, რომელიც ძლიერია თავისი წონის მიხედვით. ის ეფექტურად მუშაობს CPU- ზე, უჭერს მხარს ნულოვანი გასროლის ხმათა კლონირებას ერთი აუდიოს ნიმუშიდან და წარმოქმნის ბუნებრივად ჟღერებულ საუბარს. პატარა მოდელის ზომა იდეალურია საზღვაო განლაგებისთვის და დაბალი რესურსების მქონე გარემოებისთვის.
საუკეთესო: ადვილი განთავსება, მხოლოდ პროცესორით მუშაობა, სწრაფი ხმის კლონირება
უფასო
Kitten TTS თავისუფალი
Kitten TTS by KittenML არის ულტრა მსუბუქი ტექსტიდან საუბრის მოდელები, რომლებიც აგებულია ONNX- ზე. ვარიანტებით 15M- დან 80M- მდე პარამეტრებით (25- 80 MB დისკზე), ის უზრუნველყოფს მაღალი ხარისხის საუბრის სინთეზს პროცესორზე GPU- ს გარეშე. 8 ჩაშენებული ხმა, საუბრის სიჩქარის რეგულირება და ჩაშენებული ტექსტის წინასწარ დამუშავება რიცხვებისთვის, ვალუტებისთვის და ერთეულებისთვის. იდეალურია საზღვაო განლაგებისთვის და დაბალი ლოდინის პროგრამებისთვის. Name
საუკეთესო: სწრაფი, მსუბუქი TTS, საზღვრის განთავსება, დაბალი ლოდინის პროგრამებიName
უფასო
Ming-Omni TTS თავისუფალი
Ming- omni- tts- 0. 5B by inclusionAI არის კომპაქტური ომნი- მოდალის საუბრის მოდელი, რომელიც აგებულია BailingMM- ის თხელი ბაზაზე Patch- by- Patch- ის აუდიოდეკოდერთან შედარებით. 44. 1kHz გამონატანს აძლევს (CD- ს ხარისხის ახლოს), მხარს უჭერს ნულოვანი შოტის ხმათა კლონირებას 3+ წამიანი რეფერენტიდან და შეიცავს ემოციების / დიალექტის / BGM- ის კონტროლს JSON ინსტრუქციების საშუალებით. შესანიშნავი სტაბილურობა — 0. 83% WER ჩინურ ბენჩმარკებზე.
საუკეთესო: ჟთლნჲ ოპთჟრჲწნ ეგა£ჱვლვნ ნვდჲგთჲრ ოპვოჲეაგაŒვ, ჟვმჲნთ£ა ჟჲ ჟვმვ£ჟრგვნთ ჟლსჳ, კთრა£ჟკთ ჟჲეპზთნა ნა ჲეგჲენთრვ კნთდთ.
უფასო
MOSS-TTS Nano თავისუფალი
MOSS-TTS-Nano-100M არის MOSS-TTS ოჯახის OpenMOSS-ის კომპაქტური 100M-პარამეტრის ვარიანტი, რომელიც იზიარებს დროის გადამცვლელის არქიტექტურას. 8B მოდელის მაქსიმალურ ხარისხს ~80x მცირე წონასთან და რადიკალურად ნაკლებ VRAM-თან ცვლის, რაც მას უკეთესად ქმნის თავისუფალი დონის და მაღალი გამტარობის განლაგებებისთვის. იგივე 20 ენის არეალი.
საუკეთესო: თავისუფალი დონის TTS, მაღალი მოცულობის წარმოება, დაბალი ლოდინის ინტერაქტიული გამოყენება
უფასო
Bark სტანდარტული
ტრანსფორმატორზე დაფუძნებული ტექსტი-აუდიო მოდელი, რომელიც ქმნის რეალისტურ საუბარს, მუსიკას და ხმაურიან ეფექტებს.
პროგრამისტი: Suno · ლიცენზია: MIT
ჲოთრაი.
Bark Small სტანდარტული
Bark- ის მსუბუქი ვერსია სწრაფი დასკვნით და მცირე მეხსიერების გამოყენებით. Name
პროგრამისტი: Suno · ლიცენზია: MIT
ჲოთრაი.
CosyVoice 2 სტანდარტული
Alibaba-ს მასშტაბური სტრიმინგი TTS ადამიანის-პარიტეტის ბუნებრივობით და ახლოს ნულოვანი ლოდინით.
პროგრამისტი: Alibaba (Tongyi Lab) · ლიცენზია: Apache 2.0
ჲოთრაი.
Dia TTS სტანდარტული
Multi-სიმღერალი დიალოგის გენერაციის მოდელი, რომელიც ქმნის ბუნებრივ საუბარს საუბრის დროს.
პროგრამისტი: Nari Labs · ლიცენზია: Apache 2.0
ჲოთრაი.
Parler TTS სტანდარტული
ოპთკაზთ დლაჟა კჲ£ ჟაკაქ ნა ბთჲლჲზთფვნ ჱბჲპ თ ოაპლვპ ვ დჲ ჟჲჱეაევ ჟჲგპქვნთჲრ დლაჟ.
პროგრამისტი: Hugging Face · ლიცენზია: Apache 2.0
ჲოთრაი.
Indic Parler TTS სტანდარტული
8+ ინდოეთის ენის მაღალი ხარისხის საუბარი ბუნებრივი ენის ხმოვანი კონტროლით.
პროგრამისტი: AI4Bharat · ლიცენზია: Apache 2.0
ჲოთრაი.
KhanomTan TTS სტანდარტული
1996 წელს ინგლისურენოვანი ფილმი „The First Man“ გამოვიდა, სადაც ლედი გაგას როლი შეასრულა.
პროგრამისტი: Wannaphong Phatthiyaphaibun · ლიცენზია: Apache 2.0
ჲოთრაი.
IndexTTS-2 სტანდარტული
ნვპჲ-ჟრპვლკა ჟ ჟთლვნ ვმჲუთჲნალვნ კჲნრპჲლ თ გთჟჲკა თჱპაჱნჲჟრ.
პროგრამისტი: Index Team · ლიცენზია: Bilibili Model License
ჲოთრაი.
Spark TTS სტანდარტული
TTS-ის ხმის კლონირება კონტროლირებადი ემოციებითა და საუბრის სტილითა და მითითებებით.
პროგრამისტი: SparkAudio · ლიცენზია: CC BY-NC-SA 4.0
ჲოთრაი.
GPT-SoVITS სტანდარტული
ნწკჲლკჲ ჟნთმკთ ჱა დლაჟჲგჲ კლჲნთპანვ ნა ჟთლთკჲნჲგთ ოპთვმაფთ, კჲთრჲ ოპვგყპქგარ გჟთფკთ დლაჟჲგთ ჟყჲბღვნთწ ჟამჲ ჲრ 5 ჟვკსნეთ ჱგსკ.
პროგრამისტი: RVC-Boss · ლიცენზია: MIT
ჲოთრაი.
Orpheus სტანდარტული
ჟვმვ£ჟრგჲრჲ ჟთ ჟვ ჲბსფთლჲ ნა 100 000 ფაჟა დჲგჲპვნთ ეანჲგთ.
პროგრამისტი: Canopy Labs · ლიცენზია: Llama 3.2 Community
ჲოთრაი.
Qwen3 TTS სტანდარტული
Alibaba-ს მრავალენოვანი TTS წინასწარ განსაზღვრული ხმებით და ხმათა დიზაინით ტექსტიდან.
პროგრამისტი: Alibaba (Qwen) · ლიცენზია: Apache 2.0
ჲოთრაი.
VieNeu-TTS-v2 სტანდარტული
ვიეტნამური + ინგლისური კოდის გადართვა TTS 7 წინასწარ განსაზღვრული ხმა და ნულოვანი ხმა კლონირება. მხოლოდ CPU, GPU არ არის საჭირო.
პროგრამისტი: Phạm Nguyễn Ngọc Bảo · ლიცენზია: Apache 2.0
ჲოთრაი.
Chatterbox Turbo სტანდარტული
2000 წელს ფილმმა მიიღო ოქროს მედალი ოსკარზე, ოსკარის 200-ე დაჯილდოების ცერემონიალზე.
პროგრამისტი: Resemble AI · ლიცენზია: MIT
ჲოთრაი.
VoxCPM სტანდარტული
2001 წლის აღწერის მონაცემებით სოფელში ცხოვრობს 441 ადამიანი. ↑ Численность населения по населённым пунктам Республики Башкортостан
პროგრამისტი: OpenBMB · ლიცენზია: Apache 2.0
ჲოთრაი.
VibeVoice სტანდარტული
Microsoft-ის მოდელი ხანგრძლივი ფორმის multi-speaker შინაარსისთვის, როგორიცაა podcasts და audiobooks.
პროგრამისტი: Microsoft · ლიცენზია: MIT
ჲოთრაი.
CosyVoice3 სტანდარტული
ჟლვეგაღჲ ოჲკჲლვნთვ მნჲდჲ£ჱბვნჲ TTS ჟჲ ბთ-ჟრპთმთნდ, ვმჲუთჲნალვნ კჲნრპჲლ თ ნვდჲგჲ ნვჲბგყპჱანჲ დლაჟჲგჲ კლჲნთპაŒვ.
პროგრამისტი: Alibaba (FunAudioLLM) · ლიცენზია: Apache 2.0
ჲოთრაი.
NAMAA Saudi TTS სტანდარტული
პირველი ღია საუდის არაბეთის TTS. საუდის არაბეთის დიალექტი Chatterbox- ის ხარისხის ხმათა კლონირებასთან ერთად.
პროგრამისტი: NAMAA Space · ლიცენზია: MIT
ჲოთრაი.
Darwin TTS სტანდარტული
Qwen3-1.7B-ის მოდელი Qwen3-1.7B-ის მოდელი Qwen3-1.7B-ის მოდელი Qwen3-1.7B-ის მოდელი Qwen3-1.7B-ის მოდელი Qwen3-1.7B-ის მოდელი
პროგრამისტი: FINAL-Bench · ლიცენზია: Apache 2.0
ჲოთრაი.
MOSS-TTSD სტანდარტული
2009 წლის 12 იანვარს გამოვიდა ალბომი „The Best of The Beatles“, რომელიც შეიცავს 50 საუკეთესო სიმღერას და 60 ვიდეოკლიპს.
პროგრამისტი: OpenMOSS · ლიცენზია: Apache 2.0
ჲოთრაი.
CosyVoice 2
Alibaba-ს მასშტაბური სტრიმინგი TTS ადამიანის-პარიტეტის ბუნებრივობით და ახლოს ნულოვანი ლოდინით.
ენა: en, zh, ja, ko, fr, de, it, es
ხმა
Spark TTS
TTS-ის ხმის კლონირება კონტროლირებადი ემოციებითა და საუბრის სტილითა და მითითებებით.
ენა: en, zh
ხმა
GPT-SoVITS
ნწკჲლკჲ ჟნთმკთ ჱა დლაჟჲგჲ კლჲნთპანვ ნა ჟთლთკჲნჲგთ ოპთვმაფთ, კჲთრჲ ოპვგყპქგარ გჟთფკთ დლაჟჲგთ ჟყჲბღვნთწ ჟამჲ ჲრ 5 ჟვკსნეთ ჱგსკ.
ენა: en, zh, ja, ko
ხმა
Tortoise TTS
Multi-voice text-to-speech-ი, რომელიც ფოკუსირებულია ხარისხზე ავტორეგრესული არქიტექტურის გამოყენებით.
ენა: en
ხმა
OpenVoice
მყისიერი ხმის კლონირება სტილის, ემოციისა და აქცენტის კონტროლით.
ენა: en, zh, ja, ko, fr, es
ხმა
VieNeu-TTS-v2
ვიეტნამური + ინგლისური კოდის გადართვა TTS 7 წინასწარ განსაზღვრული ხმა და ნულოვანი ხმა კლონირება. მხოლოდ CPU, GPU არ არის საჭირო.
ენა: vi, en
ხმა
Chatterbox Turbo
2000 წელს ფილმმა მიიღო ოქროს მედალი ოსკარზე, ოსკარის 200-ე დაჯილდოების ცერემონიალზე.
ენა: en
ხმა
VoxCPM
2001 წლის აღწერის მონაცემებით სოფელში ცხოვრობს 441 ადამიანი. ↑ Численность населения по населённым пунктам Республики Башкортостан
ენა: en, zh
ხმა
CosyVoice3
ჟლვეგაღჲ ოჲკჲლვნთვ მნჲდჲ£ჱბვნჲ TTS ჟჲ ბთ-ჟრპთმთნდ, ვმჲუთჲნალვნ კჲნრპჲლ თ ნვდჲგჲ ნვჲბგყპჱანჲ დლაჟჲგჲ კლჲნთპაŒვ.
ენა: en, zh, ja, ko, de, es, fr, it, ru
ხმა
NAMAA Saudi TTS
პირველი ღია საუდის არაბეთის TTS. საუდის არაბეთის დიალექტი Chatterbox- ის ხარისხის ხმათა კლონირებასთან ერთად.
ენა: ar
ხმა
Darwin TTS
Qwen3-1.7B-ის მოდელი Qwen3-1.7B-ის მოდელი Qwen3-1.7B-ის მოდელი Qwen3-1.7B-ის მოდელი Qwen3-1.7B-ის მოდელი Qwen3-1.7B-ის მოდელი
ენა: en, ko, ja, zh
ხმა
MOSS-TTSD
2009 წლის 12 იანვარს გამოვიდა ალბომი „The Best of The Beatles“, რომელიც შეიცავს 50 საუკეთესო სიმღერას და 60 ვიდეოკლიპს.
ენა: en, zh
ხმა
Ming-Omni TTS
1950 წელს სოფელში გაიხსნა სოფლის მეურნეობის სასწავლებელი. სოფელში ცხოვრობს 441 ადამიანი. ↑ Численность населения по населённым пунктам Республики Башкортостан
ენა: en, zh
ხმა
MOSS-TTS Nano
100 მლნ აშშ დოლარი. 100 მლნ აშშ დოლარი — 2014 წლის იანვრის მონაცემებით, აშშ-ის ეროვნული ბანკის ოფიციალური ნომინალი.
ენა: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
ხმაპროგრამისტების API
OpenAI- სთან თავსებადი REST API. ერთი დასასრული, 22+ მოდელი. რეალურ დროში პროგრამების მხარდაჭერა.
- OpenAI- სთან თავსებადი ფორმატი
- რეალურ დროში TTS-ის გადაცემა პროგრამებისთვის
- დიდი დავალებებიName
- შეტყობინებები
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
მარტივი, გამჭვირვალე ფასი
ჱაოჲფგამვ ჟგჲბჲენჲ.
თავისუფალი
15,000 სიმბოლო + 1,500/დღე
- 7 თავისუფალი მოდელი, მათ შორის კოკორო
- 5000 სიმბოლო ერთ თაობაში
- API წვდომა შედის
პროფესიონალი
2000 კრედიტი/თვე
- ყველაფერი დამწყებთათვის
- API წვდომა
- მიმდინარე პროცესი
ბიზნესი
10,000 კრედიტი/თვე
- გჟთფკჲ ვ ოპჲტვჟთჲნალნჲ
- მასობრივი API
- პრიორიტეტის რიგი
ხშირად დასმული კითხვები
ჲბპარნარა ჟთ ჲბაგვჟრ ნთ ოჲმადა ეა ჟოპაგთმ ოპჲბლვმთრვ.
AI ხმა დღესვე დაიწყეთ
TTS.ai-ის გამოყენებით შექმნილთა, განვითარებლებისა და ბიზნესების გაერთიანება