טקסט אל דיבור

המרת טקסט לנאום צליל טבעי עם מודלים AI קוד פתוח. חינם לשימוש, אין צורך בחשבון.

הרשמה חופשית

אין לנו קולות TTS בשפה שלך עדיין עזור לנו להוסיף את שלך! מכור את קולך

0/500 תווים

תחתמי. עבור 5,000 מגבלה של תווים

מצב SSML (Synthesis Speech for fine control)

לעטוף את הטקסט שלך בתגי SSML לשליטה מדויקת:

<speak><prosody rate="slow">Slow speech</prosody></speak>

רגש / תוויות סגנון

הוסף סמני רגש כדי להשפיע על המשלוח (תמיכה לדוגמה משתנה):

מילון הגייה

הגדר הגייה מותאמת אישית (מילה = הגייה):

הגשה 0

-12 +12

AI Model

קול

שפה

תבנית פלט

מהירות 1.0x

0.5x 2.0x

חינם עם פייפר, VITS, Melotts

הקול שנוצר יופיע כאן. בחר דגם, הזן טקסט, ולחץ על יצירתו.

פרטי דגם

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

מפתח:	ByteDance
רישיון:	Apache 2.0
מהירות	Slow
איכות:
שפות	2 שפות
VRAM	8GB
שיכפול קול	תמיכה

מאפיינים:

Voice cloning Adjustable similarity Cross-lingual

הטוב ביותר עבור:: High-fidelity voice cloning

עצות לתוצאות טובות יותר

השתמש בפיסוק הולם עבור הפסקות טבעיות ואינטגנציה
לאיית מספרים וקיצורים להגייה ברורה יותר
הוסף פסיקים כדי ליצור הפסקות קצרות בין הביטויים
השתמש באליפסה (...) להפוגות דרמטיות ארוכות יותר
נסה Kokoro או Cosy Voice 2 לתוצאות הטבעיות ביותר
השתמש בדיה עבור דו־ שיח רב־ רמקולים ותוכן פודקאסט

שימוש באופי

Tier	עלות ל-1K chars
חופשי	0 נקודות זכות (ללא הגבלה)
רגיל	2 נקודות זכות / 15K chars
פרמיום	4 נקודות זכות / 15K chars

קבל תווים נוספים

כיצד טקסט ה ־ AI לנאום עובד

ליצור קריינות באיכות מקצועית בשלושה שלבים פשוטים, אין צורך בידע טכני.

שלב 1

הכנס את הטקסט שלך

סוג, הדבק או העלה את הטקסט שברצונך להמיר לדיבור. תומכים ב ־ 5,000 תווים לכל דור עבור משתמשים מחוברים. השתמש בטקסט רגיל או הוסף תוויות SSML לשליטה מתקדמת על הגייה, הפסקות והדגשה.

שלב 2

בחר & קול דגם

בחר בין 20 למודלים של AI ל- 2.0x, ובחר את תבנית הפלט המועדפת עליך (MP3, WAV, OGG, או FLAC).

שלב 3

יצירת & הורדה

לחץ צור והשמע שלך מוכן בשניות. תצוגה מקדימה עם נגן מובנה, הורדה בפורמט הנבחר שלך, או העתק קישור בר-שיתוף. השתמש ב־ API לעיבוד אצווה ואינטגרציה לתוך זרם העבודה שלך.

טקסט לדיבור השתמש במקרים

AI מופעל טקסט לדיבור משנה איך אנשים יוצרים, צורכים, ואינטראקציה עם תוכן שמע על פני עשרות תעשיות.

ספרי שמע

המרת ספרים שלמים לספרי שמע שנשמעים טבעיים עם הקריינות באיכות הסטודיו. תמיכה רב־ רמקולית עם דיה עבור דו־ שיח אופי.

קריינות וידאו

צור קריינות מקצועיות עבור YouTube, TikTok, Instagram Reels, ושורטים. 100+ קולות או שיבוט משלך.

פוד־ קסטים

צור פרקים של פודקאסט מתסריטים עם קולות בינה מלאכותית מרובים, השתמש בדיה לשיחות טבעיות של שני רמקולים.

משחק

AI פועל עבור משחקים עצמאיים, רומנים ויזואליים, ודיון אינטראקטיבי. דו- שיח NPC, קולות קיצוץ, 30+ שפות.

E- Learning

המרת חומרי קורסים, הרצאות ואימוני תוכן לאודיו. תמיכה רב-לשונית בפלטפורמות גלובליות.

נגישות

צור אתרי אינטרנט, מסמכים ואפליקציות נגישות. אינטגרציה של קוראי מסך והפיכת מאמר לaudio.

IVR & Phone Systems

מערכות IVR כוח, תפריטי טלפון, ושירות לקוחות עם קולות AI טבעיים.

מדיה חברתית

קריינות TikTok, Reels Instagram, Twitter / X פרשנות, YouTube מכנסיים קצרים. דור מהיר עם מודלים בחינם.

זרימה

התראות TWitch TTS, צ'אט-to-קול, AI שיתוף מארחים, וBots דיסקורד.

שיווק

קריינות מודעות, קטעי וידאו מסבירים, הדגמות מוצר ומצגות מכירות.

דיבוב ומיקום

תרגם ו dub וידאו לתוך 30+ שפות עם AI תואם קול. אוטומטי מרשם וזיהוי רמקול.

מדיטציה ובריאות

מדיטציה מודרכת, סיפורי שינה, תרגילי נשימה, והצהרות עם קולות רגועים ומרגיעים של בינה מלאכותית.

הצג את כל המקרים והכלים

כל הטקסט למודלי דיבור

מפרט מפורט לכל מודל AI זמין על TTS.ai. השווה איכות, מהירות, תמיכה בשפה ומאפיינים כדי למצוא את המודל המושלם עבור הפרויקט שלך.

Kokoro

Free

קוקורו הוא מודל של 82 מיליון פרמטרים של טקסט-to-speech שפוגשים הרבה מעל מעמד המשקל שלו. למרות גודלו הזעיר, הוא מייצר דיבור טבעי ומבטא להפליא. קוקורו תומך במספר שפות כולל אנגלית, יפנית, סינית וקוריאנית עם מגוון רב של קולות אקספרסיביים. הוא פועל במהירות רבה מאוד מהר יותר מ- 100x בזמן אמת על GPU.

מפתח::
Hexgrad

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

VRAM:
1.5GB

שיכפול קול:
לא.

עלות ל-1K chars:
חופשי

פרמטרים 82M Ultra-מהיר קולות מביעים רב לשונית תמיכה בזרימה

הטוב ביותר עבור:: TTS באיכות גבוהה עם השהיה מינימלית, יישומי הזרמה

נסה Kokoro

Piper

Free

פייפר היא מנוע טקסט לדיבור קל שפותחה על ידי Rhaspy המשתמש ב- VITS ובארכיטקטורות של Larynx. היא פועלת באופן מלא על מעבד, מה שהופך אותו לאידיאלי למכשירי קצה, אוטומציה ביתית, ויישומים הדורשים TTS מקוון. עם יותר מ-100 קולות לאורך 30+ שפות, פייפר מעבירה נאום צליל טבעי במהירויות בזמן אמת אפילו על פטל פי 4.

מפתח::
Rhasspy

רישיון::
MIT

מהירות:
Fast

איכות::

שפות:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

שיכפול קול:
לא.

עלות ל-1K chars:
חופשי

ידידותי למעבד לא מקוון מסוגל 100+ קולות 30 שפות תמיכה ב־ SSML

הטוב ביותר עבור:: תצוגה מקדימה מהירה, נגישות ויישומים מוטבעים

נסה Piper

VITS

Free

VITS (Variational Inference with adversarial learning for end-to-end text to-Speech) היא שיטה מקבילה של TTS שיוצרת קול טבעי יותר מאשר מודלים עכשוויים של שני שלבים.

מפתח::
Jaehyeon Kim et al.

רישיון::
MIT

מהירות:
Fast

איכות::

שפות:
en, zh, ja, ko

VRAM:
1GB

שיכפול קול:
לא.

עלות ל-1K chars:
חופשי

סינתזה מקצה לקצה פרוסודיה טבעית סיכום מהיר רמקולים מרובים

הטוב ביותר עבור:: טקסט לדיבור כללי עם פרוסודיה טבעית

נסה VITS

MeloTTS

Free

Melotts by My Shell.ai היא ספריית TTS רב-לשונית התומכת באנגלית (באנגלית: American, British, Indian, Australian), ספרדית, סינית, יפנית וקוריאנית.

מפתח::
MyShell.ai

רישיון::
MIT

מהירות:
Fast

איכות::

שפות:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

שיכפול קול:
לא.

עלות ל-1K chars:
חופשי

מעבד אופטימלי רב לשונית מבטאים מרובים מוכן להפקה חבישה נמוכה

הטוב ביותר עבור:: יישומי הפקה צורך מהיר, רב לשוני TTS

נסה MeloTTS

Bark

Standard

Bark by Suno הוא מודל של טקסט-audio המבוסס על שנאי שיכול ליצור דיבור ריאליסטי מאוד, רב לשוני כמו גם קול אחר כמו מוזיקה, רעש רקע והשפעות קול. הוא יכול לייצר תקשורת לא-מילולית כמו צחוק, אנחות ובכי. נביחה תומכת ביותר מ-100 רמקולים ו-13 שפות.

מפתח::
Suno

רישיון::
MIT

מהירות:
Slow

איכות::

שפות:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

שיכפול קול:
לא.

עלות ל-1K chars:
2x

אפקטים קוליים צוחק/ נאנח דור המוזיקה 100+ רמקולים רב לשונית

הטוב ביותר עבור:: תוכן אודיו יצירתי, ספרי שמע עם רגש, אפקטים קוליים

נסה Bark

Bark Small

Standard

Bark Small (באנגלית: Bark Small) היא גירסה מזוקקת של מודל הבארק המסחרת באיכות שמע מסוימת עבור מהירויות מהירות משמעותית ודרישות זיכרון נמוכות יותר, והיא שומרת על היכולת של ברק ליצור דיבור עם רגשות, צחוק ושפות מרובות.

מפתח::
Suno

רישיון::
MIT

מהירות:
Medium

איכות::

שפות:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

שיכפול קול:
לא.

עלות ל-1K chars:
2x

משקל קל מהר יותר מנביחה מלאה. דיבור רגשי רב לשונית

הטוב ביותר עבור:: שמע יצירתי מהיר כאשר נביחות מלאות איטיות מדי

נסה Bark Small

CosyVoice 2

Standard

Cosy Voice 2 by Alibababa's Tongyi Lab Abrary accesss a finite scalear containation for synthing and supports zero-shot voice throught, cross-longual for return-time.

מפתח::
Alibaba (Tongyi Lab)

רישיון::
Apache 2.0

מהירות:
Medium

איכות::

שפות:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

זרימה שיבוט אפס-ירייה דו־ שיחיName שליטה ברגשות פערי אנוש

הטוב ביותר עבור:: יישומים בזמן אמת, הזרמת TTS, עוזרי קול

נסה CosyVoice 2

Dia TTS

Standard

Dia by Nari Labs הוא מודל של 1.6B של טקסט-to-speech שתוכנן במיוחד ליצירת דיאלוג רב-רמקולי. הוא יכול ליצור שיחות טבעיות בין שני נואמים עם שימוש הולם בטקסט-to-speech, Prosody, וביטוי רגשי.

מפתח::
Nari Labs

רישיון::
Apache 2.0

מהירות:
Medium

איכות::

שפות:
en

VRAM:
4GB

שיכפול קול:
לא.

עלות ל-1K chars:
2x

רב־ רמקולים יצירת דו־ שיח לוקח תפנית טבעית. ביטוי רגשי פרמטרים 1.6B

הטוב ביותר עבור:: פודקאסטים, דיאלוגים אודיובוק, תוכן שיחה

נסה Dia TTS

Parler TTS

Standard

Parler TTS (ראשי תיבות של Parler TTS) הוא מודל של טקסט לשפה טבעית, המשתמש בתיאורי קול כדי לשלוט בנאום שנוצר. במקום לבחור מתוך קולות מראש, אתה מתאר את הקול שאתה רוצה (לדוגמה, "קול נשי חם עם מבטא בריטי קל, מדבר לאט ובבירור") ופארלר יוצר דיבור שמתאים לתיאור זה.

מפתח::
Hugging Face

רישיון::
Apache 2.0

מהירות:
Medium

איכות::

שפות:
en

VRAM:
4GB

שיכפול קול:
לא.

עלות ל-1K chars:
2x

תיאור קול שליטה בשפה טבעית יצירת קול גמישה אין צורך בקולות שנקבעו מראש

הטוב ביותר עבור:: יישומים יצירתיים שבהם אתה זקוק למאפייני קול מותאמים אישית

נסה Parler TTS

GLM-TTS

Standard

GLM-TS על ידי Zhipu AI היא מערכת של טקסט ל-speech הבנויה על אדריכלות ה-Llama עם התאמת זרימה. היא משיגה את שיעור השגיאה הנמוך ביותר בין דגמי TTS בקוד פתוח, כלומר היא מייצרת את ההגייה המדויקת ביותר. GLM-TS תומכת באנגלית ובסינית עם שיבוט קול מ-3-10 דגימות שמע שניות.

מפתח::
Zhipu AI

רישיון::
GLM-4 License

מהירות:
Medium

איכות::

שפות:
en, zh

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

קצב השגיאה הנמוך ביותר שיבוט קולי זרימה תואמת פרוסודיה טבעית

הטוב ביותר עבור:: יישומים הדורשים דיוק בהגייה מירבית

נסה GLM-TTS

IndexTTS-2

Standard

אינדקס TTS-2 (באנגלית: IndexTS-2) היא מערכת מתקדמת של טקסט-to-speech המצטיינת בסינתזה קול אפס-shot עם בקרת רגשות עדינה.

מפתח::
Index Team

רישיון::
Bilibili Model License

מהירות:
Medium

איכות::

שפות:
en, zh

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

שליטה ברגשות אפס-ירייה וקטורי רגש נאום אקספרסיבי שליטה בדגמים דקיםweather forecast

הטוב ביותר עבור:: תוכן רגשי, ספרי שמע, עוזרים וירטואליים

נסה IndexTTS-2

Spark TTS

Standard

Spark TTS by SparkAudio (ראשי תיבות של SparkAudio) הוא מודל של טקסט לנאום המשלב שיבוט קולי עם רגש בר שליטה וסגנון דיבור. באמצעות 5 שניות של שמע הפניה, הוא יכול לשבט קול ואז ליצור דיבור עם רגשות שונים, מהירות וסגנונות תוך שמירה על זהות הקול המשובטת.

מפתח::
SparkAudio

רישיון::
CC BY-NC-SA 4.0

מהירות:
Medium

איכות::

שפות:
en, zh

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

שיבוט קולי שליטה ברגשות בקרת סגנון מבוסס מראש שיבוט של 5 שניות

הטוב ביותר עבור:: יצירת תוכן עם קולות משובטים ושליטה רגשית

נסה Spark TTS

GPT-SoVITS

Standard

GPT-SOVITS משלבת דוגמנות שפה בסגנון GPT עם SOVITS (ההסכמה קולית בשירה באמצעות תרגום וסינתזה) לשיבוט קולי רב עוצמה. עם פחות מ-5 שניות של הפניה אודיו, היא יכולה לשכפל במדויק קול וליצור נאום חדש תוך שימור המאפיינים הייחודיים של הדובר. היא מצטיינת גם בשיחת קול ושירה.

מפתח::
RVC-Boss

רישיון::
MIT

מהירות:
Slow

איכות::

שפות:
en, zh, ja, ko

VRAM:
6GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

שיבוט של 5 שניות קול שר למידה מועטה נאמנות גבוהה דו־ שיחיName

הטוב ביותר עבור:: שיבוט קול, סינתזה שירה, שכפול קול יוצר תוכן

נסה GPT-SoVITS

Orpheus

Standard

אורפיאוס הוא מודל גדול של טקסט לנאום אשר משיג ביטוי רגשי ברמה אנושית. מאולף ביותר מ-100,000 שעות של נתוני דיבור שונים, הוא מצטיין ביצירת דיבור עם רגשות טבעיים, הדגשה, וסגנונות דיבור.

מפתח::
Canopy Labs

רישיון::
Llama 3.2 Community

מהירות:
Medium

איכות::

שפות:
en

VRAM:
4GB

שיכפול קול:
לא.

עלות ל-1K chars:
2x

רגש ברמה אנושית. מאה אלף שעות אימונים. הדגשה טבעית נאום אקספרסיבי

הטוב ביותר עבור:: דיבור רגשי באיכות גבוהה, ספרי שמע, משחק קול

נסה Orpheus

Chatterbox

Premium

Chatterbox על ידי Rescomple AI הוא מודל שכפול קולי חדיש ביותר. הוא יכול לשכפל כל קול מדגימת שמע אחת עם דיוק מדהים, לכידת הטון הרגשי של הדיבור, אך גם את סגנון הדיבור ואת הניואנסים הרגשיים. צ'אטרבוקס גם מכיל בקרת רגשות עדינה, המאפשרת לך להתאים את הטון הרגשי של הדיבור באופן עצמאי מהזהות הקולית.

מפתח::
Resemble AI

רישיון::
MIT

מהירות:
Medium

איכות::

שפות:
en

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
4x

שיבוט אפס-ירייה שליטה ברגשות נאמנות גבוהה העברת סגנון שכפול דוגמיות בודד

הטוב ביותר עבור:: שיבוט קול מקצועי עם שליטה רגשית, יצירת תוכן

נסה Chatterbox

Tortoise TTS

Premium

Tortoise TTS (ראשי תיבות של TOTS) היא ארכיטקטורה אוטוגרסיבית של טקסט-to-speech של טקסט קולי המעדיפה את איכות האודיו על פני מהירות.

מפתח::
James Betker

רישיון::
Apache 2.0

מהירות:
Slow

איכות::

שפות:
en

VRAM:
8GB

שיכפול קול:
כן.

עלות ל-1K chars:
4x

האיכות הגבוהה ביותר רב־ קול ארכיטקטורת דאל-אי שיבוט קולי חזרה אוטומטית

הטוב ביותר עבור:: ספרי שמע, תוכן פרמיה, יישומים איכותיים

נסה Tortoise TTS

StyleTTS 2

Premium

סגנון TTS 2 משיג את הסינתזה של רמת TTS על ידי שילוב של דיפוזיה בסגנון adversarial translation with adversational adverseal speak modules. הוא יוצר את הנאום הטבעי ביותר בין מודלים של דובר יחיד, מתחרה בהקלטות אנושיות. סגנון TTS 2 משתמש בעיצוב מבוסס דיפוזיה כדי ללכוד את הטווח המלא של וריאציה של דיבור אנושי.

מפתח::
Columbia University

רישיון::
MIT

מהירות:
Medium

איכות::

שפות:
en

VRAM:
4GB

שיכפול קול:
לא.

עלות ל-1K chars:
4x

רמה אנושית דיפוזיה סגנון הכשרה יריבותית וריאציה טבעית נאמנות גבוהה

הטוב ביותר עבור:: סינתזה של רמקול יחיד באיכות הסטודיו, הקריינות מקצועית

נסה StyleTTS 2

OpenVoice

Premium

Open Voice by My Shell.ai מאפשר שיבוט קול מיידי עם שליטה גרעינית על סגנון קול, רגש, מבטא, קצב, הפסקות, ואינטציה. הוא יכול לשבט קול מקליפ אודיו קצר וליצור דיבור בשפות מרובות תוך שמירה על זהות הדובר. Open Voice גם מתפקד כממיר קול, המאפשר שינוי קול בזמן אמת.

מפתח::
MyShell.ai / MIT

רישיון::
MIT

מהירות:
Medium

איכות::

שפות:
en, zh, ja, ko, fr, de, es, it

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
4x

שיבוט מיידי המרה קולית שליטה ברגשות שליטה במבטא רב לשונית

הטוב ביותר עבור:: שיבוט קולי עם שליטה טובה בסטייל, המרה קולית

נסה OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS הוא מודל של 1.7 מיליארד פרמטרים של טקסט-to-speech מצוות קוואן של עליבאבא. הוא תומך בשלושה מצבים: קובע קולות עם שליטה ברגשות (9 נואמים), שיבוט קול מ-3 שניות בלבד של שמע, ומצב עיצוב קול ייחודי שבו אתה מתאר את הקול שאתה רוצה בשפה טבעית. הוא מכסה 10 שפות עם הבעה גבוהה ופרוסודיה טבעית.

מפתח::
Alibaba (Qwen)

רישיון::
Apache 2.0

מהירות:
Medium

איכות::

שפות:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

שיבוט קולי 9 קולות שנקבעו מראש עיצוב קול מטקסט שליטה ברגשות 10 שפות

הטוב ביותר עבור:: תוכן רב לשוני עם שיבוט קול או עיצוב קול מותאם אישית

נסה Qwen3 TTS

Sesame CSM

Premium

שומשום (באנגלית: Sesame CSM) הוא דגם של מיליארד פרמטרים המיועדים ליצירת דיבור שיחתי, המדגמים את התבניות הטבעיות של השיחה האנושית, הכוללות עיתוי חוזר, תגובות רקע, תגובות רגשיות וזרימת שיחה.

מפתח::
Sesame

רישיון::
Apache 2.0

מהירות:
Slow

איכות::

שפות:
en

VRAM:
8GB

שיכפול קול:
לא.

עלות ל-1K chars:
4x

שיחה תזמון טבעי Turn-taking ערוץ BackchannelComment פרמטרים 1B

הטוב ביותר עבור:: עוזרי AI, צ'אטבוטים, יישומי בינה מלאכותית שיחה

נסה Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Torbody by Rescomple AI הוא שדרוג פרמטר 350M לצ'אטרבוקס (Chatterbox), המספק מהירות של עד 6X בזמן אמת עם תת-מ"מ. הוא תומך בתגיות פרלינגואיסטיות כמו (Laugh), [צ'אקל] ישירות בטקסט.

מפתח::
Resemble AI

רישיון::
MIT

מהירות:
Fast

איכות::

שפות:
en

VRAM:
2GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

Sub-200ms חבישהName תוויות פרלינגואיסטיות 6X בזמן אמת שיבוט קולי סימני מים

הטוב ביותר עבור:: סוכני קול בזמן אמת, ביטוי דיבור עם צלילים טבעיים

נסה Chatterbox Turbo

Zonos

Standard

Zonos v0.1 by Zyphra הוא מודל פרמטר 1.6B המכיל בקרת רגשות משוכללת עם מחוונים לאושר, כעס, עצבות, פחד והפתעה.

מפתח::
Zyphra

רישיון::
Apache 2.0

מהירות:
Medium

איכות::

שפות:
en, ja, zh, fr, de

VRAM:
6GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

שליטה ברגשות שיבוט קולי אדריכלות SSM רב לשונית בקרת Pitch/ rate

הטוב ביותר עבור:: דיבור אקספרסיבי עם שליטה ברגשות, אולפן עיצוב קול

נסה Zonos

Dia 2

Standard

Dia2 על ידי Nari Labs הוא שדרוג ראשוני ל-Dia, זמין ב- 1B ו-2B פרמטר וריאציות. הוא מתחיל לסנתז אודיו מהסימונים הראשונים, מה שהופך אותו לאידיאלי עבור סוכני קול בזמן אמת וצינורות דיבור-to-speech. תומך בדיאלוג רב-רמקולי עם [S1] ו-S2] תוויות פארלינגואיסטיות כמו (צוחק), (שיעול).

מפתח::
Nari Labs

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות:
en

VRAM:
4GB

שיכפול קול:
לא.

עלות ל-1K chars:
2x

פלט הזרימה רב־ רמקולים חבישה נמוכה רמזים פאראלינגיסטיםName עד 2 דקות תפוקה

הטוב ביותר עבור:: סוכני קול בזמן אמת, דור דיאלוג, יישומים הזרמת

נסה Dia 2

VoxCPM

Standard

VoxCPM 1.5 על ידי OpenBMB הוא מודל tTS נטול אסימונים חדשני הפועל בחלל ולא בפרוטרוט אסימונים שונים. הוא מייצר פרופיל גבוה של 44.1kHz אודיו, תומך בשיבוט קול אפס-ירייה מ-3-10 שניות, ושומר על עקביות על פני פסקאות. שיבוט צלב-שפה מאפשר לך ליישם קול אנגלי לדיבור סיני ולהיפך.

מפתח::
OpenBMB

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות:
en, zh

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

אודיו 44.1kHz ללא טוקן שכפול דו-לשוני הודעה@ title: window כוונון לורה עדין

הטוב ביותר עבור:: אודיו high-fidelity, ספרי שמע, תוכן ארוך-צורה עם עקביות קול

נסה VoxCPM

OuteTTS

Free

OutetTS מרחיב מודלים שפה גדולים עם יכולות טקסט-to-speech תוך שימור הארכיטקטורה המקורית. היא תומכת בכמה כיוונים כולל לאמה.cpp (CPU/GPU), מחבקת את רובוטריקי הפנים, ExLamaV2, VLM, ואפילו דפדפן הקלט באמצעות רובוטריקים.

מפתח::
OuteAI

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות:
en

VRAM:
2GB

שיכפול קול:
כן.

עלות ל-1K chars:
חופשי

הגדרות מעבד הגדרות דפדפן שיבוט קולי Name פרופילים של דובר

הטוב ביותר עבור:: פריסת קצה, TTS מבוסס דפדפן, סביבות מיקור נמוך

נסה OuteTTS

TADA

Standard

TADA (באנגלית: Text-Acoustic Dual Iestment) הוא מודל TTS המבטל הזיות באמצעות ארכיטקטורת יישור כפולה שנבנתה על ידי Llama 3.2, אשר זמינה ב-1B (אנגלית) ו-3B (מודליגת TTS), TADA משיגה RTF של 0.09 5X מהיר יותר מאשר מודלים מבוססי LLM.

מפתח::
Hume AI

רישיון::
MIT

מהירות:
Fast

איכות::

שפות:
en

VRAM:
5GB

שיכפול קול:
לא.

עלות ל-1K chars:
2x

אפס הזיות 5x מהיר יותר מאשר LLM TTS ביטוי רגשי הקשר שמע של 700sName יישור כפול

הטוב ביותר עבור:: דיבור נטול הזיות באיכות גבוהה, ביטוי רגשי, מסקנה מהירה.

נסה TADA

VibeVoice

Standard

Vibe Voice by Microsoft מגיע בשני גרסאות: מודל 1.5B לתכנים ארוכי-צורה (עד 90 דקות, 4 רמקולים) ודגם Realtime 0.5B להזרמה עם &200ms first loud latncy. ה-1.5B variant מצטיינים בפודקאסטים וספרי שמע עם עקביות רמקולים על מעברים ארוכים. שים לב: מיקרוסופט הסיר את קוד TTS מהמאגר ויצר אודיו כולל AI discludioers.

מפתח::
Microsoft

רישיון::
MIT

מהירות:
Fast

איכות::

שפות:
en, zh

VRAM:
4GB

שיכפול קול:
לא.

עלות ל-1K chars:
2x

רב־ רמקולים עד 90 דקות יצירת פוד־ קסט עקביות רמקול 200 מ " מ הזרימה

הטוב ביותר עבור:: פודקאסטים, ספרי שמע, תוכן רב-רמקולים ארוך-צורה

נסה VibeVoice

Pocket TTS

Free

Pocket TTS by Kyutai (באנגלית: Pocket TTS by Kyutai) הוא דגם של 100 מ' של טקסט ל-speech, אשר פונקציות רבות מעל משקלו, הוא פועל ביעילות על מעבד, תומך בשיבוט קול אפס-ירייה מדגימת אודיו בודדת, ומייצר נאום בעל צליל טבעי.

מפתח::
Kyutai

רישיון::
MIT

מהירות:
Fast

איכות::

שפות:
en, fr

VRAM:
1GB

שיכפול קול:
כן.

עלות ל-1K chars:
חופשי

פרמטרים 100M הגדרות מעבד שיבוט קולי שיבוט חד-פעמית הקצה מוכן@ title: window

הטוב ביותר עבור:: פריסת משקל קל, סביבות מעבד בלבד, שיבוט קול מהיר

נסה Pocket TTS

Kitten TTS

Free

Kitten TTS על ידי KittenML הוא מודל בעל משקל קל במיוחד של טקסט לנאום שנבנה על גבי ONNX. עם גרסאות מ-15M ל-80M פרמטרים (25-80 MB על דיסק), הוא מספק סינתזת קול באיכות גבוהה על מעבד ללא צורך במעבד GPU. Features 8 מובנה-in, מהירות דיבור מתכווננת, ועיבוד טקסט מובנה למספרים, קימורים, ויחידות.

מפתח::
KittenML

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות:
en

VRAM:
0GB

שיכפול קול:
לא.

עלות ל-1K chars:
חופשי

הגדרות מעבד בלבד פחות מ-80MB גודל המודל 8 קולות מובנים בקרת מהירות מבוסס ONNX פלט 24kHz

הטוב ביותר עבור:: TTS קל מהיר, פריסת קצה, יישומי low-Laterense

נסה Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

מפתח::
Alibaba (FunAudioLLM)

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

הטוב ביותר עבור:: Multilingual production TTS, real-time applications, voice cloning

נסה CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

מפתח::
OpenMOSS

רישיון::
Apache 2.0

מהירות:
Medium

איכות::

שפות:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

VRAM:
16GB

שיכפול קול:
כן.

עלות ל-1K chars:
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

הטוב ביותר עבור:: Audiobooks, long-form content, multilingual production

נסה MOSS-TTS

MegaTTS3

Premium

מפתח::
ByteDance

רישיון::
Apache 2.0

מהירות:
Slow

איכות::

שפות:
en, zh

VRAM:
8GB

שיכפול קול:
כן.

עלות ל-1K chars:
4x

Voice cloning Adjustable similarity Cross-lingual

הטוב ביותר עבור:: High-fidelity voice cloning

נסה MegaTTS3

Kokoro

חופשי

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

מפתח::
Hexgrad

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות: en, ja, zh, ko, fr, de, it, pt, es, hi, ru

הטוב ביותר עבור:: High-quality TTS with minimal latency, streaming applications

נסה חופשי

Piper

חופשי

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

מפתח::
Rhasspy

רישיון::
MIT

מהירות:
Fast

איכות::

שפות: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

הטוב ביותר עבור:: Quick previews, accessibility, and embedded applications

נסה חופשי

VITS

חופשי

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

מפתח::
Jaehyeon Kim et al.

רישיון::
MIT

מהירות:
Fast

איכות::

שפות: en, zh, ja, ko

הטוב ביותר עבור:: General-purpose text-to-speech with natural prosody

נסה חופשי

MeloTTS

חופשי

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

מפתח::
MyShell.ai

רישיון::
MIT

מהירות:
Fast

איכות::

שפות: en, es, fr, zh, ja, ko

הטוב ביותר עבור:: Production applications needing fast, multilingual TTS

נסה חופשי

OuteTTS

חופשי

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

מפתח::
OuteAI

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות: en

הטוב ביותר עבור:: Edge deployment, browser-based TTS, low-resource environments

נסה חופשי

Pocket TTS

חופשי

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

מפתח::
Kyutai

רישיון::
MIT

מהירות:
Fast

איכות::

שפות: en, fr

הטוב ביותר עבור:: Lightweight deployment, CPU-only environments, quick voice cloning

פרמיום

מפתח::
OpenMOSS

רישיון::
Apache 2.0

מהירות:
Medium

איכות::

שפות:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

שיכפול קול:
כן.

VRAM:
16GB

עלות ל-1K chars:
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

הטוב ביותר עבור:: Audiobooks, long-form content, multilingual production

נסה MOSS-TTS

MegaTTS3

פרמיום

מפתח::
ByteDance

רישיון::
Apache 2.0

מהירות:
Slow

איכות::

שפות:
en, zh

שיכפול קול:
כן.

VRAM:
8GB

עלות ל-1K chars:
4x

Voice cloningAdjustable similarityCross-lingual

הטוב ביותר עבור:: High-fidelity voice cloning

נסה MegaTTS3

טבלת השוואות דגם

דגם	מפתח:	Tier	מהירות	שפות	VRAM	רישיון:	נקודות זכות
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	חופשי	השתמש
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	חופשי	השתמש
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	חופשי	השתמש
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	חופשי	השתמש
Bark	Suno	Standard	Slow	13	5GB	MIT	2	השתמש
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	השתמש
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	השתמש
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	השתמש
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	השתמש
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	השתמש
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	השתמש
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	השתמש
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	השתמש
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	השתמש
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	השתמש
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	השתמש
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	השתמש
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	השתמש
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	השתמש
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	השתמש
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	השתמש
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	השתמש
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	השתמש
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	השתמש
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	חופשי	השתמש
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	השתמש
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	השתמש
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	חופשי	השתמש
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	חופשי	השתמש
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	השתמש
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	השתמש
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	השתמש

הטקסט הברור ביותר של AI לפלטפורמת הדיבור

מדוע בחר TTS.ai טקסט לדיבור?

TTS.ai מחברים יחד את המודלים הטובים ביותר של קוד פתוח בעולם, TTS.ai נותן לך גישה ל-20 מודלים ממעבדות מחקר מובילות כולל קוקי, מישל, אמפיל, NVIDIA, Suno, Hugingface, Tsinghua, ועוד.

כל מודל הוא קוד פתוח תחת MIT, Apache 2.0, או רישיונות מתירניים דומים, מבטיחים שיש לך זכויות מסחריות מלאות להשתמש באודיו שנוצר בפרוייקטים שלך. בין אם אתה צריך מהר, סינתזה קלה עבור יישומים בזמן אמת או תפוקת סטודיו איכות פרמיה לספרי או פודקאסט, TTS.ai יש המודל הנכון לכל מקרה שימוש.

דוגמניות חינם, ללא חשבון

התחל מייד עם 3 מודלים חינם של TTS: פייפר (אולטרה-מהיר, קל), VITS (סינתזה עצבית באיכות גבוהה), ו-MelotTS (תמיכה ב-multi-language). אין הרשמה, אין גבולות לדורות. מודלים חופשיים תומכים באנגלית ובשפות רבות אחרות עם פלט צליל טבעי מתאים לרוב היישומים.

עיבוד מואץ GPU

כל המודלים של TTS פועלים על GPUs ייעודי של NVIDIA עבור דור מהיר ועקבי פעמים. מודלים חופשיים יוצרים בדרך כלל אודיו תוך פחות מ-2 שניות. מודלים סטנדרטיים כמו קוקורו, Cocoro, Cosy Voice 2, וברק ממוצע 3-5 שניות. דגמים פרימיום באיכות הגבוהה ביותר, כמו טורטויז וצ'אטרבוקס, בתהליך 5-15 שניות תלוי באורך טקסט.

תמיכה ב ־ 30 שפות

יצירת דיבור בלמעלה מ-30 שפות כולל אנגלית, ספרדית, צרפתית, גרמנית, פורטוגזית, סינית, יפנית, קוריאנית, ערבית, הינדית, רוסית ועוד כמה מודלים תומכים בסינתזה בין-לשונית,

מפתח מוכן API

Integrate TTS.ai into your applications with openAI-compatible rest API. אחד endpoint for all 20+ modules. Python, JavaScript, cURL, and Go SDKs. boveing support for real-time adutions. Batch עיבוד לתוכן בקנה מידה גדול. Webhooks for async adifications. זמין על תוכניות פרו ואנטרפרייז.

שאלות ששואלים לעתים קרובות

טקסט לדיבור (באנגלית: Text to speech) היא טכנולוגיית AI הממירה טקסט לצליל טבעי של אודיו. מודלים עצביים מודרניים כמו קוקורו, צ'אטרבוקס, ו-Cosy Voice 2 משתמשים בלימוד מעמיק כדי לייצר דיבור שנשמע אנושי להפליא, עם פרוזודיה טבעית, רגש וקצב.

זה תלוי בצרכים שלך. עבור תצוגה מקדימה מהירה, השתמש בחלילן או ב־ MeloTS (חופשי, מהיר). עבור איכות גבוהה, נסה Kokoro או Cosy Voice 2 (הדור הסטנדרטי). עבור שכפול קול, השתמש ב-Chatterbox או GPT-SOVITS (Premium). עבור תוכן דו־ שיח / פודקאסט, נסה Dia TTS. לכל דגם יש כוח שונה כדי למצוא את הניסוי המתאים ביותר.

כן! TTS.ai מציע טקסט-to-speech חינם עם Kokoro, פייפר, VITS, ומודלים Melots. אין חשבון הנדרש ל-500 תווים ו-3 דורות לשעה. נרשם לחשבון חינם כדי לקבל 50 נקודות וגישה לכל המודלים.

מודלי TTS תומכים באופן קולקטיבי ב-30 שפות כולל אנגלית, ספרדית, צרפתית, גרמנית, פורטוגזית, סינית, יפנית, קוריאנית, ערבית, רוסית, הינדית ועוד רבים.

כן, ניתן להשתמש באודיו דרך TTS.ai באופן מסחרי. כל המודלים שלנו משתמשים ברישיונות קוד פתוח (MIT, Apache 2.0). בדוק רישיונות מודלים בודדים לתנאים ספציפיים. אנו ממליצים לבחון את הרישיון של המודל הספציפי בו אתה משתמש עבור הפרויקט שלך.

TTS.ai תומכות ב-MP3, WAV, OGG, ו- FLAC. MP3 היא ברירת המחדל של הניגון האינטרנטי. WAV מומלצת לעיבוד שמע נוסף. באפשרותך להמיר בין הפורמטים באמצעות כלי ממיר השמע שלנו.

השיבוט הקולי משתמש ב-AI כדי לשכפל קול ספציפי מדגם שמע קצר (בדרך כלל 5-30 שניות). העלה הקלטה ברורה של קול היעד, ומודלים כמו Chatterbox, GPT-SOVITS, או Open Voice ייצור נאום חדש בקול זה. האיכות משפרת עם קול נקי יותר, זמן רב יותר.

משתמשים חופשיים יכולים ליצור עד 500 תווים לכל בקשה. משתמשים רשומים מקבלים עד 5,000 תווים לכל בקשה. עבור טקסטים ארוכים יותר, האודיו נוצר בחתיכות ותפור יחד באופן אוטומטי. משתמשי API יכולים לעבד עד 10,000 תווים לכל בקשה.

SSML (Speech Synthesis Markup Language) תמיכה משתנה על ידי מודל. פייפר וכמה מודלים אחרים תומכים בתגיות בסיסיות של SSML להפוגות, הדגשה והיגוי. עבור מודלים ללא תמיכה מקומית של SSML, ניתן להשתמש בפיסוק טבעי והפסקות קו כדי להשפיע על הפרוסודיה.

כן, רוב המודלים תומכים בהסתגלות מהירות מ-0.5x ל-2.0x. חלק מהדגמים כמו Bark and Parler מאפשרים גם בקרת המגרש והסגנון. באפשרותך לקבוע פרמטרים מהירים בלוח ההגדרות המתקדמים או דרך פרמטר המהירות API.

כן, עיבוד אצווה זמין דרך API שלנו. באפשרותך להגיש קטעים מרובים טקסטים בשיחה אחת API או תסריט, וכל אחד יעובד ויוחזר כקבצים אודיו נפרדים. זה אידיאלי לפרקי אודיובוק, מודולים ללימוד אלקטרוני, או תסריטי דיאלוג משחק.

צור מפתח API מלוח המחוונים של החשבון שלך, ולאחר מכן שלח בקשות POST לנקודת סוף API המנוחה שלנו עם הטקסט שלך, מודל, ופרמטרים קוליים. אנו מספקים דוגמאות קוד בפיתון, JavaScript, ו cURL. ה- API הוא openAI-compatable, כך אינטגרציות קיימות לעבוד עם שינויים מינימאליים.

5.0/5 (2)

התחל להמיר טקסט לדיבור עכשיו

הצטרפו לאלפי היוצרים בעזרת TTS.ai קבל 15,000 תווים בחינם עם חשבון חדש מודלים חינם זמינים ללא הרשמה

הרשמה חופשית תצוגה של Princing

טקסט אל דיבור

אוהב את ט.ט.ס.אי?

פרטי דגם

MegaTTS3

עצות לתוצאות טובות יותר

שימוש באופי

כיצד טקסט ה ־ AI לנאום עובד

הכנס את הטקסט שלך

בחר & קול דגם

יצירת & הורדה

טקסט לדיבור השתמש במקרים

ספרי שמע

קריינות וידאו

פוד־ קסטים

משחק

E- Learning

נגישות

IVR & Phone Systems

מדיה חברתית

זרימה

שיווק

דיבוב ומיקום

מדיטציה ובריאות

כל הטקסט למודלי דיבור

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

TADA

VibeVoice