דיווח על בקשת באג / תכונה

טקסט אל דיבור

המרת טקסט לנאום צליל טבעי עם מודלים AI קוד פתוח. חינם לשימוש, אין צורך בחשבון.

הרשמה חופשית

אין לנו קולות TTS בשפה שלך עדיין עזור לנו להוסיף את שלך! מכור את קולך

0/500 תווים · נרשמים ל-5,000 דולר לדור. →

תחתמי. עבור 5,000 מגבלה של תווים

מצב SSML (Synthesis Speech for fine control)

לעטוף את הטקסט שלך בתגי SSML לשליטה מדויקת:

<speak><prosody rate="slow">Slow speech</prosody></speak>

רגש / תוויות סגנון

הוסף סמני רגש כדי להשפיע על המשלוח (תמיכה לדוגמה משתנה):

מילון הגייה

הגדר הגייה מותאמת אישית (מילה = הגייה):

הגשה 0

-12 +12

AI Model

קול

שפה

תבנית פלט

מהירות 1.0x

0.5x 2.0x

חינם עם פייפר, VITS, Melotts

הקול שנוצר יופיע כאן. בחר דגם, הזן טקסט, ולחץ על יצירתו.

פרטי דגם

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

מפתח:	KittenML
רישיון:	Apache 2.0
מהירות	Fast
איכות:
שפות	1 שפה
VRAM	0GB
שיכפול קול	לא נתמך

מאפיינים:

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

הטוב ביותר עבור:: Fast lightweight TTS, edge deployment, low-latency applications

עצות לתוצאות טובות יותר

השתמש בפיסוק הולם עבור הפסקות טבעיות ואינטגנציה
לאיית מספרים וקיצורים להגייה ברורה יותר
הוסף פסיקים כדי ליצור הפסקות קצרות בין הביטויים
השתמש באליפסה (...) להפוגות דרמטיות ארוכות יותר
נסה Kokoro או Cosy Voice 2 לתוצאות הטבעיות ביותר
השתמש בדיה עבור דו־ שיח רב־ רמקולים ותוכן פודקאסט

שימוש באופי

Tier	עלות ל-1K chars
חופשי	0 נקודות זכות (ללא הגבלה)
רגיל	2 נקודות זכות / 15K chars
פרמיום	4 נקודות זכות / 15K chars

קבל תווים נוספים

כיצד טקסט ה ־ AI לנאום עובד

ליצור קריינות באיכות מקצועית בשלושה שלבים פשוטים, אין צורך בידע טכני.

שלב 1

הכנס את הטקסט שלך

סוג, הדבק או העלה את הטקסט שברצונך להמיר לדיבור. תומכים ב ־ 5,000 תווים לכל דור עבור משתמשים מחוברים. השתמש בטקסט רגיל או הוסף תוויות SSML לשליטה מתקדמת על הגייה, הפסקות והדגשה.

שלב 2

בחר & קול דגם

בחר בין 20 למודלים של AI ל- 2.0x, ובחר את תבנית הפלט המועדפת עליך (MP3, WAV, OGG, או FLAC).

שלב 3

יצירת & הורדה

לחץ צור והשמע שלך מוכן בשניות. תצוגה מקדימה עם נגן מובנה, הורדה בפורמט הנבחר שלך, או העתק קישור בר-שיתוף. השתמש ב־ API לעיבוד אצווה ואינטגרציה לתוך זרם העבודה שלך.

טקסט לדיבור השתמש במקרים

AI מופעל טקסט לדיבור משנה איך אנשים יוצרים, צורכים, ואינטראקציה עם תוכן שמע על פני עשרות תעשיות.

ספרי שמע

המרת ספרים שלמים לספרי שמע שנשמעים טבעיים עם הקריינות באיכות הסטודיו. תמיכה רב־ רמקולית עם דיה עבור דו־ שיח אופי.

קריינות וידאו

צור קריינות מקצועיות עבור YouTube, TikTok, Instagram Reels, ושורטים. 100+ קולות או שיבוט משלך.

פוד־ קסטים

צור פרקים של פודקאסט מתסריטים עם קולות בינה מלאכותית מרובים, השתמש בדיה לשיחות טבעיות של שני רמקולים.

משחק

AI פועל עבור משחקים עצמאיים, רומנים ויזואליים, ודיון אינטראקטיבי. דו- שיח NPC, קולות קיצוץ, 30+ שפות.

E- Learning

המרת חומרי קורסים, הרצאות ואימוני תוכן לאודיו. תמיכה רב-לשונית בפלטפורמות גלובליות.

נגישות

צור אתרי אינטרנט, מסמכים ואפליקציות נגישות. אינטגרציה של קוראי מסך והפיכת מאמר לaudio.

IVR & Phone Systems

מערכות IVR כוח, תפריטי טלפון, ושירות לקוחות עם קולות AI טבעיים.

מדיה חברתית

קריינות TikTok, Reels Instagram, Twitter / X פרשנות, YouTube מכנסיים קצרים. דור מהיר עם מודלים בחינם.

זרימה

התראות TWitch TTS, צ'אט-to-קול, AI שיתוף מארחים, וBots דיסקורד.

שיווק

קריינות מודעות, קטעי וידאו מסבירים, הדגמות מוצר ומצגות מכירות.

דיבוב ומיקום

תרגם ו dub וידאו לתוך 30+ שפות עם AI תואם קול. אוטומטי מרשם וזיהוי רמקול.

מדיטציה ובריאות

מדיטציה מודרכת, סיפורי שינה, תרגילי נשימה, והצהרות עם קולות רגועים ומרגיעים של בינה מלאכותית.

הצג את כל המקרים והכלים

כל הטקסט למודלי דיבור

מפרט מפורט לכל מודל AI זמין על TTS.ai. השווה איכות, מהירות, תמיכה בשפה ומאפיינים כדי למצוא את המודל המושלם עבור הפרויקט שלך.

Kokoro

Free

קוקורו הוא מודל של 82 מיליון פרמטרים של טקסט-to-speech שפוגשים הרבה מעל מעמד המשקל שלו. למרות גודלו הזעיר, הוא מייצר דיבור טבעי ומבטא להפליא. קוקורו תומך במספר שפות כולל אנגלית, יפנית, סינית וקוריאנית עם מגוון רב של קולות אקספרסיביים. הוא פועל במהירות רבה מאוד מהר יותר מ- 100x בזמן אמת על GPU.

מפתח::
Hexgrad

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות:
en, ja, zh, fr, it, pt, es, hi

VRAM:
1.5GB

שיכפול קול:
לא.

עלות ל-1K chars:
חופשי

פרמטרים 82M Ultra-מהיר קולות מביעים רב לשונית תמיכה בזרימה

הטוב ביותר עבור:: TTS באיכות גבוהה עם השהיה מינימלית, יישומי הזרמה

נסה Kokoro

Piper

Free

פייפר היא מנוע טקסט לדיבור קל שפותחה על ידי Rhaspy המשתמש ב- VITS ובארכיטקטורות של Larynx. היא פועלת באופן מלא על מעבד, מה שהופך אותו לאידיאלי למכשירי קצה, אוטומציה ביתית, ויישומים הדורשים TTS מקוון. עם יותר מ-100 קולות לאורך 30+ שפות, פייפר מעבירה נאום צליל טבעי במהירויות בזמן אמת אפילו על פטל פי 4.

מפתח::
Rhasspy

רישיון::
MIT

מהירות:
Fast

איכות::

שפות:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

שיכפול קול:
לא.

עלות ל-1K chars:
חופשי

ידידותי למעבד לא מקוון מסוגל 100+ קולות 30 שפות תמיכה ב־ SSML

הטוב ביותר עבור:: תצוגה מקדימה מהירה, נגישות ויישומים מוטבעים

נסה Piper

VITS

Free

VITS (Variational Inference with adversarial learning for end-to-end text to-Speech) היא שיטה מקבילה של TTS שיוצרת קול טבעי יותר מאשר מודלים עכשוויים של שני שלבים.

מפתח::
Jaehyeon Kim et al.

רישיון::
MIT

מהירות:
Fast

איכות::

שפות:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

VRAM:
1GB

שיכפול קול:
לא.

עלות ל-1K chars:
חופשי

סינתזה מקצה לקצה פרוסודיה טבעית סיכום מהיר רמקולים מרובים

הטוב ביותר עבור:: טקסט לדיבור כללי עם פרוסודיה טבעית

נסה VITS

MeloTTS

Free

Melotts by My Shell.ai היא ספריית TTS רב-לשונית התומכת באנגלית (באנגלית: American, British, Indian, Australian), ספרדית, סינית, יפנית וקוריאנית.

מפתח::
MyShell.ai

רישיון::
MIT

מהירות:
Fast

איכות::

שפות:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

שיכפול קול:
לא.

עלות ל-1K chars:
חופשי

מעבד אופטימלי רב לשונית מבטאים מרובים מוכן להפקה חבישה נמוכה

הטוב ביותר עבור:: יישומי הפקה צורך מהיר, רב לשוני TTS

נסה MeloTTS

Bark

Standard

Bark by Suno הוא מודל של טקסט-audio המבוסס על שנאי שיכול ליצור דיבור ריאליסטי מאוד, רב לשוני כמו גם קול אחר כמו מוזיקה, רעש רקע והשפעות קול. הוא יכול לייצר תקשורת לא-מילולית כמו צחוק, אנחות ובכי. נביחה תומכת ביותר מ-100 רמקולים ו-13 שפות.

מפתח::
Suno

רישיון::
MIT

מהירות:
Slow

איכות::

שפות:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

שיכפול קול:
לא.

עלות ל-1K chars:
2x

אפקטים קוליים צוחק/ נאנח דור המוזיקה 100+ רמקולים רב לשונית

הטוב ביותר עבור:: תוכן אודיו יצירתי, ספרי שמע עם רגש, אפקטים קוליים

נסה Bark

Bark Small

Standard

Bark Small (באנגלית: Bark Small) היא גירסה מזוקקת של מודל הבארק המסחרת באיכות שמע מסוימת עבור מהירויות מהירות משמעותית ודרישות זיכרון נמוכות יותר, והיא שומרת על היכולת של ברק ליצור דיבור עם רגשות, צחוק ושפות מרובות.

מפתח::
Suno

רישיון::
MIT

מהירות:
Medium

איכות::

שפות:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

שיכפול קול:
לא.

עלות ל-1K chars:
2x

משקל קל מהר יותר מנביחה מלאה. דיבור רגשי רב לשונית

הטוב ביותר עבור:: שמע יצירתי מהיר כאשר נביחות מלאות איטיות מדי

נסה Bark Small

CosyVoice 2

Standard

Cosy Voice 2 by Alibababa's Tongyi Lab Abrary accesss a finite scalear containation for synthing and supports zero-shot voice throught, cross-longual for return-time.

מפתח::
Alibaba (Tongyi Lab)

רישיון::
Apache 2.0

מהירות:
Medium

איכות::

שפות:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

זרימה שיבוט אפס-ירייה דו־ שיחיName שליטה ברגשות פערי אנוש

הטוב ביותר עבור:: יישומים בזמן אמת, הזרמת TTS, עוזרי קול

נסה CosyVoice 2

Dia TTS

Standard

Dia by Nari Labs הוא מודל של 1.6B של טקסט-to-speech שתוכנן במיוחד ליצירת דיאלוג רב-רמקולי. הוא יכול ליצור שיחות טבעיות בין שני נואמים עם שימוש הולם בטקסט-to-speech, Prosody, וביטוי רגשי.

מפתח::
Nari Labs

רישיון::
Apache 2.0

מהירות:
Medium

איכות::

שפות:
en

VRAM:
4GB

שיכפול קול:
לא.

עלות ל-1K chars:
2x

רב־ רמקולים יצירת דו־ שיח לוקח תפנית טבעית. ביטוי רגשי פרמטרים 1.6B

הטוב ביותר עבור:: פודקאסטים, דיאלוגים אודיובוק, תוכן שיחה

נסה Dia TTS

Parler TTS

Standard

Parler TTS (ראשי תיבות של Parler TTS) הוא מודל של טקסט לשפה טבעית, המשתמש בתיאורי קול כדי לשלוט בנאום שנוצר. במקום לבחור מתוך קולות מראש, אתה מתאר את הקול שאתה רוצה (לדוגמה, "קול נשי חם עם מבטא בריטי קל, מדבר לאט ובבירור") ופארלר יוצר דיבור שמתאים לתיאור זה.

מפתח::
Hugging Face

רישיון::
Apache 2.0

מהירות:
Medium

איכות::

שפות:
en

VRAM:
4GB

שיכפול קול:
לא.

עלות ל-1K chars:
2x

תיאור קול שליטה בשפה טבעית יצירת קול גמישה אין צורך בקולות שנקבעו מראש

הטוב ביותר עבור:: יישומים יצירתיים שבהם אתה זקוק למאפייני קול מותאמים אישית

נסה Parler TTS

GLM-TTS

Standard

GLM-TS על ידי Zhipu AI היא מערכת של טקסט ל-speech הבנויה על אדריכלות ה-Llama עם התאמת זרימה. היא משיגה את שיעור השגיאה הנמוך ביותר בין דגמי TTS בקוד פתוח, כלומר היא מייצרת את ההגייה המדויקת ביותר. GLM-TS תומכת באנגלית ובסינית עם שיבוט קול מ-3-10 דגימות שמע שניות.

מפתח::
Zhipu AI

רישיון::
GLM-4 License

מהירות:
Medium

איכות::

שפות:
en, zh

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

קצב השגיאה הנמוך ביותר שיבוט קולי זרימה תואמת פרוסודיה טבעית

הטוב ביותר עבור:: יישומים הדורשים דיוק בהגייה מירבית

נסה GLM-TTS

IndexTTS-2

Standard

אינדקס TTS-2 (באנגלית: IndexTS-2) היא מערכת מתקדמת של טקסט-to-speech המצטיינת בסינתזה קול אפס-shot עם בקרת רגשות עדינה.

מפתח::
Index Team

רישיון::
Bilibili Model License

מהירות:
Medium

איכות::

שפות:
en, zh

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

שליטה ברגשות אפס-ירייה וקטורי רגש נאום אקספרסיבי שליטה בדגמים דקיםweather forecast

הטוב ביותר עבור:: תוכן רגשי, ספרי שמע, עוזרים וירטואליים

נסה IndexTTS-2

Spark TTS

Standard

Spark TTS by SparkAudio (ראשי תיבות של SparkAudio) הוא מודל של טקסט לנאום המשלב שיבוט קולי עם רגש בר שליטה וסגנון דיבור. באמצעות 5 שניות של שמע הפניה, הוא יכול לשבט קול ואז ליצור דיבור עם רגשות שונים, מהירות וסגנונות תוך שמירה על זהות הקול המשובטת.

מפתח::
SparkAudio

רישיון::
CC BY-NC-SA 4.0

מהירות:
Medium

איכות::

שפות:
en, zh

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

שיבוט קולי שליטה ברגשות בקרת סגנון מבוסס מראש שיבוט של 5 שניות

הטוב ביותר עבור:: יצירת תוכן עם קולות משובטים ושליטה רגשית

נסה Spark TTS

GPT-SoVITS

Standard

GPT-SOVITS משלבת דוגמנות שפה בסגנון GPT עם SOVITS (ההסכמה קולית בשירה באמצעות תרגום וסינתזה) לשיבוט קולי רב עוצמה. עם פחות מ-5 שניות של הפניה אודיו, היא יכולה לשכפל במדויק קול וליצור נאום חדש תוך שימור המאפיינים הייחודיים של הדובר. היא מצטיינת גם בשיחת קול ושירה.

מפתח::
RVC-Boss

רישיון::
MIT

מהירות:
Slow

איכות::

שפות:
en, zh, ja, ko

VRAM:
6GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

שיבוט של 5 שניות קול שר למידה מועטה נאמנות גבוהה דו־ שיחיName

הטוב ביותר עבור:: שיבוט קול, סינתזה שירה, שכפול קול יוצר תוכן

נסה GPT-SoVITS

Orpheus

Standard

אורפיאוס הוא מודל גדול של טקסט לנאום אשר משיג ביטוי רגשי ברמה אנושית. מאולף ביותר מ-100,000 שעות של נתוני דיבור שונים, הוא מצטיין ביצירת דיבור עם רגשות טבעיים, הדגשה, וסגנונות דיבור.

מפתח::
Canopy Labs

רישיון::
Llama 3.2 Community

מהירות:
Medium

איכות::

שפות:
en

VRAM:
4GB

שיכפול קול:
לא.

עלות ל-1K chars:
2x

רגש ברמה אנושית. מאה אלף שעות אימונים. הדגשה טבעית נאום אקספרסיבי

הטוב ביותר עבור:: דיבור רגשי באיכות גבוהה, ספרי שמע, משחק קול

נסה Orpheus

Chatterbox

Premium

Chatterbox על ידי Rescomple AI הוא מודל שכפול קולי חדיש ביותר. הוא יכול לשכפל כל קול מדגימת שמע אחת עם דיוק מדהים, לכידת הטון הרגשי של הדיבור, אך גם את סגנון הדיבור ואת הניואנסים הרגשיים. צ'אטרבוקס גם מכיל בקרת רגשות עדינה, המאפשרת לך להתאים את הטון הרגשי של הדיבור באופן עצמאי מהזהות הקולית.

מפתח::
Resemble AI

רישיון::
MIT

מהירות:
Medium

איכות::

שפות:
en

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
4x

שיבוט אפס-ירייה שליטה ברגשות נאמנות גבוהה העברת סגנון שכפול דוגמיות בודד

הטוב ביותר עבור:: שיבוט קול מקצועי עם שליטה רגשית, יצירת תוכן

נסה Chatterbox

Tortoise TTS

Premium

Tortoise TTS (ראשי תיבות של TOTS) היא ארכיטקטורה אוטוגרסיבית של טקסט-to-speech של טקסט קולי המעדיפה את איכות האודיו על פני מהירות.

מפתח::
James Betker

רישיון::
Apache 2.0

מהירות:
Slow

איכות::

שפות:
en

VRAM:
8GB

שיכפול קול:
כן.

עלות ל-1K chars:
4x

האיכות הגבוהה ביותר רב־ קול ארכיטקטורת דאל-אי שיבוט קולי חזרה אוטומטית

הטוב ביותר עבור:: ספרי שמע, תוכן פרמיה, יישומים איכותיים

נסה Tortoise TTS

StyleTTS 2

Premium

סגנון TTS 2 משיג את הסינתזה של רמת TTS על ידי שילוב של דיפוזיה בסגנון adversarial translation with adversational adverseal speak modules. הוא יוצר את הנאום הטבעי ביותר בין מודלים של דובר יחיד, מתחרה בהקלטות אנושיות. סגנון TTS 2 משתמש בעיצוב מבוסס דיפוזיה כדי ללכוד את הטווח המלא של וריאציה של דיבור אנושי.

מפתח::
Columbia University

רישיון::
MIT

מהירות:
Medium

איכות::

שפות:
en

VRAM:
4GB

שיכפול קול:
לא.

עלות ל-1K chars:
4x

רמה אנושית דיפוזיה סגנון הכשרה יריבותית וריאציה טבעית נאמנות גבוהה

הטוב ביותר עבור:: סינתזה של רמקול יחיד באיכות הסטודיו, הקריינות מקצועית

נסה StyleTTS 2

OpenVoice

Premium

Open Voice by My Shell.ai מאפשר שיבוט קול מיידי עם שליטה גרעינית על סגנון קול, רגש, מבטא, קצב, הפסקות, ואינטציה. הוא יכול לשבט קול מקליפ אודיו קצר וליצור דיבור בשפות מרובות תוך שמירה על זהות הדובר. Open Voice גם מתפקד כממיר קול, המאפשר שינוי קול בזמן אמת.

מפתח::
MyShell.ai / MIT

רישיון::
MIT

מהירות:
Medium

איכות::

שפות:
en, zh, ja, ko, fr, es

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
4x

שיבוט מיידי המרה קולית שליטה ברגשות שליטה במבטא רב לשונית

הטוב ביותר עבור:: שיבוט קולי עם שליטה טובה בסטייל, המרה קולית

נסה OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS הוא מודל של 1.7 מיליארד פרמטרים של טקסט-to-speech מצוות קוואן של עליבאבא. הוא תומך בשלושה מצבים: קובע קולות עם שליטה ברגשות (9 נואמים), שיבוט קול מ-3 שניות בלבד של שמע, ומצב עיצוב קול ייחודי שבו אתה מתאר את הקול שאתה רוצה בשפה טבעית. הוא מכסה 10 שפות עם הבעה גבוהה ופרוסודיה טבעית.

מפתח::
Alibaba (Qwen)

רישיון::
Apache 2.0

מהירות:
Medium

איכות::

שפות:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

שיבוט קולי 9 קולות שנקבעו מראש עיצוב קול מטקסט שליטה ברגשות 10 שפות

הטוב ביותר עבור:: תוכן רב לשוני עם שיבוט קול או עיצוב קול מותאם אישית

נסה Qwen3 TTS

Sesame CSM

Premium

שומשום (באנגלית: Sesame CSM) הוא דגם של מיליארד פרמטרים המיועדים ליצירת דיבור שיחתי, המדגמים את התבניות הטבעיות של השיחה האנושית, הכוללות עיתוי חוזר, תגובות רקע, תגובות רגשיות וזרימת שיחה.

מפתח::
Sesame

רישיון::
Apache 2.0

מהירות:
Slow

איכות::

שפות:
en

VRAM:
8GB

שיכפול קול:
לא.

עלות ל-1K chars:
4x

שיחה תזמון טבעי Turn-taking ערוץ BackchannelComment פרמטרים 1B

הטוב ביותר עבור:: עוזרי AI, צ'אטבוטים, יישומי בינה מלאכותית שיחה

נסה Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Torbody by Rescomple AI הוא שדרוג פרמטר 350M לצ'אטרבוקס (Chatterbox), המספק מהירות של עד 6X בזמן אמת עם תת-מ"מ. הוא תומך בתגיות פרלינגואיסטיות כמו (Laugh), [צ'אקל] ישירות בטקסט.

מפתח::
Resemble AI

רישיון::
MIT

מהירות:
Fast

איכות::

שפות:
en

VRAM:
2GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

Sub-200ms חבישהName תוויות פרלינגואיסטיות 6X בזמן אמת שיבוט קולי סימני מים

הטוב ביותר עבור:: סוכני קול בזמן אמת, ביטוי דיבור עם צלילים טבעיים

נסה Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1.5 על ידי OpenBMB הוא מודל tTS נטול אסימונים חדשני הפועל בחלל ולא בפרוטרוט אסימונים שונים. הוא מייצר פרופיל גבוה של 44.1kHz אודיו, תומך בשיבוט קול אפס-ירייה מ-3-10 שניות, ושומר על עקביות על פני פסקאות. שיבוט צלב-שפה מאפשר לך ליישם קול אנגלי לדיבור סיני ולהיפך.

מפתח::
OpenBMB

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות:
en, zh

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

אודיו 44.1kHz ללא טוקן שכפול דו-לשוני הודעה@ title: window כוונון לורה עדין

הטוב ביותר עבור:: אודיו high-fidelity, ספרי שמע, תוכן ארוך-צורה עם עקביות קול

נסה VoxCPM

Kani TTS 2

Free

Kani-TTS-2 by NineNineS6 הוא מודל בעל משקל קל 400M הבנוי על עמוד שדרה ali LFM2 נוזלי עם NVIDIA NanoCodec. הוא פועל רק 3GB VRAM ומפיק 10 שניות של דיבור ב#2 שניות על A100 (RTF 0.2).

מפתח::
NineNineSix

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות:
en

VRAM:
3GB

שיכפול קול:
לא.

עלות ל-1K chars:
חופשי

3GB VRAM Ultra-מהיר משקל קל NanoCodc חופשי

הטוב ביותר עבור:: דור אנגלי מהיר על חומרה נמוכה VRAM, תצוגה מקדימה מהירה

נסה Kani TTS 2

OuteTTS

Free

OutetTS מרחיב מודלים שפה גדולים עם יכולות טקסט-to-speech תוך שימור הארכיטקטורה המקורית. היא תומכת בכמה כיוונים כולל לאמה.cpp (CPU/GPU), מחבקת את רובוטריקי הפנים, ExLamaV2, VLM, ואפילו דפדפן הקלט באמצעות רובוטריקים.

מפתח::
OuteAI

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות:
en

VRAM:
2GB

שיכפול קול:
כן.

עלות ל-1K chars:
חופשי

הגדרות מעבד הגדרות דפדפן שיבוט קולי Name פרופילים של דובר

הטוב ביותר עבור:: פריסת קצה, TTS מבוסס דפדפן, סביבות מיקור נמוך

נסה OuteTTS

VibeVoice

Standard

Vibe Voice by Microsoft מגיע בשני גרסאות: מודל 1.5B לתכנים ארוכי-צורה (עד 90 דקות, 4 רמקולים) ודגם Realtime 0.5B להזרמה עם &200ms first loud latncy. ה-1.5B variant מצטיינים בפודקאסטים וספרי שמע עם עקביות רמקולים על מעברים ארוכים. שים לב: מיקרוסופט הסיר את קוד TTS מהמאגר ויצר אודיו כולל AI discludioers.

מפתח::
Microsoft

רישיון::
MIT

מהירות:
Fast

איכות::

שפות:
en, zh

VRAM:
4GB

שיכפול קול:
לא.

עלות ל-1K chars:
2x

רב־ רמקולים עד 90 דקות יצירת פוד־ קסט עקביות רמקול 200 מ " מ הזרימה

הטוב ביותר עבור:: פודקאסטים, ספרי שמע, תוכן רב-רמקולים ארוך-צורה

נסה VibeVoice

Pocket TTS

Free

Pocket TTS by Kyutai (באנגלית: Pocket TTS by Kyutai) הוא דגם של 100 מ' של טקסט ל-speech, אשר פונקציות רבות מעל משקלו, הוא פועל ביעילות על מעבד, תומך בשיבוט קול אפס-ירייה מדגימת אודיו בודדת, ומייצר נאום בעל צליל טבעי.

מפתח::
Kyutai

רישיון::
MIT

מהירות:
Fast

איכות::

שפות:
en, fr

VRAM:
1GB

שיכפול קול:
כן.

עלות ל-1K chars:
חופשי

פרמטרים 100M הגדרות מעבד שיבוט קולי שיבוט חד-פעמית הקצה מוכן@ title: window

הטוב ביותר עבור:: פריסת משקל קל, סביבות מעבד בלבד, שיבוט קול מהיר

נסה Pocket TTS

Kitten TTS

Free

Kitten TTS על ידי KittenML הוא מודל בעל משקל קל במיוחד של טקסט לנאום שנבנה על גבי ONNX. עם גרסאות מ-15M ל-80M פרמטרים (25-80 MB על דיסק), הוא מספק סינתזת קול באיכות גבוהה על מעבד ללא צורך במעבד GPU. Features 8 מובנה-in, מהירות דיבור מתכווננת, ועיבוד טקסט מובנה למספרים, קימורים, ויחידות.

מפתח::
KittenML

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות:
en

VRAM:
0GB

שיכפול קול:
לא.

עלות ל-1K chars:
חופשי

הגדרות מעבד בלבד פחות מ-80MB גודל המודל 8 קולות מובנים בקרת מהירות מבוסס ONNX פלט 24kHz

הטוב ביותר עבור:: TTS קל מהיר, פריסת קצה, יישומי low-Laterense

נסה Kitten TTS

CosyVoice3

Standard

Cosy Voice3 היא האבולוציה האחרונה מקבוצת FunAudioLM של עליבא, והיא כוללת היספות דו-כיווניות עם ~150ms lattenence, שליטה מבוססת הדרכה עבור רגש/מהירות/נפח, ושיפור דמיון רמקול לשיבוט אפס-shot. תומכת ב-9 שפות בתוספת 18 ניבים סינים. RL-tuned variant מספק פרומודי מדינה-of-the-art.

מפתח::
Alibaba (FunAudioLLM)

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

זרימה דו־ סטרילית שליטה ברגשות שיבוט קולי בקרת מהירות/ נפח הוראה הבאה:

הטוב ביותר עבור:: ייצור רב לשוני TTS, יישומים בזמן אמת, שיבוט קול

נסה CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

מפתח::
NAMAA Space

רישיון::
MIT

מהירות:
Medium

איכות::

שפות:
ar

VRAM:
6GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

ניב ערבי סעודיName ערבית רגילה מודרנית שכפול קול אפס-ירייה. שליטה ברגשות היגוי ילידי

הטוב ביותר עבור:: תוכן ערבי לקהלים סעודיים, אם.אס.איי. הקריינות, Khaleji-לזכור סוכני קול, ספרי שמע ערביים

נסה NAMAA Saudi TTS

Darwin TTS

Standard

Darwin-TTS-1.7B-Crosss by Final-Bench היא גרסה מחקרית של Qwen3-TTS-1.7B, בה 84 פטפטנים-FFN Tensors (8.6%) מתמזגים ב-3% עם הטנסורים התואמים מקוון-3.7B-B-Base. התערובת בנויה מבלי לאמן מחדש ולהפיק שיבוט קול צולב על פני קוריאני, אנגלית, יפנים, 0.7B.Clothoot.

מפתח::
FINAL-Bench

רישיון::
Apache 2.0

מהירות:
Medium

איכות::

שפות:
en, ko, ja, zh

VRAM:
7GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

שיבוט קולי דו־ שיחיName FFN- blended 4 שפות ליבה עמוד שדרה Qwen3

הטוב ביותר עבור:: שכפול קול דו-לשוני בין אנגלית / קוריאנית / סינית / עם קול התייחסות יחיד

נסה Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 מOpenMOSS הוא מודל 7B של טקסט-to-speech הממשיך שיחות מתוך הנעה קולית קצרה. תמיכה עד 5 רמקולים בו זמנית באמצעות תוויות (S1), שכפול קול אפס-shot מ 3-10s התייחסות אודיו, ועד 60 דקות של דיאלוג רב-turn קוהרנטי לאורך 20 שפות. Discinted from MOSS-TS-TS-TS-TS-TS הוא מתמחה עבור פודקאסט/D.

מפתח::
OpenMOSS

רישיון::
Apache 2.0

מהירות:
Medium

איכות::

שפות:
en, zh

VRAM:
12GB

שיכפול קול:
כן.

עלות ל-1K chars:
2x

דיאלוג רב־ רמקולים עד 5 רמקולים שמע עקבי 60min שיבוט קולי Podcast- Optimized

הטוב ביותר עבור:: פודקאסטים, ספרי שמע, דיאלוג שנקרא, תוכן שיחה עם קולות מרובים

נסה MOSS-TTSD

Ming-Omni TTS

Free

Ming-omni-tts-0.5B by includingAI הוא מודל דיבור אומני-מודלי קומפקטי שנבנה על עמוד השדרה הצפוף BailingMMM עם מצפן זרימה על ידי Patch-by-Patch. מספק 44.1kHz פלט (כמעט CD), תומך בשיבוט קול אפס-shot מהתייחסות 3+ שנייה, וכולל ניבול קול מובנה / BGM דרך הוראות JSON.

מפתח::
inclusionAI

רישיון::
Apache 2.0

מהירות:
Medium

איכות::

שפות:
en, zh

VRAM:
3GB

שיכפול קול:
כן.

עלות ל-1K chars:
חופשי

פלט 44.1kHz שיבוט קולי שליטה ברגשות שליטה בדיאלקט דור BGM Compact 0. 5B

הטוב ביותר עבור:: פידליות דו-לשונית, משחק קול נשלט רגש, תוכן אודיו סיני

נסה Ming-Omni TTS

Kokoro

חופשי

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

מפתח::
Hexgrad

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות: en, ja, zh, fr, it, pt, es, hi

הטוב ביותר עבור:: High-quality TTS with minimal latency, streaming applications

נסה חופשי

Piper

חופשי

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

מפתח::
Rhasspy

רישיון::
MIT

מהירות:
Fast

איכות::

שפות: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

הטוב ביותר עבור:: Quick previews, accessibility, and embedded applications

נסה חופשי

VITS

חופשי

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

מפתח::
Jaehyeon Kim et al.

רישיון::
MIT

מהירות:
Fast

איכות::

שפות: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

הטוב ביותר עבור:: General-purpose text-to-speech with natural prosody

נסה חופשי

MeloTTS

חופשי

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

מפתח::
MyShell.ai

רישיון::
MIT

מהירות:
Fast

איכות::

שפות: en, es, fr, zh, ja, ko

הטוב ביותר עבור:: Production applications needing fast, multilingual TTS

נסה חופשי

Kani TTS 2

חופשי

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

מפתח::
NineNineSix

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות: en

הטוב ביותר עבור:: Fast English generation on low-VRAM hardware, quick previews

נסה חופשי

OuteTTS

חופשי

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

מפתח::
OuteAI

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות: en

הטוב ביותר עבור:: Edge deployment, browser-based TTS, low-resource environments

נסה חופשי

Pocket TTS

חופשי

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

מפתח::
Kyutai

רישיון::
MIT

מהירות:
Fast

איכות::

שפות: en, fr

הטוב ביותר עבור:: Lightweight deployment, CPU-only environments, quick voice cloning

נסה חופשי

Kitten TTS

חופשי

מפתח::
KittenML

רישיון::
Apache 2.0

מהירות:
Fast

איכות::

שפות: en

הטוב ביותר עבור:: Fast lightweight TTS, edge deployment, low-latency applications

רגיל

מפתח::
NAMAA Space

רישיון::
MIT

מהירות:
Medium

איכות::

שפות:
ar

שיכפול קול:
כן.

Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation

הטוב ביותר עבור:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

נסה NAMAA Saudi TTS

Darwin TTS

רגיל

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

מפתח::
FINAL-Bench

רישיון::
Apache 2.0

מהירות:
Medium

איכות::

שפות:
en, ko, ja, zh

שיכפול קול:
כן.

Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone

הטוב ביותר עבור:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice

דגם	מפתח:	Tier	מהירות	שפות	VRAM	רישיון:	נקודות זכות
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	חופשי	השתמש
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	חופשי	השתמש
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	חופשי	השתמש
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	חופשי	השתמש
Bark	Suno	Standard	Slow	13	5GB	MIT	2	השתמש
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	השתמש
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	השתמש
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	השתמש
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	השתמש
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	השתמש
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	השתמש
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	השתמש
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	השתמש
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	השתמש
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	השתמש
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	השתמש
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	השתמש
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	השתמש
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	השתמש
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	השתמש
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	השתמש
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	השתמש
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	חופשי	השתמש
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	חופשי	השתמש
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	השתמש
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	חופשי	השתמש
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	חופשי	השתמש
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	השתמש
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	השתמש
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	השתמש
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	השתמש
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	חופשי	השתמש

הטקסט הברור ביותר של AI לפלטפורמת הדיבור

מדוע בחר TTS.ai טקסט לדיבור?

TTS.ai מחברים יחד את המודלים הטובים ביותר של קוד פתוח בעולם, TTS.ai נותן לך גישה ל-20 מודלים ממעבדות מחקר מובילות כולל קוקי, מישל, אמפיל, NVIDIA, Suno, Hugingface, Tsinghua, ועוד.

כל מודל הוא קוד פתוח תחת MIT, Apache 2.0, או רישיונות מתירניים דומים, מבטיחים שיש לך זכויות מסחריות מלאות להשתמש באודיו שנוצר בפרוייקטים שלך. בין אם אתה צריך מהר, סינתזה קלה עבור יישומים בזמן אמת או תפוקת סטודיו איכות פרמיה לספרי או פודקאסט, TTS.ai יש המודל הנכון לכל מקרה שימוש.

דוגמניות חינם, ללא חשבון

התחל מייד עם 3 מודלים חינם של TTS: פייפר (אולטרה-מהיר, קל), VITS (סינתזה עצבית באיכות גבוהה), ו-MelotTS (תמיכה ב-multi-language). אין הרשמה, אין גבולות לדורות. מודלים חופשיים תומכים באנגלית ובשפות רבות אחרות עם פלט צליל טבעי מתאים לרוב היישומים.

עיבוד מואץ GPU

כל המודלים של TTS פועלים על GPUs ייעודי של NVIDIA עבור דור מהיר ועקבי פעמים. מודלים חופשיים יוצרים בדרך כלל אודיו תוך פחות מ-2 שניות. מודלים סטנדרטיים כמו קוקורו, Cocoro, Cosy Voice 2, וברק ממוצע 3-5 שניות. דגמים פרימיום באיכות הגבוהה ביותר, כמו טורטויז וצ'אטרבוקס, בתהליך 5-15 שניות תלוי באורך טקסט.

תמיכה ב ־ 30 שפות

יצירת דיבור בלמעלה מ-30 שפות כולל אנגלית, ספרדית, צרפתית, גרמנית, פורטוגזית, סינית, יפנית, קוריאנית, ערבית, הינדית, רוסית ועוד כמה מודלים תומכים בסינתזה בין-לשונית,

מפתח מוכן API

Integrate TTS.ai into your applications with our OpenAI-compatable Rest API. Andpoint for all 20+ modules. Python, JavaScript, CURL, and Go SDKs. Froming support for return-time interformations. Batch עיבוד לתוכן בקנה מידה גדול. Webhooks for async. API acc Guess including on every plan.

שאלות ששואלים לעתים קרובות

טקסט לדיבור (באנגלית: Text to speech) היא טכנולוגיית AI הממירה טקסט לצליל טבעי של אודיו. מודלים עצביים מודרניים כמו קוקורו, צ'אטרבוקס, ו-Cosy Voice 2 משתמשים בלימוד מעמיק כדי לייצר דיבור שנשמע אנושי להפליא, עם פרוזודיה טבעית, רגש וקצב.

זה תלוי בצרכים שלך. עבור תצוגה מקדימה מהירה, השתמש בחלילן או ב־ MeloTS (חופשי, מהיר). עבור איכות גבוהה, נסה Kokoro או Cosy Voice 2 (הדור הסטנדרטי). עבור שכפול קול, השתמש ב-Chatterbox או GPT-SOVITS (Premium). עבור תוכן דו־ שיח / פודקאסט, נסה Dia TTS. לכל דגם יש כוח שונה כדי למצוא את הניסוי המתאים ביותר.

כן! TTS.ai מציע טקסט-to-speech חינם עם Kokoro, פייפר, VITS, ומודלים Melots. אין חשבון הנדרש ל-500 תווים ו-3 דורות לשעה. נרשם לחשבון חינם כדי לקבל 50 נקודות וגישה לכל המודלים.

מודלי TTS תומכים באופן קולקטיבי ב-30 שפות כולל אנגלית, ספרדית, צרפתית, גרמנית, פורטוגזית, סינית, יפנית, קוריאנית, ערבית, רוסית, הינדית ועוד רבים.

כן, ניתן להשתמש באודיו דרך TTS.ai באופן מסחרי. כל המודלים שלנו משתמשים ברישיונות קוד פתוח (MIT, Apache 2.0). בדוק רישיונות מודלים בודדים לתנאים ספציפיים. אנו ממליצים לבחון את הרישיון של המודל הספציפי בו אתה משתמש עבור הפרויקט שלך.

TTS.ai תומכות ב-MP3, WAV, OGG, ו- FLAC. MP3 היא ברירת המחדל של הניגון האינטרנטי. WAV מומלצת לעיבוד שמע נוסף. באפשרותך להמיר בין הפורמטים באמצעות כלי ממיר השמע שלנו.

השיבוט הקולי משתמש ב-AI כדי לשכפל קול ספציפי מדגם שמע קצר (בדרך כלל 5-30 שניות). העלה הקלטה ברורה של קול היעד, ומודלים כמו Chatterbox, GPT-SOVITS, או Open Voice ייצור נאום חדש בקול זה. האיכות משפרת עם קול נקי יותר, זמן רב יותר.

משתמשים חופשיים יכולים ליצור עד 500 תווים לכל בקשה. משתמשים רשומים מקבלים עד 5,000 תווים לכל בקשה. עבור טקסטים ארוכים יותר, האודיו נוצר בחתיכות ותפור יחד באופן אוטומטי. משתמשי API יכולים לעבד עד 10,000 תווים לכל בקשה.

SSML (Speech Synthesis Markup Language) תמיכה משתנה על ידי מודל. פייפר וכמה מודלים אחרים תומכים בתגיות בסיסיות של SSML להפוגות, הדגשה והיגוי. עבור מודלים ללא תמיכה מקומית של SSML, ניתן להשתמש בפיסוק טבעי והפסקות קו כדי להשפיע על הפרוסודיה.

כן, רוב המודלים תומכים בהסתגלות מהירות מ-0.5x ל-2.0x. חלק מהדגמים כמו Bark and Parler מאפשרים גם בקרת המגרש והסגנון. באפשרותך לקבוע פרמטרים מהירים בלוח ההגדרות המתקדמים או דרך פרמטר המהירות API.

כן, עיבוד אצווה זמין דרך API שלנו. באפשרותך להגיש קטעים מרובים טקסטים בשיחה אחת API או תסריט, וכל אחד יעובד ויוחזר כקבצים אודיו נפרדים. זה אידיאלי לפרקי אודיובוק, מודולים ללימוד אלקטרוני, או תסריטי דיאלוג משחק.

צור מפתח API מלוח המחוונים של החשבון שלך, ולאחר מכן שלח בקשות POST לנקודת סוף API המנוחה שלנו עם הטקסט שלך, מודל, ופרמטרים קוליים. אנו מספקים דוגמאות קוד בפיתון, JavaScript, ו cURL. ה- API הוא openAI-compatable, כך אינטגרציות קיימות לעבוד עם שינויים מינימאליים.

5.0/5 (4)

התחל להמיר טקסט לדיבור עכשיו

הצטרפו לאלפי היוצרים בעזרת TTS.ai קבל 15,000 תווים בחינם עם חשבון חדש מודלים חינם זמינים ללא הרשמה

הרשמה חופשית תצוגה של Princing

טקסט אל דיבור

אוהב את ט.ט.ס.אי?

פרטי דגם

Kitten TTS

עצות לתוצאות טובות יותר

שימוש באופי

כיצד טקסט ה ־ AI לנאום עובד

הכנס את הטקסט שלך

בחר & קול דגם

יצירת & הורדה

טקסט לדיבור השתמש במקרים

ספרי שמע

קריינות וידאו

פוד־ קסטים

משחק

E- Learning

נגישות

IVR & Phone Systems

מדיה חברתית

זרימה

שיווק

דיבוב ומיקום

מדיטציה ובריאות

כל הטקסט למודלי דיבור

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3