Бусад

Тодорхойгүй

Нэг секундын доторх эхний дууны саадгүйгээр текстээс яриа руу дамжуулах. Хэлний агентууд болон амьд програмуудад зориулсан.

Танай хэл дээр одоогоор TTS дуунууд байхгүй байна. Танай дууг нэмэхэд туслаарай! Таны дуу хоолойг зарна

Зураг

Хугацаа
0/5,000 тэмдэгт ~0.3s Эхний дуу

Дуу & тохиргоо

Зөвхөн дамжуулах чадвартай загварууд.

Хязгаарлалт

Эхний дууны явагдлын хугацааг хэмжихийн тулд Stream дээр дарна уу

Үр дүн

Энэ нь дууны хэсгүүдийг орж ирэхэд нь тоглуулах болно.

0:00
Эхний хэсэг:
Бүх хэсгүүд: 0
Нийт хугацаа:

ТТС-ийн дамжуулалт хэрхэн ажилладаг вэ

1. Хуваалцах

/v1/tts/stream/ руу POST текстийг серверээс илгээсэн үйл явдлын хүсэлт болгон илгээнэ.

2. Модель үүсгэнэ

Kokoro нь текстийг хэсэгчлэн хувааж, GPU дээр аудиог жишээгээр нь үүсгэнэ.

3. Хуваалцах

Base64-ээр кодлогдсон WAV файлууд SSE-ээр орж ирээд шууд тоглож эхэлнэ.

4. Жинхэнэ сонсох

Хэрэглэгч үгийн эхлэлийг секундээс бага хугацаанд сонсдог, урт оруулалт ч гэсэн.

Ашиглах тохиолдол

Нэг секундын дотор шинэ мэдрэмжийг нээж өгдөг.

Дууны агентууд

Хүний адилаар хурдан хариулах ярианы боттууд.

Жинхэнэ дуураймал

Буферийн завсарлагагүйгээр бодит цаг хугацаанд дамжуулалтыг орчуулж, дубляжлах.

Тоглоомууд

НӨХ-ийн сонголтод шууд хариу үйлдэл үзүүлдэг, өмнөх байдлаар дүрслэгдэж байгаагүй дууны дохио.

Хэрэглэгдэхүүн

Хэрэглэгч дарахад нь ярих дэлгэц унших болон туслах хэрэгслүүд.

Тодорхойгүй

Үнэгүйгээр эхэл, илүү хэрэгтэй бол шинэчл

Хязгааргүй
  • Kokoro дамжуулалт (хөнгөн загвар)
  • 500 тэмдэгт нэг үе
  • 10 үнэгүй урсгал/өдөр бүр нууц хэрэглэгч бүрт
  • Хоёр дахь дууны дохионы хугацаа
  • HTTPS дээрх SSE дамжуулалт
Хамгийн алдартай
Хуваалцах
  • 15000 тэмдэгт бүртгүүлэх үед
  • 5000 тэмдэгт нэг урсгалд
  • Программ нэвтрэх API түлхүүр
  • Үйл явдлын түүх
  • Өдөртхөгч урсгал хязгааргүй
Үнэгүй бүртгүүлэх
Про
  • MOSS- TTS- Realtime (үнэгүй)
  • 100,000 тэмдэгт нэг урсгалд
  • График процессорын тэргүүлэх зэрэглэл
  • Дуу дохионы агент + Twilio нэгдэл
  • Дээд хурдны хязгаар
Шинэчлэх

Заримдаа асуудаг асуултууд

Үнэгүй

Жирийн TTS нь юу ч өгөхөөсөө өмнө дууны файлыг бүрэн үүсгэнэ - та хүлээж байгаад, дараа нь бүхэл өгүүлбэрийг сонсоно. Үнэгүй TTS нь серверээс илгээсэн үйл явдлыг (SSE) ашиглан загвар нь үүсгэсэн богино аудио хэсгүүдийг дамжуулна. Хэрэглэгч нь урт оруулсан үгийг ч гэсэн үгээр эхэлж сонсоно.

Kokoro нь хэвийн горимд ажилладаг - энэ нь орчин үеийн график процессор дээр бодит цагаасаа 100 дахин хурдан дуу үүсгэдэг. Бид MOSS-TTS-Realtime-г чанартай хувилбар болгон нэгтгэж байна; хэрэглэгчид энэ нь гарч ирэхэд хүссэнээр сонгох боломжтой болно.

Kokoro- ийн анхны дууны урт хугацаа нь нийтийн холболтоор 300- 800мс байдаг. Үүний дараа сүлжээний эргэлт давамгайлдаг. Энэ хуудас нь хэрэглэгчийн интерфэйс дээр анхны дууны цагийг харуулдаг тул та хүссэн дууныхаа хугацааг яг таг харж болно.

Хэлний агентууд нь ярианы хариу, шууд дамжуулах медиа, интерактив тоглоомын NPCs, хэрэглэгч дарахад ярих боломжтой уншиж эхлэх, хоёр эсвэл гурван секундын аудио хүлээх нь сул байх болно.

Тийм. POST-ыг https://api.tts.ai/v1/tts/stream/ руу хэвийн /v1/tts/ төгсгөлийн цэгийн адил биетэй явуулна. Хариулт нь base64-ээр кодлогдсон WAV хэсгүүдийн SSE урсгал юм. Үнэгүй түвшин нь өдөрт 10 генерацийг нэг нууц хэрэглэгчэд дэмждэг; баталгаажсан хэрэглэгчид дансны тэмдэгтүүдийн бүрэн зөвшөөрлийг авна.

Kokoro нь урьдчилан бэлтгэсэн дуу хоолойг ашигладаг бөгөөд клонлохгүй. MOSS- TTS- Realtime (хэрэв нэгтгэгдсэн бол)3секундын өгөгдөл дээр суурилсан дуу хоолойг клонлоход тусалдаг. Одоогийн дуу хоолойг бүрэн клонлохын тулд Chatterbox эсвэл GPT- SoVITS- тэй /text- to- speech/ хуудас ашиглаарай. Энэ нь шууд дамжуулах боломжгүй боловч өөрийн дуу хоолойг гаргаж авдаг.

Жирийн TTS төгсгөлийн цэгийнхтэй адилхан тэмдэгтийн үнэтэй. Kokoro нь үнэгүй түвшинтэй (1x үнэтэй). MOSS- TTS- Realtime нь идэвхжүүлсэн бол стандарт түвшинд (2x үнэтэй) ажиллана. Энэхүү дамжуулах протокол нь үнэ нэмэхгүй.

Тийм ээ — дуу дамжуулах төгсгөлийн цэгийг Twilio дууны вебхоуктой холбож, шууд аудиог дуудлагад оруулах. Бидний дууны агент платформ нь IVR болон гарч буй дуудлагад энэ ажлыг хийж байна. Сүлжээний дууны хариулт болон LLM хариултыг багтаасан дуудлагын төгсгөлөөс төгсгөл хүртэлх хугацаа нь 1-2 секунд байдаг.

Хэрэв сүлжээний дамжуулалт алдагдсан бол, дамжуулах тоглогч зогсохоос илүүтэй урагшлах болно. Хоёрын хооронд зай үлдээхгүй програмуудад, дамжуулалтгүй төгсгөлийн цэгт буцаж оч, эсвэл тоглохоос өмнө 500мс дууг буферл.
5.0/5 (1)

Бид юуг сайжруулах ёстой вэ? Таны санал бодол бидэнд асуудал шийдвэрлэхэд тусалдаг.

Үнэн цаг хугацаанд яриа дамжуулах

Өдөрт эхний 10 үеийн хувьд үнэгүй. Бүх тэмдэгтийг ашиглах болон API-г ашиглах бол бүртгүүлээрэй.