> Pagsasalita sa Pagsasalita

> I-transform ang sinasalitang audio — baguhin ang boses, damdamin, wika, at estilo habang pinapanatili ang orihinal na nilalaman.

Hindi pa kami may mga boses ng TTS sa iyong wika. Tulungan mo kaming magdagdag ng iyong mga ito! Ibenta ang Iyong Tinig

Source Audio

> I-drag & drop ang iyong file dito, o tl> mag-browse

Upload your speech recording. MP3, WAV, FLAC, OGG. Max 50MB.

file.mp3

0 MB
— o i-record ang iyong boses —
00:00

Mga Setting ng Transpormasyon

> I-drag & drop ang iyong file dito, o tl> mag-browse

Upload a reference of the target voice. 10-30 sec recommended.

file.mp3

0 MB

Resulta

> I-upload ang audio ng pagsasalita, piliin ang iyong pagbabagong-anyo, at i-click ang I-transform upang magsimula

> Pagbabago ng pananalita... Maaaring tumagal ng ilang sandali.

Orihinal

Transpormasyon

Paano ito gumagana

1. Mag-upload ng Pagsasalita

> I-record o i-upload ang audio na nais mong i-transform

> 2. Pumili I-transform

> Piliin ang pagbabago ng boses, estilo ng paglipat, o conversion ng wika

3. AI Transforms

> AI proseso audio end-to-end pagpapanatili ng mga nilalaman ng pagsasalita

4. I-download

> Makinig sa resulta at i-download ang iyong transformed audio

> Gamitin ang mga kaso

> Pagsasalita sa pagsasalita para sa nilalaman, accessibility, at creative na proyekto

Video ng pag-awit

> Dub video sa iba pang mga wika habang pinapanatili ang mga katangian ng boses ng orihinal na tagapagsalita.

> Emosyonal na Pag-aayos

> Baguhin ang emosyonal na tono ng mga recordings – gumawa ng kalmado na pag-uusap na nasasabik, o neutral na pag-uusap na mainit at friendly.

> Paggawa ng Voiceover

> I-convert ang mga rough na recording ng boses sa mga pinakintab na voiceover na may iba't ibang mga boses at estilo.

Ang Voice Anonymization

Ang mga ito ay maaaring maging mga proteksiyong pang-isipan, proteksiyong pang-personal, o proteksiyong pang-emosyonal.

Mga Modelo ng Pagsasalita sa Pagsasalita

OpenVoice

> Mabilis na conversion ng boses na may granular estilo ng kontrol. Baguhin ang pagkakakilanlan ng boses, bilis, at damdamin sa mga segundo.

  • > Mabilis na pagpoproseso
  • > Estilo ng transfer
  • Cross-lingguwistika

Chatterbox

Ang mga selula ng utak ay may kakayahang kontrolin ang paggalaw ng utak sa pamamagitan ng pagkontrol ng mga reseptor.

  • > Emotion kontrol
  • tl> Zero-shot cloning
  • > Mataas na katapatan

CosyVoice 2

Ang lathalaing ito na tungkol sa Talambuhay at Musika ay isang usbong.

  • > 8 wika
  • > Voice pag-clone
  • Streaming

Mga Madalas Itanong

Ang Speech to speech (STS) AI ay nagpapalit ng isang napagsalitang audio recording sa iba’t ibang output ng pagsasalita – pagbabago ng boses, estilo, emosyon, o wika habang pinapanatili ang orihinal na mga salita at takbo. Pinagsasama nito ang pagkilala sa pagsasalita, pagpoproseso, at sintesis sa isang solong pipeline.

Ang Speech to Speech ay gumagamit ng umiiral na audio bilang input at direktang isinasalin ito sa bagong audio — pinapanatili ang natural na ritmo, mga pauses, diin, at damdamin ng orihinal na pag-record sa halip na bumuo ng pagsasalita mula sa flat na teksto.

Ang mga karaniwang gamit nito ay ang pag-dub ng mga video sa ibang wika, pagbabago ng boses ng tagapagsalita sa isang recording, pag-aayos ng emosyon o tono ng umiiral na audio, paglikha ng mga voiceover mula sa mga rough recording, at pag-anonymize ng mga recording ng boses habang pinapanatili ang nilalaman.

Ang mga modelo ng conversion ng boses tulad ng OpenVoice at RVC ay humahawak ng pagbabagong boses-sa-salita. Para sa cross-lingual na pagsasalita sa pagsasalita, ang CosyVoice2at GPT-SoVITS ay maaaring mag-clone at muling mag-synthesize sa ibang wika.

> Oo. Gamit ang mga modelo ng cloning ng boses, maaari mong i-convert ang iyong pananalita sa ibang wika habang pinapanatili ang iyong sariling mga katangian ng boses. Ang AI ay nag-extract ng iyong pagkakakilanlan ng boses at muling sintesis ang audio sa target na wika o estilo.

> Ang pipeline unang transcribes iyong pananalita, isinalin ang teksto sa target na wika, pagkatapos ay gumagamit ng boses cloning upang synthesize ang isinalin na teksto sa iyong orihinal na boses. Modelo tulad ng CosyVoice2suporta 8 wika para sa cross-lingguwistika synthesis.

Para sa pinakamahusay na mga resulta, mag-upload ng malinis na audio na may minimum na ingay sa background. WAV o FLAC sa 16kHz o mas mataas na gumagana pinakamahusay. MP3, OGG, M4A, at WEBM ay tinatanggap din.

> Near-real-time na pagpoproseso ay magagamit sa pamamagitan ng aming API gamit ang mabilis na mga modelo tulad ng Kokoro para sa synthesis at Mas Mabilis Whisper para sa pagkilala. Latency ay depende sa modelo at audio haba, ngunit sub-3-second turnarounds ay makakamtan para sa maikling utterances.

> Oo. Ang mga modelo tulad ng Chatterbox, Spark TTS, at IndexTTS-2 ay sumusuporta sa kontrol ng damdamin at estilo. Maaari mong i-convert ang kalmado na pananalita sa nasasabik, nalulungkot sa masaya, o neutral sa dramatiko habang pinapanatili ang parehong mga salita at pagkakakilanlan ng tagapagsalita.

Ang isang karaniwang 1-minutong conversion ay gumagamit ng 3,000-8,000 mga character depende sa mga modelo na pinili. Libreng-tier na mga modelo tulad ng Kokoro ay maaaring gamitin para sa hakbang ng synthesis sa zero na gastos.

> Libreng mga gumagamit ay maaaring proseso ng audio hanggang sa 1 minuto. Paid plano suporta file hanggang sa 10 minuto. Para sa mas mahabang mga recordings, hatiin ang audio sa mga segment o gamitin ang aming API para sa batch processing na walang haba ng limitasyon.

Oo, lahat ng nai-upload na audio ay pinoproseso sa aming secure na GPU server at awtomatikong tinanggal sa loob ng 24 na oras. Hindi namin kailanman ginagamit ang iyong audio upang magsanay ng mga modelo. Ang lahat ng mga transfer ay gumagamit ng naka-encrypt na mga koneksyon at server-to-server na komunikasyon ay na-authenticate.
5.0/5 (1)

> Ano ang maaari naming mapabuti? Tutulong sa amin ang iyong feedback na ayusin ang mga isyu.

> Ilipat ang Anumang Pagsasalita na may AI

> Baguhin ang boses, damdamin, wika, at estilo. Mag-sign up nang libre at makakuha ng 15,000 mga character upang magsimula.