Hitzetik hitzera

Ahozko audioa eraldatu: ahotsa, emozioa, hizkuntza eta estiloa aldatu, jatorrizko edukia mantendu arren.

Iturburuko audioa

Arrastatu eta jaregin zure fitxategia hemen, edo arakatu

Upload your speech recording. MP3, WAV, FLAC, OGG. Max 50MB.

file.mp3

0 MB
— edo zure ahotsa grabatu —
00:00

Eraldaketaren ezarpenak

Arrastatu eta jaregin zure fitxategia hemen, edo arakatu

Upload a reference of the target voice. 10-30 sec recommended.

file.mp3

0 MB

Emaitza

Kargatu hizketaren audioa, aukeratu zure eraldaketa, eta egin klik Eraldatu hasteko

Hizkuntza eraldatzeak... une bat iraungo du.

Jatorrizkoa

0:00 0:00

Eraldatua

0:00 0:00

Nola funtzionatzen duen

1. Kargatu hizketa

Grabatu edo igo bihurtu nahi duzun audioa

2. Aukeratu eraldatzailea

Hautatu ahots-aldaketa, estilo-transferentzia edo hizkuntza-aldaketa

3. AI transformazioak

AIk audioa amaieratik amaierara prozesatzen du, hizketaren edukia gordez

Deskargatu

Entzun emaitza eta deskargatu audio eraldatua

Erabilera-kasuak

Hitzetik hitzera eduki, erabilerraztasun eta proiektu sortzaileetarako

Bideo bikoizpena

Bideoak beste hizkuntzetara itzultzen ditu, jatorrizko hiztuna mantenduz

Emozioen doikuntza

Aldatu grabazioen tonu emozionala — hizketa lasaiak emozionatu, edo hizketa neutroak bero eta atsegina izan daitezen.

Ahots-produkzioa

Bihurtu ahots-grabazio gordin-gorriak ahots eta estilo desberdinetako ahots-over leunetan.

Ahotsaren anonimizazioa

Ezkutatu bozgorailua

Hitzetik hitzerako ereduak

OpenVoice

Ahots bihurketa azkarra estilo kontrol granularrarekin. Aldatu ahots identitatea, abiadura eta emozioa segundotan.

  • Prozesamendu azkarra
  • Estilo-transferentzia
  • Hizkuntzaz gaindikoa

Chatterbox

Zero-shot ahots klonaketa, Resemble AI-ren emozioen kontrol finarekin.

  • Emozioen kontrola
  • Zero-shot klonatzea
  • Fidagarritasun handia

CosyVoice 2

Hizkuntza arteko ahots klonaketa zortzi hizkuntzatan, prosodia naturalarekin eta streaming euskarriarekin.

  • 8 hizkuntzatan
  • Ahotsa klonatzea
  • Korrontea

Maiz egiten diren galderak

Speech to Speech (STS) AI-k ahozko audio-grabazio bat hizketa-irteera desberdin batean bihurtzen du — ahotsa, estiloa, emozioa edo hizkuntza aldatuz, jatorrizko hitzak eta denbora mantenduz. Hizketa-ezagutza, -prozesaketa eta -sintesia hodi bakar batean konbinatzen ditu.

Testutik hizketara-k idatzitako testua audio bihurtzen du. Hizkuntzatik hizketara-k lehendik dagoen audioa hartzen du sarrera gisa eta zuzenean audio berrian bihurtzen du, jatorrizko grabazioaren erritmo naturala, pausak, enfasia eta emozioa mantenduz, hizketa testu hutsetik sortu beharrean.

Erabilera ohikoenak honako hauek dira: bideoak beste hizkuntzetara bikoiztea, hizlariaren ahotsa grabazio batean aldatzea, emozioa edo dagoen audioaren tonua doitzea, grabazio gordinetatik ahotsa sortzea eta ahots grabazioak anonimizatzea edukia mantendu arren.

OpenVoice eta RVC bezalako ahots-konbertsio-ereduek ahotsetik ahotserako eraldaketa kudeatzen dute. Hizkuntza arteko hizketatik hizketarako, CosyVoice 2 eta GPT-SoVITS-ek klonatu eta berriro sintetizatu dezakete beste hizkuntza batean. Chatterbox-ek erreferentzia-audioan oinarritutako sintesia ere onartzen du.

Bai. Ahotsa klonatzeko ereduak erabiliz, zure hizketa beste hizkuntza batera bihur dezakezu zure ahotsaren ezaugarriak mantenduz. AIak zure ahotsaren identitatea ateratzen du eta audioa berriro sintetizatzen du helburuko hizkuntzan edo estiloan.

Lehenik eta behin, hodiak zure hizketa transkribatzen du, testua helburuko hizkuntzara itzultzen du, eta, ondoren, ahots-klonazioa erabiltzen du itzulitako testua zure jatorrizko ahotsean sintetizatzeko. CosyVoice 2 bezalako modeloek 8 hizkuntza onartzen dituzte hizkuntza-sintesia egiteko.

Emaitzarik onenak lortzeko, igo audio garbia atzeko planoko zarata minimoarekin. WAV edo FLAC 16 kHz edo gehiagorekin funtzionatzen du hobekien. MP3, OGG, M4A eta WEBM ere onartzen dira. Hizkuntza garbiak transformazio zehatzagoak sortzen ditu.

Denbora errealeko prozesamendua eskuragarri dago gure APIaren bidez, Kokoro bezalako eredu azkarrak erabiliz sintesirako eta Faster Whisper ezagutzarako. Atsedena ereduaren eta audio-luzeraren araberakoa da, baina 3 segundotik beherako itzulerak lor daitezke ahoskera laburretarako.

Bai. Chatterbox, Spark TTS eta IndexTTS-2 bezalako ereduek emozioen eta estiloen kontrola onartzen dute. Hitz lasai bat urduri bihur dezakezu, triste bat zoriontsu, edo neutro bat dramatiko, hitzak eta hiztunaren identitatea berdin mantenduz.

Hitzetik hitzerak ezagutza- eta sintesi-kredituak konbinatzen ditu. Minutu bateko bihurketa tipikoak 3-8 kreditu erabiltzen ditu hautatutako ereduen arabera. Kokoro bezalako maila libreko ereduak kosturik gabe erabil daitezke sintesi-urratserako.

Doako erabiltzaileek minutu bateko audioa prozesatu dezakete gehienez. Ordaindutako planek 10 minutuko fitxategiak onartzen dituzte gehienez. Grabazio luzeagoetarako, zatitu audioa segmentuetan edo erabili gure APIa luzera-mugarik gabeko batch prozesamendurako.

Bai, igotako audio guztiak gure GPU zerbitzari seguruetan prozesatzen dira eta automatikoki ezabatzen dira 24 orduren buruan. Ez dugu inoiz zure audioa erabiltzen ereduak entrenatzeko. Transferentzia guztiek konexio enkriptatuak erabiltzen dituzte eta zerbitzarien arteko komunikazioa autentifikatzen da.
5.0/5 (1)

Eraldatu edozein hizketa AI-rekin

Aldatu ahotsa, emozioa, hizkuntza eta estiloa. Izena eman doan eta lortu 50 kreditu hasteko.