Kalba pokalbiui

Išsaugant originalų turinį, pakeisti garsą, emocijas, kalbą ir stilių.

Mes dar neturime TTS balsų jūsų kalba. Padėk mums pridėti savo! Parduoti savo balsą

Šaltinis: Audio

Vilkite ir meskite failą čia, arba naršyti

Upload your speech recording. MP3, WAV, FLAC, OGG. Max 50MB.

file.mp3

0 MB
— arba įrašykite savo balsą —
00:00

Transformacijos nustatymai

Vilkite ir meskite failą čia, arba naršyti

Upload a reference of the target voice. 10-30 sec recommended.

file.mp3

0 MB

Rezultatas

Išsiųskite kalbos garso, pasirinkite transformaciją, ir spustelėkite Transformuoti Norėdami pradėti

Transformuojanti kalba gali užtrukti akimirką.

Originalas

Kurių galia didesnė kaip 7,5 kVA, bet ne didesnė kaip 375 kVA

Kaip tai veikia

1. Išsiųsti kalbą

Įrašykite ar įkelkite norimą transformuoti garsą

2. Pasirinkite transformacija

Pasirinkite balso pakeitimą, stiliaus perkėlimą arba kalbos konvertavimą

3. AI transformacijos

AI apdoroja audio-end-to-end išsaugo kalbos turinį

4. Atsisiųsti

Klausytis rezultato ir parsisiųsti savo transformuotą garsą

Naudojimo atvejai

Kalba kalba už turinį, prieinamumą ir kūrybinius projektus

Vaizdo įrašų dubbavimas

Dub vaizdo įrašai į kitas kalbas, kartu išsaugant originalaus garsiakalbio balso savybes.

Emocinis koregavimas

Pakeiskite įrašų emocinį toną: susijaudinkite, ar tai yra neutrali, šilta ir draugiška.

Balso perjungimo gamyba

Paversti nelygius įrašus į poliruotus skambesius su skirtingais balsais ir stiliais.

Balso anonimizacija

Nepaisykite kalbėtojo tapatybės, išsaugant kiekvieną žodį, informuojant ar apsaugant privatumą.

Kalba kalbos modeliams

OpenVoice

Greitas balso konvertavimas su granuliuoto stiliaus valdymu. Pakeiskite balso tapatybę, greitį ir emocijas sekundėmis.

  • Greitas perdirbimas
  • Stilio perdavimas
  • Kryžminės kalbos

Chatterbox

Nulinės spalvos balso klonavimas su smulkiai graikiniu emocijų reguliavimu iš Reemble AI.

  • Emocinė kontrolė
  • Nulinis klonavimas
  • Didelis patikimumas

CosyVoice 2

Tarpkalbinis balso klonavimas 8 kalbomis su natūralia prozodija ir srautinės paramos.

  • 8 kalbos
  • Balso klonavimas
  • Srautas

Dažnai užduodami klausimai

Kalba į kalbą (TS) AI paverčia vieną kalbėtą garso įrašą į skirtingus kalbos įrašus – balso, stiliaus, emocijų ar kalbos keitimą, išsaugant originalius žodžius ir laiką. Kalbos atpažinimas, apdorojimas ir sintezė sujungiami į vieną kanalą.

Tekstas į kalbą konvertuoja rašytinį tekstą į garsą. Kalba į kalbą perima esamą garsą kaip įvesties ir tiesiogiai paverčia jį į naują garsą — išsaugoti natūralų ritmą, pauzes, dėmesį, ir emocijas originalaus įrašo, o ne generuoti kalbą iš plokščio teksto.

Dažnai naudojami tokie vaizdo įrašai kaip dublējimas į kitas kalbas, garsiakalbio balso keitimas įrašuose, emocijų ar garso tono keitimas, balso perdavimų kūrimas iš grubus įrašų, ir anonimizavimas įrašus, išlaikant turinį.

Balso konversijos modeliai, tokie kaip OpenVoice ir RVC, palaiko balso ir balso transformaciją. Tarpkalbinei kalbai CosyVoice 2 ir GPT-SoVITS gali klonuoti ir iš naujo sintezuotis kita kalba. Pokalbis taip pat palaiko informacijos ir garso sintezę.

Taip. Naudodami balso klonavimo modelius, galite pakeisti savo kalbą į kitą kalbą, išsaugant savo balso savybes. AI ištraukia balso tapatybę ir iš naujo sintezuoja garsą tikslinėje kalboje ar stiliuje.

Dujotiekis pirmą kartą perrašo savo kalbą, verčia tekstą į tikslinę kalbą, tada naudoja balso klonavimas sintezuoti išverstą tekstą į savo originalų balsą. Pavyzdžiai kaip CosyVoice 2 palaiko 8 kalbos tarpkalbinės sintezės.

Dėl geriausių rezultatų, įkelkite švarią garsą su minimaliu fono triukšmu. WAV arba FLAC 16kHz ar aukštesnio lygio darbai geriausiai. MP3, OGG, M4A, ir WEBM taip pat yra priimti. Skaidri kalba sukuria tiksliausias transformacijas.

Beveik realiu laiku apdorojama per mūsų API, naudojant greitus modelius, tokius kaip Kokoro sintezei, ir Faster Whisper atpažinimui. Laisvumas priklauso nuo modelio ir garso ilgio, tačiau trumpiems skambesiams pasiekiami po 3 sekundėmis.

Taip. Modeliai, pavyzdžiui Chatterbox, Spark TTS, ir IndexTTS-2 palaiko emocijas ir stilių kontrolę. Jūs galite paversti ramią kalbą į susijaudinusią, liūdna, į laimingas, arba neutralus į dramatišką, išlaikant tuos pačius žodžius ir garsiakalbio tapatybę.

Kalba į kalbą sujungia pripažinimo ir sintezės kreditai. Tipinis 1 minučių konvertavimas naudoja 3-8 kreditus priklausomai nuo pasirinktų modelių. Laisvos klasės modelius, pavyzdžiui Kokoro galima naudoti sintezės žingsnis nulinėmis sąnaudomis.

Nemokami vartotojai gali apdoroti garsą iki 1 minutės. Mokami planai palaiko failus iki 10 minučių. Ilgesniems įrašams, garso įrašams suskaidyti į segmentus arba naudoti mūsų API serijos apdorojimui be ilgio apribojimų.

Taip, visi įkeliami garsai apdorojami mūsų saugiuose GPU serveriuose ir automatiškai ištrinami per 24 valandas. Mes niekada naudojame jūsų garsą treniruoti modelius. Visi pervedimai naudoja šifruotus ryšius ir serverio-serverio ryšio autentiškumas yra patvirtintas.
5.0/5 (1)

Ką mes galėtume pagerinti? Jūsų atsiliepimai padeda mums išspręsti problemas.

Perjungti bet kokią kalbą su AI

Pakeisti balso, emocijų, kalbos, ir stiliaus. Užsiregistruoti nemokamai ir gauti 15,000 simbolių pradėti.