Zamalowanie dźwięku AI

Zastąpić sekcję dźwięku na AI-syntezowaną mówkę, która pasuje do głosu otaczającego. Naprawić złą próbę bez ponownego nagrywania całej rzeczy.

Wyślij dźwięk do Inpain

500 znaków na sekundę audio zastąpione

Przeciągnij i upuść plik tutaj, lub przeglądaj

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

file.mp3

0 MB

Audio źródłowe – sprzątanie do znalezienia złego podejścia

0.00s / 0.00s

Ustawienia zamalowania

0 / 500 znaki
Jak długo do zmieszania punktów splice. 80ms jest domyślnym — wycięcia meczowe czują się naturalne, brak dźwięku podwójne-trygger.
Zarejestruj się, aby korzystać z zamalowania audio
Zamalowanie dźwięku...

Klonowanie głosu i syntezowanie zastępcy...

Przecięcie → klonowanie wokół głosu → rozciągnięcie crossfade
Twój wynik pojawi się w twoim historia pokolenia Kiedy będzie gotowa.
Zamalowane audio gotowe

Przed (Oryginalny)

Po (zamalowane)

Jak działa zamalowanie dźwięku

Inmalaryzacja jest ekwiwalentem audio wypełnienia treści Photoshopa. Klonujemy głos z dźwięku otaczającego twój wybór, syntezujemy nową linię w tym głosie i przeszczepiamy ją krótkim crossfade.

Najlepsze wyniki: pozostawić co najmniej 3 sekundy czystego wypowiedzenia bezpośrednio przed punktem edycji, tak aby kloner miał dobry materiał odniesienia.

Wskazówki na najlepsze wyniki

  • Zachowywać oznaczony zakres jak najwięcej — tylko złe zajęcie
  • Tekst zastępczy powinien być w przybliżeniu taką samą długością, jaką zastępuje
  • Ustaw język, który pasuje do dźwięku źródłowego dla najlepszego dopasowania głosu
  • 80ms krzyżowy jest zazwyczaj niewidzialny; skok do 150ms jeśli usłyszysz kliknięcie
  • Dla długich edycji (>10s), rozważyć ponowne nagrywanie całego fragmentu zamiast

Jak działa zamalowanie dźwięku AI

Redytacje chirurgiczne, porównywalne z głosem, bez ponownego nagrywania.

Krok 1

Wyślij + Mark Range

Wyślij dźwięk i użyj szlifera, aby zaznaczyć początek i koniec sekcji, którą chcesz zastąpić. Wpisz tekst zastępczy.

Krok 2

Klon głosowy + syntezacja

Wydobywamy do 12 sekund czystego dźwięku referencyjnego otaczającego twój wybór, sklonujemy głos głośnika i syntetyzujemy nową linię w tym głosie.

Krok 3

Krzyżyk krzyżowy

Klip syntetyzowany jest wklejany do oryginalnego nagrania z równouprawnioną siłą krzyżową w obydwu punktach edycji. Granice są niesłyszalne.

Plany lakierowania audio

Uruchom bezpłatnie, uaktualnij, gdy potrzebujesz więcej

Darmowe
  • Do 10-minutowych plików źródłowych
  • Tekst zastępczy 500 znaków
  • 4-sekundowe zabarwienie na żądanie
  • 80ms krzyżyk krzyżowy
  • OpenVoice + CosyVoice 2 backends
Najpopularniejsze
Darmowe konto
  • Do 10-minutowych plików źródłowych
  • Tekst zastępczy 5000 znaków
  • Krzyżowanie przemienne (0-250 m)
  • Zamocowanie modelu głosu
  • Historia generacji + ponowna edycja
Zarejestruj się za darmo
Prof.
  • Do 30-minutowych plików źródłowych
  • Tekst zastępczy znaku 100 000
  • Priorytet kolejki GPU
  • Dostęp API (/v1/audio-inpaint /)
  • Zabarwienie serii (wielokrotne zakresy)
Uaktualnij

Często zadawane pytania

Audio inpainting (także zwane audio fill lub mowy overdub) pozwala zastąpić sekcję istniejącego nagrania audio nowym przemówieniem AI-syntezowym, który pasuje do oryginalnego głosu. Jest to audio ekwiwalent wypełnienia treści Photoshop – farba nad częścią, której nie chcesz, wpisz, co powinno tam być, a AI generuje bezproblemową zamianę.

Zaznacz zasięg czasu na zastąpienie, wpisz nową linię dialogową i kliknij Inpain. Nasz AI klonuje głos z dźwięku otaczającego twój wybór, syntetyzuje nową linię w tym głosie, i zwraca ją do nagrania z krótkim krzyżowym fadem, tak aby edycja była niesłyszalna.

Użyj go, gdy masz jedno złe słowo, zły wymówka, wymówka nazwy, przysięgłe słowo lub błąd faktu w inny dobry sposób. Ponowne zapisywanie całego fragmentu często wprowadza niezgodność tonalną z resztą projektu – lakierowanie naprawia tylko to, co wymaga naprawienia, trzymając każdą inną sylabę nietkniętą.

Wolni użytkownicy mogą zamalować pliki do 10 minut długości. Subskrybutorzy mogą zamalować pliki do 30 minut. Sam tekst zastępczy jest ograniczony na 500 znaków dla bezpłatnych użytkowników, 5000 dla bezpłatnych rachunków i 100 000 dla płatnych planów.

Bardzo blisko. AI wykorzystuje do 12 sekund dźwięku otaczającego edycję jako odniesienie głosowe, co wystarczy dla każdego z naszych modeli klonowania (OpenVoice, CosyVoice 2), aby uchwycić tymbre głośnika, pitch i styl mowy. Dla najlepszych wyników, pozostaw co najmniej 3 sekundy czystej mowy bezpośrednio przed punktem edycji.

Domyślnie stosujemy 80ms crossfade w obydwu punktach ślizgowych (główka zamiana i wymiana). Można to nastawić z 0ms (twarde cięcie) do 250ms za pomocą suwaka Crosssfade. Długiejsze krzyżowe fady ukrywają edycję bardziej dokładnie, ale można łatwo mieszać pokrywające się słowa na granicy.

Audio inpainting pochodzi z tego samego języka, co klonowanie głosu. Automatycznie wybieramy OpenVoice dla większości języków i CosyVoice 2 dla chińskich, japońskich i koreańskich. Można przekroczyć model w zaawansowanych ustawieniach.

Naliczasz 500 znaków na sekundę dźwięku zastąpionego. 4-sekundowy koszt fixowania 2000 znaków. Koszt jest niezależny od długości tekstu zastępczego, ponieważ podstawowa synteza klonu jest zablokowana przez czas uruchomienia nowego klipu, a nie długość tekstu.

W ramach naszych Warunków Usługi, można tylko zamalować audio, które posiadasz, lub mieć wyraźne zezwolenie na edycję. Generowanie fałszywych cytatów, oszustwa zawartości lub implikacji jest zabronione. Wodny znak generuje audio i loguje wszystkie zadania do przeglądu nadużyć.

Wycięcie klipu pozostawia zauważającą lukę w tempie i oddychaniu; krzyżowanie dwa bierze liście tonalnej nierówności. Zamalowanie wypełnia lukę mową, która pasuje do otaczającego głosu, więc słuchacze słyszą ciągły, naturalnie dźwiękowy dźwięk audio.

Tak — POST to /v1/audio-inpaint / z plikiem audio, start_sec, end_sec i zamienny_text. Wynik końcowy zwraca zadanie UUID; anketa /v1/speech/results /?uiid=, aby odzyskać niemalowany dźwięk, gdy jest gotowy. Zobacz API docs dla szczegółów.

Jedenaście Labs Speak-to-Speak regeneruje całą linię głosową od zera głosem docelowym. Nasze obrazowanie audio jest chirurgiczne: edytuje tylko zaznaczony zakres, trzyma każdy inny bajt oryginalnego nagrania nietknięty, i pasuje do nowego klipu do otaczającego głosu zamiast oddzielnej biblioteki głosowej.
5.0/5 (1)

Co moglibyśmy ulepszyć? Twoje zwroty zwrotne pomagają nam rozwiązać problemy.

Naprawić dźwięk w sekundach

Zastąpić dowolną część nagrania przez AI-syntezę mowy, która pasuje do oryginalnego głosu. Zarejestruj się, aby rozpocząć.