Àkọlé àwòrán

Àwọn àwòrán àwòrán AI

Replace a section of audio with AI-synthesized speech that matches the surrounding voice. Fix a bad take without re-recording the whole thing.

A kò ní àwọn ìrànwọ́ TTS nínú ìtàn rẹ̀. Yọ̀ọ̀kan rán wà láti fàyè gba àwọn rẹ̀! Fi Ojú Rẹ̀ pamọ́

Fi Ojúkọ̀ Pánẹ́ẹ̀lì Hàn

Àwọn àyọkà 500 nínú ìsàlẹ̀-ilà ìṣàfarawé

Gbé àwọn fáìlì rẹ̀ lọ́wọ́lọ́wọ́ síbẹ̀, tàbí Wá

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

fáìlì.mp3

0 MB

Source audio — scrub to find the bad take

0.00s / 0.00s

Àwọn Àtòjọ-ẹ̀yàn

0 / 500 Àwọn àyọkà
How long to blend the splice points. 80ms is the default — match-cuts feel natural, no audible double-trigger.
Ṣẹ̀dà láti lo àwọn àwòrán àìṣàfilọ́lẹ̀
Fi àwòrán àwòrán pamọ́...

Ń kọ́lù àwòrán àti ìṣàfarawe àwọn ìṣàmúlò-ètò...

Ìṣàfilọ́lẹ̀ → ìṣàfilọ́lẹ̀ àwòrán ààyè-iṣẹ́ → ìṣàfilọ́lẹ̀ láti inú ìṣàfarawé
Ń gba àwọn ìṣàmúlò-ètò láti ṣẹ́? Àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn generation history Tí a bá tì ṣẹ̀dà.
Àwọn àkọlé àwòrán

Àwọn àwọn ààyè-iṣẹ́

Àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Ṣàfikún Àwòrán Inpainted

Bií Àwọn Àwọn Àkọ́kọ́ Àkọ́kọ́ Rẹ́

Inpainting is the audio equivalent of Photoshop's content-aware fill. We clone the voice from the audio surrounding your selection, synthesize the new line in that voice, and splice it back with a short crossfade.

Best results: leave at least 3 seconds of clean speech immediately before the edit point so the cloner has good reference material.

Àwọn Ìṣàmúlò-ètò fún Àwọn Àtòjọ-ẹ̀yàn

  • Keep the marked range as tight as possible — only the bad take
  • Àkọlé àwòrán Àwọn àwọn àyọkà ìṣàmúlò-ètò yẹ ki o jẹ́ ìgbà jú ohun tí o ń pàtó lọ
  • Àtòjọ àwọn ìṣàmúlò-ètò fún ìṣàmúlò-ètò ìṣàfihàn àwọn ìrísí-lẹ́tà fún ìṣàfihàn àwòrán tí o dara ju
  • 80ms crossfade ní pàtó pé kò lè rí; bọ́tìnì sí 150ms tí o bá gbọ́ kọ́ọ̀kan
  • Fun àwọn ìṣàmúlò-ètò ìgbà (>10s), róòlú ìṣàfihàn ìṣàfarawé àwọn ààyè-iṣẹ́ nípa

Bií a ṣe lè Lódúró Ìṣàfilọ́lẹ̀ Àwọn Àmì-ìwé AI

Àwọn ìṣàmúlò-ètò ìṣàfarawé, àwọn ìṣàmúlò-ètò ìṣàfarawé, àti àwọn sáà ìṣàfilọ́lẹ̀.

Àkóónú 1

Àwọn ààyè-iṣẹ́

Fi àwòrán rẹ pamọ́ sínú àti ló àwọn àwọn àmì-ìwé láti fi àmì-ìwé hàn nínú ìṣàfihàn/ìparì ààyè-iṣẹ́ tí o fẹ́ láti pàtó. Ṣàfihàn àwọn àkọlé àti àwọn àmì-ìwé ìpàtó.

Àkóónú 2

Àwọn Àmì-ìwé

We extract up to 12 seconds of clean reference audio surrounding your selection, clone the speaker's voice, and synthesize the new line in that voice.

Àkóónú ààyè-iṣẹ́

Àwọn àwọn ìṣàfarawé àwọn àwọn ìṣàfarawé

The synthesized clip is spliced into the original recording with an equal-power crossfade at both edit points. The boundaries are inaudible.

Àwọn Àwọn Ààyè-iṣẹ́ Àwọn Àwòrán

Ṣílẹ̀ ọ̀fẹ́, ṣíṣàfihàn tí o bà fẹ́ diẹ́ sii

Àìfẹ́
  • Àwọn fáìlì ìṣàmúlò-ètò tí o tó 10 àwọn iṣẹ́jú
  • Àwọn àyọkà ìṣàfarawé àwọn àmì-ìwé 500
  • 4-sekondì àwọn àwọ̀ àwọn ìṣàmúlò-ètò
  • 80ms crossfade splice
  • Àwọn ààyè-iṣẹ́ OpenVoice + CosyVoice 2
Àwọn Àkọ́gbégbé
Àwọn
  • Àwọn fáìlì ìṣàmúlò-ètò tí o tó 10 àwọn iṣẹ́jú
  • Àwọn àyọkà ìṣàfarawé àwọn àmì-ìwé 5,000
  • Tunable crossfade (0-250ms)
  • Àwọn ìṣàmúlò-ètò ìṣàfarawé àwọn ìṣàmúlò-ètò ìsàlẹ̀-ètò
  • Ìtàn ìṣàfarawégbè + ìṣàfarawé padà
Ṣẹ̀dà
Àwọn
  • Àwọn fáìlì ìṣàmúlò-ètò láti déètì 30
  • Àwọn àyọkà ìsàlẹ̀-ilà 100,000
  • Àwọn ìṣàmúlò-ètò GPU ìṣàfarawé
  • Àwọn ìṣàfihàn API (/v1/audio-inpaint/)
  • Àwọn àwọn ìṣàfarawé àwọn àwọn ìṣàmúlò-ètò
_Ṣàfikún

Àwọn Àtòjọ-ẹ̀yàn

Ìṣàfihàn àwòrán (tí a pè ní ìṣàfihàn àwòrán tàbí ìṣàfihàn àwòrán-ìṣàfihàn) gbá ọ̀pọ̀lọpọ̀ àwọn ààyè-iṣẹ́ àwọn àwòrán tí a tí wa nípa àwọn àwòrán-ìṣàfihàn tuntun tí a tí kọ̀ọ̀kan-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-ìṣàfihàn-i

Àwọn àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn àwọn ààyè-iṣẹ́ àwọn àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ à

Use it when you have a single bad word, mispronunciation, name slip, swear word, or fact error in an otherwise-good take. Re-recording the entire passage often introduces tonal mismatch with the rest of the project — inpainting fixes only what needs fixing while keeping every other syllable intact.

Free users can inpaint files up to 10 minutes long. Subscribers can inpaint files up to 30 minutes. The replacement text itself is capped at 500 characters for free users, 5,000 for free accounts, and 100,000 for paid plans.

Ó kù jú lọ. AI náà lò síì àwọn ìsẹ̀yìn àwọn ìsẹ́yìn àwọn ìṣàfihàn bí àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfi

A fi 80ms pọ́n-pánẹ́ẹ̀lì ìṣàfarawe-ìgbà nínú àwọn ààyè splice mejí (ọ̀rọ̀→ìṣàmúlò-ètò àti ìṣàmúlò-ètò→ìjáde) lórí ìpéwọ̀n. O lè fi àwọn àwọn ìṣàfàdì pọ̀ jú 0ms (ìjádé tójú) lọ́wọ́lù sí 250ms láti inú àwọn ìṣàfihàn Ìṣàfihàn. Ìṣàfihàn tí o jú lọ́wọ́lù jú ìṣàfihàn lọ́wọ́lù lọ́wọ́lù lọ́wọ́lù lọ́wọ́lù lójú àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn à

Audio inpainting follows the same language coverage as voice cloning. We auto-pick OpenVoice for most languages and CosyVoice 2 for Chinese, Japanese, and Korean. You can override the model in advanced settings.

O tí a fi àwọn àmì-àṣírí 500 lórí ìsẹ̀kan tí a fi pamọ́ sípò. Àwọn àmì-àṣírí àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn àmì-àṣírí 2,000. Àwọn àmì-àṣírí náà jẹ́ aládárà láti inú ìṣàmúlò-ètò ìṣàfihàn, láti igba tí ìṣàfihàn ìṣàmúlò-ètò ìṣàfihàn tí a fi pamọ́ sípò nípa ìgbà ìṣàfihàn àwọn àyọkà tuntun, kò ní pàtó ìgbà ìṣàfihàn àwọn àmì-àṣírí.

Per our Terms of Service, you may only inpaint audio you own or have explicit permission to edit. Generating fake quotes, deceptive content, or impersonations is prohibited. We watermark generated audio and log all inpainting jobs for abuse review.

Cutting a clip leaves a noticeable gap in pacing and breath; cross-fading two takes leaves a tonal mismatch. Inpainting fills the gap with speech that matches the surrounding voice, so listeners hear continuous, natural-sounding audio.

Ya — POST sí /v1/audio-inpaint/ látì fáìlì ìraǹrọ̀, ìṣàfihàn_sékè, ìpari_sékè, àtí àkọ́lé_ìgbàdúró. Ààyè ìparí yí iṣẹ́ UUID padà; àwọn àgbègbè /v1/speech/results/?uuid= látì gba ìraǹrọ̀ ìraǹrọ̀ látì ìṣàfihàn. Wòyé àwọn àkọ́lé API fún àwọn ìròyìn.

ElevenLabs Speech-to-Speech tí n bọ́ àwọn àyọkà ìranṣẹ́ ìtàn láti inú ìranṣẹ́ ìjánu-ìjánù. Àwọn àwọn àwọn àwòrán wa ní àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn à
5.0/5 (1)

Àwọn àwọn àgbéwọlé rẹ̀ lè jẹ́ ìrànwọ́ fún wa.

Ṣàtunkọ Àwòrán Rẹ̀ nínú àwọn ìṣísẹ̀

Replace any part of any recording with AI-synthesized speech that matches the original voice. Sign up free to start.