语音克隆

使用 AI 复制声音生成语音 。

参考音频

拖放您的文件到这里( D), 或者 浏览浏览

Upload clear speech (minimum varies by model, 3-15s). MP3, WAV, FLAC. Max 20MB.

file.mp3

0 MB
音频质量 ...
持续期限: -- 音大声: -- 安静: --
- 或直接记录——
00:00

克隆模型

最小音频长度 : 5s

质量 :
快速预览

要读读的文字

语言应匹配参考音频
5 字符字符字符字符 签名签名 跟踪使用

结果成果成果成果成果成果成果成果成果成果成果

上传引用声音, 输入文字, 并生成以听到克隆声音

克隆的声音 和产生演讲...

0:00 0:00

您所保存的声音

签名签名 保存已复制的声音,供日后使用。

语音克隆如何工作

1. 上传参考音频

从您想要克隆的声音中提供10-30秒清晰的语音。 音频越清楚, 结果越好 。

2. 选择模式

从 OpenVoice、Chatterbox、CosyVoice 2 或 GPT-SOVITS 等克隆模型中选择。 每种模型对不同的语言和风格都有独特的优势 。

3. 输入文本并生成

输入您想要在克隆声音中使用的文本, 并单击生成。 下载或保存该声音供未来使用 。

使用案例

供每种创造性和专业需要的语音克隆

内容创建

以您自己的声音创建一致的语音复音, 不重录 。 修正错误, 添加新区段, 或者在您的声音中生成内容, 而远离麦克风 。

多语言多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语

用您不会说的语言说话

游戏字符

为游戏、动画和交互式媒体创建独特的字符声音。 克隆引用声音并生成无限的对话框行 。

听音书

用你克隆的声音 高效制作音频书 无需几个小时的工作室录音

无障碍

使用先前记录的样本帮助失去声音的人重新说话。 保留声音身份供个人和医疗使用。

品牌声音

在所有音频内容中保持一致的品牌声音。 克隆你的品牌发言人并制作营销音频、 IVR提示和公告。

最佳成果提示

do do do Do

  • 使用清晰、无噪音录音
  • 瞄准10至30秒钟的演讲时间
  • 使用单一发言者
  • 记录在安静的环境中
  • 使用自然言语速度
  • 首选WAV或高位位位率 MP3

避免避免

  • 背景噪音或音乐
  • 多名发言者参引
  • 短短剪辑(3秒以下)
  • 重压缩音频
  • 耳语或喊叫
  • 记录中的回声或回动

样本长度如何影响质量

越长,越干净 你的参考音频越好 克隆越好

样本长度 克隆质量 最佳 获得机会
5–10s 基本 基本 基本 基本 快速测试——能捕捉一般语气,但可能忽略细微差别 自由
30–60s 用于多数使用案例的固体克隆—— 记录音、 音、 音、 音、 音、 口音 自由
2–5 min 太好了 高不忠的克隆——自然反感、各产出的一贯质量 自由帐户
10+ min 好极了 近乎完美的复制——视听书、播客、专业用途的理想 自由帐户
1–2+ hrs 演播室级 在你的声音上微调一个自定义的模型 — — 与原创无法区分 Pro P计划

为了取得最佳效果,使用单一发言者的清洁音频、没有背景音乐和自然演讲。 WAV 或 FLAC 格式保存最详细的内容。

语音克隆计划

开始免费, 需要时升级

自由
  • 5-60秒参考音频
  • 基本克隆质量
  • 聊天箱模型
  • MP3 输出输出
最受欢迎的
自由帐户
  • 10分钟参考音频+15 000字符
  • 所有克隆模式
  • HD 质量模式
  • 保存克隆声音
  • 跨语言克隆
  • 所有输出格式
签署自由
职业
  • 2小时+参考音频
  • 工作室级克隆质量
  • 自定义模型微调
  • 批次生成
  • API 访问
  • 优先处理事项处理
升级

常问问题

AI 语音克隆使用深层次的学习来复制一个人的声音,从一个短的音频样本中复制。 一旦克隆,你就可以产生像原发音者一样的新演讲。 现代模式只需要5秒钟的参考音频。

聊天盒提供最好的零光克隆,并具有情感控制。 CosyVoice 2 可用于多语言克隆(8种语言 ) 。 GPT- SoVITS优于5秒钟的音频。 OpenVoice 提供颗粒风格控制 。

大多数模型使用5-30秒清晰的音频。 较长的样本( 最多60秒) 通常产生更好的结果。 音频应该是干净的, 单声道, 没有背景音乐或噪音 。

您应该只克隆您允许使用的声音。 这包括您自己的声音、来自同意的个人的声音或来自合法许可来源的声音。 未经授权的语音克隆可能违反您管辖范围内的法律。

是的!跨语言语音克隆模式,如CosyVoice 2 和 GPT-SOVITS 可以以不同语言发声,同时保持克隆语音身份。 这对调和和本地化有用。

使用一个单一发言者的干净录音,没有背景音乐或噪音,并且使用同一音量的自然语言。 避免耳语、喊叫或经过大量处理的音频。 WAV或FLAC格式在 16 kHz 或 16 kHz 以上可以产生最佳效果。

语音克隆在得到声音拥有者同意或使用自己的声音时是合法的。 许多辖区都有保护声音相似权利的法律。 绝不要克隆声音来冒充他人、制造深假或欺诈。 在克隆他人的声音之前,必须获得适当的许可。

是的,您可以使用克隆声音作为商业用途,只要您有权使用引用声音。这包括您自己的声音,聘请同意的语音演员,或者有适当许可的语音样本。 生成的音频可以用于产品、视频和应用。

是的, 注册用户可以将克隆语音配置保存到账户中 。 保存后, 您可以在不重新加载参考音频的情况下, 将克隆声音再用于子孙后代 。 此功能可以在您的账户的“ 我的声音” 部分中找到 。

象 Chatterbox 这样的模型以克隆声音提供明确的情感控制( 快乐、 悲伤、 愤怒等) 。 其他模型从参考音频中捕捉一般的音调和风格。 最理想的情感传输, 请在您的引用样本中包含表达性语言 。

语音克隆通常需要3-10秒,视模型和文本长度而定。 热电箱和GPT-SOVITS被优化用于快速克隆。 随着模型处理参考音频,第一代需要的时间可能稍长一些。

语音克隆使用4x字符的特价定价,例如查特本和乌龟。免费账户在注册时接收了15,000个字符。标准级克隆模型如CosyVoice 2使用2x字符。
5.0/5 (1)

使用 AI 克隆任何声音

上传一个简短的音频样本, 并开始以任何声音生成语音。 注册可自由启动 。