语音克隆

使用 AI 复制声音生成语音。

签署自由

参考音频

Step 1: < 上传您想要克隆的声音的音频剪辑( 5- 30 秒清晰发言)。 < strong > step2: 选择下面的模型。 < strong > step 3: 键入您的文本并单击生成。

拖放您的文件到这里( D), 或者浏览浏览

Upload a voice sample to clone from. MP3, WAV, FLAC. The selected model's per-engine limit is shown below — uploads beyond that are auto-trimmed to the cleanest section. Max upload 500MB.

- 或直接记录——

00:00

克隆模型

Reference audio: 5s – 30s (longer is auto-trimmed to the cleanest section)

质量 :

草案草案草案草案草案 HHD 人文、体文、体文、体文、体文、体文、体文、体文、体文、体文、体文

快速预览

要读读的文字

0/5000 字符字符字符字符 · Sign up for 5,000 per generation →

语言应匹配参考音频

语言语言语言

速度速度 1.0x

上传语音样本, 以启动

5,000 字符字符字符字符 — 签名签名跟踪使用

结果成果成果成果成果成果成果成果成果成果成果

上传引用声音, 输入文字, 并生成以听到克隆声音

您所保存的声音

签名签名保存已复制的声音,供日后使用。

语音克隆如何工作

1. 上传参考音频

从您想要克隆的声音中提供10-30秒清晰的语音。音频越清楚, 结果越好。

2. 选择模式

从 OpenVoice、Chatterbox、CosyVoice 2 或 GPT-SOVITS 等克隆模型中选择。每种模型对不同的语言和风格都有独特的优势。

3. 输入文本并生成

输入您想要在克隆声音中使用的文本, 并单击生成。下载或保存该声音供未来使用。

使用案例

供每种创造性和专业需要的语音克隆

内容创建

以您自己的声音创建一致的语音复音, 不重录。修正错误, 添加新区段, 或者在您的声音中生成内容, 而远离麦克风。

多语言多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语

使用您不知道的语言, 并保留您的语音身份。 CosyVoice 2 等跨语言模式可以将内容转换为8种语言。

游戏字符

为游戏、动画和交互式媒体创建独特的字符声音。克隆引用声音并生成无限的对话框行。

听音书

用你克隆的声音高效制作音频书无需几个小时的工作室录音

无障碍

使用先前记录的样本帮助失去声音的人重新说话。保留声音身份供个人和医疗使用。

品牌声音

在所有音频内容中保持一致的品牌声音。克隆你的品牌发言人并制作营销音频、 IVR提示和公告。

最佳成果提示

do do do Do

使用清晰、无噪音录音
更长的样品样本=更好的克隆(见下文指南)
使用单一发言者
记录在安静的环境中
使用自然言语速度
首选WAV或高位位位率 MP3

避免避免

背景噪音或音乐
多名发言者参引
短短剪辑(3秒以下)
重压缩音频
耳语或喊叫
记录中的回声或回动

样本长度如何影响质量

越长,越干净你的参考音频越好克隆越好

样本长度	克隆质量	最佳	获得机会
5–10s	基本基本基本基本	快速测试——能捕捉一般语气,但可能忽略细微差别	自由
30–60s	好	用于多数使用案例的固体克隆—— 记录音、音、音、音、音、口音	自由
2–5 min	太好了	高不忠的克隆——自然反感、各产出的一贯质量	自由帐户
10+ min	好极了	近乎完美的复制——视听书、播客、专业用途的理想	自由帐户
1–2+ hrs	演播室级	在你的声音上微调一个自定义的模型 — — 与原创无法区分	Pro P计划

为了取得最佳效果,使用单一发言者的清洁音频、没有背景音乐和自然演讲。 WAV 或 FLAC 格式保存最详细的内容。

语音克隆计划

开始免费, 需要时升级

自由

5-60秒参考音频
基本克隆质量
聊天箱模型
MP3 输出输出

最受欢迎的

自由帐户

10分钟参考音频+15 000字符
所有克隆模式
HD 质量模式
保存克隆声音
跨语言克隆
所有输出格式

签署自由

职业

2小时+参考音频
工作室级克隆质量
自定义模型微调
批次生成
API 访问
优先处理事项处理

升级

常问问题

AI 语音克隆使用深层次的学习来复制一个人的声音,从一个短的音频样本中复制。一旦克隆,你就可以产生像原发音者一样的新演讲。现代模式只需要5秒钟的参考音频。

聊天盒提供最好的零光克隆,并具有情感控制。 CosyVoice 2 可用于多语言克隆(8种语言 ) 。 GPT- SoVITS优于5秒钟的音频。 OpenVoice 提供颗粒风格控制。

大多数模型使用5-30秒清晰的音频。较长的样本( 最多60秒) 通常产生更好的结果。音频应该是干净的, 单声道, 没有背景音乐或噪音。

您应该只克隆您允许使用的声音。这包括您自己的声音、来自同意的个人的声音或来自合法许可来源的声音。未经授权的语音克隆可能违反您管辖范围内的法律。

是的!跨语言语音克隆模式,如CosyVoice 2 和 GPT-SOVITS 可以以不同语言发声,同时保持克隆语音身份。这对调和和本地化有用。

使用一个单一发言者的干净录音,没有背景音乐或噪音,并且使用同一音量的自然语言。避免耳语、喊叫或经过大量处理的音频。 WAV或FLAC格式在 16 kHz 或 16 kHz 以上可以产生最佳效果。

语音克隆在得到声音拥有者同意或使用自己的声音时是合法的。许多辖区都有保护声音相似权利的法律。绝不要克隆声音来冒充他人、制造深假或欺诈。在克隆他人的声音之前,必须获得适当的许可。

是的,您可以使用克隆声音作为商业用途,只要您有权使用引用声音。这包括您自己的声音,聘请同意的语音演员,或者有适当许可的语音样本。生成的音频可以用于产品、视频和应用。

是的, 注册用户可以将克隆语音配置保存到账户中。保存后, 您可以在不重新加载参考音频的情况下, 将克隆声音再用于子孙后代。此功能可以在您的账户的“ 我的声音” 部分中找到。

象 Chatterbox 这样的模型以克隆声音提供明确的情感控制( 快乐、悲伤、愤怒等) 。其他模型从参考音频中捕捉一般的音调和风格。最理想的情感传输, 请在您的引用样本中包含表达性语言。

语音克隆通常需要3-10秒,视模型和文本长度而定。热电箱和GPT-SOVITS被优化用于快速克隆。随着模型处理参考音频,第一代需要的时间可能稍长一些。

语音克隆使用4x字符的特价定价,例如查特本和乌龟。免费账户在注册时接收了15,000个字符。标准级克隆模型如CosyVoice 2使用2x字符。

5.0/5 (2)

使用 AI 克隆任何声音

上传一个简短的音频样本, 并开始以任何声音生成语音。注册可自由启动。

签署自由视图定价

语音克隆

参考音频

克隆模型

要读读的文字

结果成果成果成果成果成果成果成果成果成果成果

您所保存的声音

语音克隆如何工作

1. 上传参考音频

2. 选择模式

3. 输入文本并生成

使用案例

内容创建

多语言多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语多语

游戏字符

听音书

无障碍

品牌声音

最佳成果提示

do do do Do

避免避免

样本长度如何影响质量

语音克隆计划

常问问题

什么是人工智能语音克隆?

哪个声音克隆模型是最好的?

我需要多少参考音频?

我能克隆任何声音吗?

我能说原发言者不会说的语言吗?

是什么为克隆提供了良好的参考音频样本?

使用声音克隆是否合法和合乎道德?

我能用克隆声音做商业项目吗?

我能保存和再使用克隆声音吗?

语音克隆是否保留了情感和说话风格?

语音克隆过程需要多长时间?

语音克隆要花多少钱?

使用 AI 克隆任何声音