声音克隆

声音克隆指南

使用我们先进的 VAL v1 模型克隆任何声音,创建自定义 AI 语音角色。本指南涵盖了声音克隆过程的所有要点。

克隆方式

方式一:文件上传

上传预先录制的音频文件来创建语音角色。

支持的格式:

文件要求:

时长: 10-30秒内最佳
质量: 清晰音频,背景噪音最小
大小: 单个文件最大 10MB
采样率: 建议 16kHz 或更高

操作步骤:

访问声音克隆页面
点击"上传文件"标签
选择您的音频文件
等待上传完成
进入角色配置

方式二:在线录音

直接在浏览器中录制音频,即时克隆。

要求:

麦克风访问权限
安静的录音环境
稳定的网络连接

操作步骤:

访问声音克隆页面
点击"在线录音"标签
允许浏览器访问麦克风
点击录音按钮开始
清晰地说话 10-30 秒
完成后点击停止
预览您的录音
进入角色配置

角色配置

提供音频输入后,配置您的角色详情:

必填字段

角色名称

为您的语音角色起一个易记的名称
使用描述性名称便于识别
最多 20 个字符

可选字段

角色描述

描述声音特征
注明预期用途
添加相关背景信息
最多 200 个字符

角色头像

上传个人资料图片用于视觉识别
支持格式:JPG、PNG、WebP
最大大小:5MB
推荐尺寸:512x512 像素

高级设置

模型版本

选择用于克隆的 AI 模型:

VAL v1(推荐):最新模型,质量最佳,支持多语言

语言选择

选择音频样本的主要语言:

英语(美式、英式、澳式)
中文(普通话、粤语)
西班牙语、法语、德语、意大利语
日语、韩语
以及 20+ 种其他语言

提示: 选择正确的语言可提高克隆准确度。

人声分离

如果您的音频包含背景噪音或音乐,请启用此选项:

启用: AI 将从背景声音中隔离并提取人声
禁用: 用于干净的音频录音

何时启用:

音频有背景音乐
录音中有多个说话者
存在环境噪音
电话录音

何时禁用:

录音棚级别的录音
纯人声音频
背景噪音极少

克隆流程

点击"创建语音角色"后:

上传: 音频安全上传到我们的服务器
处理: VAL v1 模型分析声音特征
训练: AI 学习独特的声音模式
验证: 质量检查确保克隆成功
完成: 角色准备就绪可供使用

处理时间:

短样本(10-30秒):5-15 秒
中等样本(1-5 分钟):15-30 秒
长样本(5+ 分钟):30-60 秒

质量建议

为获得最佳克隆效果:

音频质量

✅ 使用高质量麦克风或录音
✅ 在安静环境中录制
✅ 避免回声和混响
✅ 保持一致的音量水平
❌ 避免压缩或低比特率音频

内容选择

✅ 包含多样化的句子和表达
✅ 捕捉不同的情感语调
✅ 使用自然的说话速度
✅ 包含停顿和呼吸
❌ 避免单调或机械化的语音

样本长度

推荐(10-30秒): 快速克隆,质量保证

故障排除

常见问题

"音频质量过低"

解决方案:使用更高质量的录音设备或格式
确保采样率至少为 16kHz

"检测到背景噪音"

解决方案:启用人声分离选项
在更安静的环境中重新录制

"样本过短"

解决方案:提供至少 10 秒的清晰语音
如需要可合并多个短片段

"语言不匹配"

解决方案:确保所选语言与音频内容匹配
如不确定可尝试"自动检测"

使用限制

角色创建受您的套餐限制:

套餐	角色数	每月克隆次数
Starter	10	10
Standard	100	100
Premium	无限制	无限制

可能会调整，以定价页面为准。

在用户菜单或我的声音页面查看当前使用情况。

下一步

创建角色后:

预览: 在文字转语音中测试声音
组织: 在角色管理中管理角色
分享: 发布到声音广场(可选)
创作: 在您的项目和内容中使用

需要帮助?查看我们的常见问题或联系 [email protected]