声音克隆
声音克隆指南
使用我们先进的 VAL v1 模型克隆任何声音,创建自定义 AI 语音角色。本指南涵盖了声音克隆过程的所有要点。
克隆方式
方式一:文件上传
上传预先录制的音频文件来创建语音角色。
支持的格式:
- WAV
- MP3
- OGG
文件要求:
- 时长: 10-30秒内最佳
- 质量: 清晰音频,背景噪音最小
- 大小: 单个文件最大 10MB
- 采样率: 建议 16kHz 或更高
操作步骤:
- 访问声音克隆页面
- 点击"上传文件"标签
- 选择您的音频文件
- 等待上传完成
- 进入角色配置
方式二:在线录音
直接在浏览器中录制音频,即时克隆。
要求:
- 麦克风访问权限
- 安静的录音环境
- 稳定的网络连接
操作步骤:
- 访问声音克隆页面
- 点击"在线录音"标签
- 允许浏览器访问麦克风
- 点击录音按钮开始
- 清晰地说话 10-30 秒
- 完成后点击停止
- 预览您的录音
- 进入角色配置
角色配置
提供音频输入后,配置您的角色详情:
必填字段
角色名称
- 为您的语音角色起一个易记的名称
- 使用描述性名称便于识别
- 最多 20 个字符
可选字段
角色描述
- 描述声音特征
- 注明预期用途
- 添加相关背景信息
- 最多 200 个字符
角色头像
- 上传个人资料图片用于视觉识别
- 支持格式:JPG、PNG、WebP
- 最大大小:5MB
- 推荐尺寸:512x512 像素
高级设置
模型版本
选择用于克隆的 AI 模型:
- VAL v1(推荐):最新模型,质量最佳,支持多语言
语言选择
选择音频样本的主要语言:
- 英语(美式、英式、澳式)
- 中文(普通话、粤语)
- 西班牙语、法语、德语、意大利语
- 日语、韩语
- 以及 20+ 种其他语言
提示: 选择正确的语言可提高克隆准确度。
人声分离
如果您的音频包含背景噪音或音乐,请启用此选项:
- 启用: AI 将从背景声音中隔离并提取人声
- 禁用: 用于干净的音频录音
何时启用:
- 音频有背景音乐
- 录音中有多个说话者
- 存在环境噪音
- 电话录音
何时禁用:
- 录音棚级别的录音
- 纯人声音频
- 背景噪音极少
克隆流程
点击"创建语音角色"后:
- 上传: 音频安全上传到我们的服务器
- 处理: VAL v1 模型分析声音特征
- 训练: AI 学习独特的声音模式
- 验证: 质量检查确保克隆成功
- 完成: 角色准备就绪可供使用
处理时间:
- 短样本(10-30秒):5-15 秒
- 中等样本(1-5 分钟):15-30 秒
- 长样本(5+ 分钟):30-60 秒
质量建议
为获得最佳克隆效果:
音频质量
- ✅ 使用高质量麦克风或录音
- ✅ 在安静环境中录制
- ✅ 避免回声和混响
- ✅ 保持一致的音量水平
- ❌ 避免压缩或低比特率音频
内容选择
- ✅ 包含多样化的句子和表达
- ✅ 捕捉不同的情感语调
- ✅ 使用自然的说话速度
- ✅ 包含停顿和呼吸
- ❌ 避免单调或机械化的语音
样本长度
- 推荐(10-30秒): 快速克隆,质量保证
故障排除
常见问题
"音频质量过低"
- 解决方案:使用更高质量的录音设备或格式
- 确保采样率至少为 16kHz
"检测到背景噪音"
- 解决方案:启用人声分离选项
- 在更安静的环境中重新录制
"样本过短"
- 解决方案:提供至少 10 秒的清晰语音
- 如需要可合并多个短片段
"语言不匹配"
- 解决方案:确保所选语言与音频内容匹配
- 如不确定可尝试"自动检测"
使用限制
角色创建受您的套餐限制:
| 套餐 | 角色数 | 每月克隆次数 |
|---|---|---|
| Starter | 10 | 10 |
| Standard | 100 | 100 |
| Premium | 无限制 | 无限制 |
可能会调整,以定价页面为准。
在用户菜单或我的声音页面查看当前使用情况。
下一步
创建角色后:
需要帮助?查看我们的常见问题或联系 [email protected]