声音克隆

声音克隆指南

使用我们先进的 VAL v1 模型克隆任何声音,创建自定义 AI 语音角色。本指南涵盖了声音克隆过程的所有要点。

克隆方式

方式一:文件上传

上传预先录制的音频文件来创建语音角色。

支持的格式:

  • WAV
  • MP3
  • OGG

文件要求:

  • 时长: 10-30秒内最佳
  • 质量: 清晰音频,背景噪音最小
  • 大小: 单个文件最大 10MB
  • 采样率: 建议 16kHz 或更高

操作步骤:

  1. 访问声音克隆页面
  2. 点击"上传文件"标签
  3. 选择您的音频文件
  4. 等待上传完成
  5. 进入角色配置

方式二:在线录音

直接在浏览器中录制音频,即时克隆。

要求:

  • 麦克风访问权限
  • 安静的录音环境
  • 稳定的网络连接

操作步骤:

  1. 访问声音克隆页面
  2. 点击"在线录音"标签
  3. 允许浏览器访问麦克风
  4. 点击录音按钮开始
  5. 清晰地说话 10-30 秒
  6. 完成后点击停止
  7. 预览您的录音
  8. 进入角色配置

角色配置

提供音频输入后,配置您的角色详情:

必填字段

角色名称

  • 为您的语音角色起一个易记的名称
  • 使用描述性名称便于识别
  • 最多 20 个字符

可选字段

角色描述

  • 描述声音特征
  • 注明预期用途
  • 添加相关背景信息
  • 最多 200 个字符

角色头像

  • 上传个人资料图片用于视觉识别
  • 支持格式:JPG、PNG、WebP
  • 最大大小:5MB
  • 推荐尺寸:512x512 像素

高级设置

模型版本

选择用于克隆的 AI 模型:

  • VAL v1(推荐):最新模型,质量最佳,支持多语言

语言选择

选择音频样本的主要语言:

  • 英语(美式、英式、澳式)
  • 中文(普通话、粤语)
  • 西班牙语、法语、德语、意大利语
  • 日语、韩语
  • 以及 20+ 种其他语言

提示: 选择正确的语言可提高克隆准确度。

人声分离

如果您的音频包含背景噪音或音乐,请启用此选项:

  • 启用: AI 将从背景声音中隔离并提取人声
  • 禁用: 用于干净的音频录音

何时启用:

  • 音频有背景音乐
  • 录音中有多个说话者
  • 存在环境噪音
  • 电话录音

何时禁用:

  • 录音棚级别的录音
  • 纯人声音频
  • 背景噪音极少

克隆流程

点击"创建语音角色"后:

  1. 上传: 音频安全上传到我们的服务器
  2. 处理: VAL v1 模型分析声音特征
  3. 训练: AI 学习独特的声音模式
  4. 验证: 质量检查确保克隆成功
  5. 完成: 角色准备就绪可供使用

处理时间:

  • 短样本(10-30秒):5-15 秒
  • 中等样本(1-5 分钟):15-30 秒
  • 长样本(5+ 分钟):30-60 秒

质量建议

为获得最佳克隆效果:

音频质量

  • ✅ 使用高质量麦克风或录音
  • ✅ 在安静环境中录制
  • ✅ 避免回声和混响
  • ✅ 保持一致的音量水平
  • ❌ 避免压缩或低比特率音频

内容选择

  • ✅ 包含多样化的句子和表达
  • ✅ 捕捉不同的情感语调
  • ✅ 使用自然的说话速度
  • ✅ 包含停顿和呼吸
  • ❌ 避免单调或机械化的语音

样本长度

  • 推荐(10-30秒): 快速克隆,质量保证

故障排除

常见问题

"音频质量过低"

  • 解决方案:使用更高质量的录音设备或格式
  • 确保采样率至少为 16kHz

"检测到背景噪音"

  • 解决方案:启用人声分离选项
  • 在更安静的环境中重新录制

"样本过短"

  • 解决方案:提供至少 10 秒的清晰语音
  • 如需要可合并多个短片段

"语言不匹配"

  • 解决方案:确保所选语言与音频内容匹配
  • 如不确定可尝试"自动检测"

使用限制

角色创建受您的套餐限制:

套餐角色数每月克隆次数
Starter1010
Standard100100
Premium无限制无限制

可能会调整,以定价页面为准。

在用户菜单或我的声音页面查看当前使用情况。

下一步

创建角色后:

  1. 预览: 在文字转语音中测试声音
  2. 组织: 在角色管理中管理角色
  3. 分享: 发布到声音广场(可选)
  4. 创作: 在您的项目和内容中使用

需要帮助?查看我们的常见问题或联系 [email protected]