云服务器内容精选

  • 制作声音模型 准备好音频文件后,就可以上传至MetaStudio控制台,进行声音训练。详细操作如下所示: 创建声音制作任务(华为模型) 查看声音 声音模型制作耗时,如下所示: 基础版:约1~3个工作日。 进阶版:约1~3个工作日。 高品质:约5个工作日。 自定义声音应用方式,如下所示: 自定义声音生成后,会自动展示在MetaStudio控制台声音列表中,可用于分身数字人视频制作、 视频直播 或智能交互等场景中。 通过MetaStudio的API调用自定义声音。
  • 开始录音 必须录制单人高质量、无噪音或背景音的人声语音,生成音频。支持使用苹果或者安卓手机录制视频,操作请参考手机录制音频。 具体的录音注意事项,如表2所示。 表2 录音注意事项 录音事项 说明 话筒间距 调整与麦克风之间的距离,以一拳距离为宜。不宜离麦太近,防止喷麦或录入呼吸声。 录音内容 每句文案起始数字编号无需阅读。 示例:4. 它不仅拥有出色的功能,还具备卓越的性能,序号4无需阅读。 音频格式 推荐使用无损音质格式保存音频文件,如WAV格式。 原始录音数据,需未经MP3等编码器编码,且为48kHz采样率、16bit编码和单声道。 录制风格 录制全程保持语境风格一致,避免多种情绪混杂。如直播场景时,录制风格需接近日常直播效果。 发音吐字 发音吐字清晰、准确,音量适中。如果出现喷麦或嘶嘶声音,建议当前句子重新录制。 语速节奏 语速自然、平稳,切忌过快过慢、忽快忽慢。 音量适中 音量不能过小、过大、或忽大忽小,甚至削波爆音。峰值 RMS 在-9左右,无削波。 停顿断句 在标点或适当断句处自然停顿,需轻声换气。 当录制一个长音频文件时,每句之间需要有2~3秒的停顿。 重音位置 重音位置要合理,避免错误的重音。 阅读发音 按顺序读,确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题,需重新录制。
  • 录音准备 表1 录音准备 声音类型 录制设备和软件 录音环境 录音文案 基础版 优先使用专业录音设备录制音频,推荐使用Adobe Audition软件进行录音。 如果不具备专业录音设备,可使用手机录制音频,详情请参见手机录制音频。 录音环境安静,无回音、混响、噪声,避免出现汽车鸣笛、他人说话、走动等杂声。 可使用“分贝仪”应用来测试录音环境的底噪,建议底噪低于0dB。 同一批录音必须使用同一套录制设备和环境。 建议使用对应版本预置的文案样例:文案样例(基础版)、文案样例(进阶版)、文案样例(高品质)。 支持自定义文案,单句文案长短需和样例相当。 不建议临场即兴发挥录制,避免出现较多嗯、啊等语气词,影响连贯性。 进阶版 高品质 专业录音棚+高保真MIC录制。
  • 制作声音模型 准备好音频文件后,就可以上传至MetaStudio控制台,进行声音训练。详细操作如下所示: 创建声音制作任务(华为模型) 查看声音 声音模型制作耗时,如下所示: 基础版:约1~3个工作日。 进阶版:约1~3个工作日。 高品质:约5个工作日。 自定义声音应用方式,如下所示: 自定义声音生成后,会自动展示在MetaStudio控制台声音列表中,可用于分身数字人视频制作、视频直播或智能交互等场景中。 通过MetaStudio的API调用自定义声音。