声音制作-华为云

数字内容生产线 METASTUDIO-声音更新记录:2024年12月

2024年12月表1 声音更新记录发音人名称性别 TTS 版本风格语言对话女生女 TTS V7 - 中文广告男声男 TTS V7 - 中文教育女声女 TTS V7 - 中文客服男声男 TTS V7 - 中文客服女声女 TTS V7 - 中文云景行男 TTS V7 - 中文直播男声男 TTS V7 - 中文云英女 TTS V7 营销中文云海男 TTS V7 营销中文云佳女 TTS V7 营销中文云薇女 TTS V7 直播中文云辉男 TTS V7 直播中文云溪女 TTS V7 客服中文

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-创建声音制作任务（第三方模型）:操作步骤

操作步骤登录MetaStudio控制台。单击“声音制作”下方的“开始创建”，进入声音制作页面。选择“第三方模型”页签的“出门问问声音制作”方式。界面左侧是声音制作页面，右侧为声音制作流程，如图1所示。图1 定制声音配置声音制作参数。界面操作详情，如表1所示。表1 界面操作说明区域说明声音制作方式选择“出门问问声音制作”。音频时长为0.5~180分钟，建议5分钟。音频格式为WAV或MP3文件，支持19种语言的声音制作。音频总时长，建议5分钟；单段不低于5秒如果剩余次数为0，可单击“立即购买”，参考购买出门问问小语种克隆套餐的操作流程购买小语种克隆套餐包。请完善声音信息输入声音名称。示例：欢快女声。请制作声音界面提供录音指导，需要按照指导录制1分钟的长音频WAV或MP3文件。WAV或MP3文件支持直接上传，无需压缩，无需携带文案txt文件。如果未使用服务预置文案，声音标签仅作为标签，来区分声音使用场景。请选择声音性别声音的性别，用于匹配声音模型的精准度。如下所示：男生女生请选择原始输入语言上传语料所使用的语言。包含19种语言：中文、英文、粤语、德语、法语、土耳其语、菲律宾语、日语、意大利语、马来语、俄罗斯语、韩语、芬兰语、荷兰语、西班牙语、印尼语、阿拉伯语、葡萄牙语、泰语。须知：当前参数配置仅作为标识，对训练结果没有任何影响。请选择输出模型语言选择输出的声音模型支持的语言。支持如下语言：多语种：输出的声音模型，支持合成的语言类型包括中文、英文、德语、法语、土耳其语、菲律宾语、日语、意大利语、马来语、俄罗斯语、韩语、芬兰语、西班牙语、印尼语、阿拉伯语、葡萄牙语、荷兰语。粤语选择声音标签声音的标签。作用为选择声音时，快速筛选领域。包含如下选项：新闻营销针对上述标签，MetaStudio服务预置了相应的文案内容，如文案样例（基础版）、文案样例（进阶版）和文案样例（高品质）所示。如果使用预置文案，必须选对标签。请输入试听文本请输入试听文本，声音训练完成以后，您可以试听该文本的合成效果。声音授权单击“授权书模板”，下载授权书模板后打印。用户手写相关信息后，重新生成签署后的pdf文件，或者拍摄成jpg或png格式的图片后上传。授权书内容，可参考授权书。联系方式（可选）请输入手机号。单击“提交制作”。弹出“资源消耗提示”对话框。提示用户目前声音制作服务剩余数量，本次将消耗1个资源。如果用户确认无误，单击“确认提交”。声音制作任务提交成功后，界面提示“制作任务提交成功”，如图2所示。声音制作任务提交成功后，需要等待1天左右的时间审核。任务审核通过后，启动声音制作。声音模型制作耗时约5个工作日。图2 制作任务提交成功用户可以单击“查看制作任务列表”，查看声音制作任务审核进展。当状态变更为“系统审核完成”，自动启动算法训练。如果系统存在多个算法训练任务，可能会存在排队和延迟的现象，请耐心等待。

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-真人声音录制:开始录音

开始录音必须录制单人高质量、无噪音或背景音的人声语音，生成音频。支持使用苹果或者安卓手机录制视频，操作请参考手机录制音频。具体的录音注意事项，如表2所示。表2 录音注意事项录音事项说明话筒间距调整与麦克风之间的距离，以一拳距离为宜。不宜离麦太近，防止喷麦或录入呼吸声。录音内容每句文案起始数字编号无需阅读。示例：4. 它不仅拥有出色的功能，还具备卓越的性能，序号4无需阅读。音频格式推荐使用无损音质格式保存音频文件，如WAV、MP3格式。原始录音数据，需为48kHz采样率、16bit编码和单声道。录制风格录制全程保持语境风格一致，避免多种情绪混杂。如直播场景时，录制风格需接近日常直播效果。发音吐字发音吐字清晰、准确，音量适中。如果出现喷麦或嘶嘶声音，建议当前句子重新录制。语速节奏语速自然、平稳，切忌过快过慢、忽快忽慢。音量适中音量不能过小、过大、或忽大忽小，甚至削波爆音。峰值 RMS 在-9左右，无削波。停顿断句在标点或适当断句处自然停顿，需轻声换气。当录制一个长音频文件时，每句之间需要有2~3秒的停顿。重音位置重音位置要合理，避免错误的重音。阅读发音按顺序读，确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题，需重新录制。

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-真人声音录制:录音准备

录音准备表1 录音准备声音类型录制设备和软件录音环境录音文案基础版优先使用专业录音设备录制音频，推荐使用Adobe Audition软件进行录音。如果不具备专业录音设备，可使用手机录制音频，详情请参见手机录制音频。录音环境安静，无回音、混响、噪声，避免出现汽车鸣笛、他人说话、走动等杂声。可使用“分贝仪”应用来测试录音环境的底噪，建议底噪低于0dB。同一批录音必须使用同一套录制设备和环境。建议使用对应版本预置的文案样例：文案样例（基础版）、文案样例（进阶版）、文案样例（高品质）。支持自定义文案，单句文案长短需和样例相当。不建议临场即兴发挥录制，避免出现较多嗯、啊等语气词，影响连贯性。进阶版高品质专业录音棚+高保真MIC录制。

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-真人声音录制:录制提交

录制提交表3 录音内容提交规范声音类型音频说明音频命名基础版需整段录制所有语料生成一个长音频WAV或MP3格式文件，每句之间有2~3秒的停顿。WAV或MP3格式文件可直接上传MetaStudio控制台，无需压缩，无需提供语料txt文件。推荐使用服务预置语料，也可自定义语料。系统会自动根据停顿做切割，自动识别文本内容。音频文件命名无要求，可自定义，命名示例：Voice.wav。进阶版高品质

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-真人声音录制:制作声音模型

制作声音模型准备好音频文件后，就可以上传至MetaStudio控制台，进行声音训练。详细操作如下所示：创建声音制作任务（自研模型）查看声音声音模型制作耗时，如下所示：基础版：约1~3个工作日。进阶版：约1~3个工作日。高品质：约5个工作日。自定义声音应用方式，如下所示：自定义声音生成后，会自动展示在MetaStudio控制台声音列表中，可用于分身数字人视频制作、视频直播或智能交互等场景中。通过MetaStudio的API调用自定义声音。

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-查看声音:操作步骤

操作步骤登录MetaStudio控制台。在左侧导航栏中，单击“任务中心”。选择“声音制作”，确认声音制作任务已训练完成。在左侧导航栏中，单击“我的创作”。选择“声音”，找到已生成的声音，单击声音卡片中的头像，即可试听声音效果。用户还可以执行如下操作：单击“视频制作”，基于已有声音，进行视频制作，操作请参考视频制作。单击“视频直播”，基于已有声音，制作视频直播，操作请参考视频直播。图1 声音

数字内容生产线 METASTUDIO 声音制作

云服务器内容精选

声音制作

7*24

备案

专业服务

退订

建议反馈

售前咨询热线