真人声音录制

客户录制真人音频，上传至MetaStudio进行AI训练，即可得到和真人音色1:1复刻的声音模型。

声音模型可实现文本转语音，应用于数字人视频制作、直播、交互问答等场景中。不同版本录制规格如下：

基础版：20句，每个音频文件时长约10秒。音频总时长为3~10分钟，建议5分钟。
进阶版：100句，每个音频文件时长约10秒。音频总时长10~30分钟，建议15分钟。
高品质：300-500句，每个音频文件时长约10秒。音频总时长1小时以上，建议1小时。

原声录制音频和其对应生成的音色播报示例，如试听音频样例所示。

录音准备

声音类型

录制设备和软件

录音环境

录音文案

基础版

优先使用专业录音设备录制音频，推荐使用Adobe Audition软件进行录音。

如果不具备专业录音设备，可使用手机录制音频，详情请参见手机录制音频。

录音环境安静，无回音、混响、噪声，避免出现汽车鸣笛、他人说话、走动等杂声。
可使用“分贝仪”应用来测试录音环境的底噪，建议底噪低于0dB。
同一批录音必须使用同一套录制设备和环境。

建议使用对应版本预置的文案样例：文案样例（基础版）、文案样例（进阶版）、文案样例（高品质）。

支持自定义文案，单句文案长短需和样例相当。

每个音频文件时长为5~15秒，不能超过15秒，否则会导致声音模型训练失败。

不建议临场即兴发挥录制，避免出现较多嗯、啊的语气词，影响连贯性。

进阶版

优先使用专业录音设备录制音频，推荐使用Adobe Audition软件进行录音。

如果不具备专业录音设备，可使用手机录制音频，详情请参见手机录制音频。

录音环境安静，无回音、混响、噪声，避免出现汽车鸣笛、他人说话、走动等杂声。
可使用“分贝仪”应用来测试录音环境的底噪，建议底噪低于0dB。
同一批录音必须使用同一套录制设备和环境。

建议使用对应版本预置的文案样例：文案样例（基础版）、文案样例（进阶版）、文案样例（高品质）。

支持自定义文案，单句文案长短需和样例相当。

每个音频文件时长为5~15秒，不能超过15秒，否则会导致声音模型训练失败。

不建议临场即兴发挥录制，避免出现较多嗯、啊的语气词，影响连贯性。

高品质

专业录音棚+高保真MIC录制。

录音环境安静，无回音、混响、噪声，避免出现汽车鸣笛、他人说话、走动等杂声。
可使用“分贝仪”应用来测试录音环境的底噪，建议底噪低于0dB。
同一批录音必须使用同一套录制设备和环境。

建议使用对应版本预置的文案样例：文案样例（基础版）、文案样例（进阶版）、文案样例（高品质）。

支持自定义文案，单句文案长短需和样例相当。

每个音频文件时长为5~15秒，不能超过15秒，否则会导致声音模型训练失败。

不建议临场即兴发挥录制，避免出现较多嗯、啊的语气词，影响连贯性。

录制设备和软件

优先使用专业录音设备录制音频，推荐使用Adobe Audition软件进行录音。

如果不具备专业录音设备，可使用手机录制音频，详情请参见手机录制音频。

优先使用专业录音设备录制音频，推荐使用Adobe Audition软件进行录音。

如果不具备专业录音设备，可使用手机录制音频，详情请参见手机录制音频。

专业录音棚+高保真MIC录制。

录音环境

录音环境安静，无回音、混响、噪声，避免出现汽车鸣笛、他人说话、走动等杂声。
可使用“分贝仪”应用来测试录音环境的底噪，建议底噪低于0dB。
同一批录音必须使用同一套录制设备和环境。

录音环境安静，无回音、混响、噪声，避免出现汽车鸣笛、他人说话、走动等杂声。
可使用“分贝仪”应用来测试录音环境的底噪，建议底噪低于0dB。
同一批录音必须使用同一套录制设备和环境。

录音环境安静，无回音、混响、噪声，避免出现汽车鸣笛、他人说话、走动等杂声。
可使用“分贝仪”应用来测试录音环境的底噪，建议底噪低于0dB。
同一批录音必须使用同一套录制设备和环境。

录音文案

建议使用对应版本预置的文案样例：文案样例（基础版）、文案样例（进阶版）、文案样例（高品质）。

支持自定义文案，单句文案长短需和样例相当。

每个音频文件时长为5~15秒，不能超过15秒，否则会导致声音模型训练失败。

不建议临场即兴发挥录制，避免出现较多嗯、啊的语气词，影响连贯性。

建议使用对应版本预置的文案样例：文案样例（基础版）、文案样例（进阶版）、文案样例（高品质）。

支持自定义文案，单句文案长短需和样例相当。

每个音频文件时长为5~15秒，不能超过15秒，否则会导致声音模型训练失败。

不建议临场即兴发挥录制，避免出现较多嗯、啊的语气词，影响连贯性。

建议使用对应版本预置的文案样例：文案样例（基础版）、文案样例（进阶版）、文案样例（高品质）。

支持自定义文案，单句文案长短需和样例相当。

每个音频文件时长为5~15秒，不能超过15秒，否则会导致声音模型训练失败。

不建议临场即兴发挥录制，避免出现较多嗯、啊的语气词，影响连贯性。

开始录音

录音事项

说明

话筒间距

调整与麦克风之间的距离，以一拳距离为宜。不宜离麦太近，防止喷麦或录入呼吸声。

录音内容

每句文案起始数字编号无需阅读。

示例：4. 它不仅拥有出色的功能，还具备卓越的性能，序号4无需阅读。

音频格式

推荐使用无损音质格式保存音频文件，如WAV格式。

原始录音数据，需未经MP3等编码器编码，且为48kHz采样率、16bit编码和单声道。

录制风格

全程风格保持一致。如直播场景时，录制风格需接近日常直播效果。

发音吐字

发音吐字清晰、准确，音量适中。如果出现喷麦或嘶嘶声音，建议当前句子重新录制。

语速节奏

语速自然、平稳，切忌过快过慢、忽快忽慢。

音量适中

音量不能过小、过大、或忽大忽小，甚至削波爆音。峰值RMS在-9左右，无削波

停顿断句

在标点或适当断句处自然停顿，需轻声换气。

如果录制一个长音频文件时，每句之间需要有2~3秒的停顿。

重音位置

重音位置要合理，避免错误的重音。

阅读发音

按顺序读，确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题，需整句重新录制。

说明

调整与麦克风之间的距离，以一拳距离为宜。不宜离麦太近，防止喷麦或录入呼吸声。

每句文案起始数字编号无需阅读。

示例：4. 它不仅拥有出色的功能，还具备卓越的性能，序号4无需阅读。

推荐使用无损音质格式保存音频文件，如WAV格式。

原始录音数据，需未经MP3等编码器编码，且为48kHz采样率、16bit编码和单声道。

全程风格保持一致。如直播场景时，录制风格需接近日常直播效果。

发音吐字清晰、准确，音量适中。如果出现喷麦或嘶嘶声音，建议当前句子重新录制。

语速自然、平稳，切忌过快过慢、忽快忽慢。

音量不能过小、过大、或忽大忽小，甚至削波爆音。峰值RMS在-9左右，无削波

在标点或适当断句处自然停顿，需轻声换气。

如果录制一个长音频文件时，每句之间需要有2~3秒的停顿。

重音位置要合理，避免错误的重音。

按顺序读，确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题，需整句重新录制。

录制内容提交规范

声音类型

音频说明

音频命名

基础版

支持整段录制或按句录制，详细说明如•（推荐）方式一：整段录制、•方式二：按句录制和•方式三：使用自定义语料按句录制所示。

符合手机录制音频-表1中“音频命名”的要求。

进阶版

支持整段录制或按句录制，详细说明如•（推荐）方式一：整段录制、•方式二：按句录制和•方式三：使用自定义语料按句录制所示。

符合手机录制音频-表1中“音频命名”的要求

高品质

仅支持整段录制，详细说明如•（推荐）方式一：整段录制所示。

音频文件命名无要求，可自定义，示例：VoiceClone.wav。

音频说明

支持整段录制或按句录制，详细说明如•（推荐）方式一：整段录制、•方式二：按句录制和•方式三：使用自定义语料按句录制所示。

仅支持整段录制，详细说明如•（推荐）方式一：整段录制所示。

音频命名

符合手机录制音频-表1中“音频命名”的要求。

符合手机录制音频-表1中“音频命名”的要求

音频文件命名无要求，可自定义，示例：VoiceClone.wav。

（推荐）方式一：整段录制

所有语料录制成一个长音频WAV文件，每句之间需要有2~3秒的停顿。直接上传MetaStudio控制台，无需压缩，无需提供语料txt文件。

推荐使用服务预置语料，也可自定义语料。系统会自动根据停顿做切割，自动进行文本识别。

方式二：使用预置语料按句录制

每个音频文件时长约10秒，不能超过15秒，否则会导致声音模型训练失败。

使用预置语料，创建声音制作任务的时候，必须选对声音标签。并将所有音频文件压缩成一个zip文件，示例如图1所示。系统会自动匹配预置文本。

方式三：使用自定义语料按句录制

每个音频文件时长为5~15秒，不能超过15秒，否则会导致声音模型训练失败。

每个音频文件需要匹配一个文本txt文件，且音频内容必须与文本内容完全一致，示例如图2所示。系统会自动使用传入的文本匹配音频。

制作声音模型

准备好音频文件后，就可以上传至MetaStudio控制台，进行声音训练。详细操作如下所示：

创建声音制作任务

查看声音

声音模型制作耗时，如下所示：

基础版：约1~3个工作日。

进阶版：约1~3个工作日。

高品质：约5个工作日。

自定义声音应用方式，如下所示：

自定义声音生成后，会自动展示在MetaStudio控制台声音列表中，可用于分身数字人视频制作、视频直播或智能交互等场景中。

通过MetaStudio的API调用自定义声音。

1分钟教程让您快速上手体验

基于MetaStudio控制台提交数字人训练

数字人应用制作

您只需上传正面照片，在5秒内就能生成自己的专属风格化数字人形象，低门槛数字人制作，捏脸制作，所见即所得。

数字人直播服务

MetaStudio虚拟直播让用户无需专业的动作和昂贵不便的面部捕捉设备，只需普通的摄像头就能实现对人体动作和表情的高精度捕捉。

视频制作服务

MetaStudio数字人视频制作，实现图片、视频、文档一键转化，用户仅需输入文本或录入语音，依托华为强大的AI智能功能，快速生成数字人播报视频，让数字人演绎你的表达。

专家咨询

数字内容生产线

数字内容生产线

真人声音录制

录音准备

录音准备

开始录音

开始录音

录制内容提交规范

录制内容提交规范

1分钟教程让您快速上手体验

1分钟教程让您快速上手体验

文档与学习成长

快速入门

常见问题

产品文档