真人声音录制
客户录制真人音频,上传至MetaStudio进行AI训练,即可得到和真人音色1:1复刻的声音模型。
声音模型可实现文本转语音,应用于数字人视频制作、直播、交互问答等场景中。不同版本录制规格如下:
- 基础版:20句,每个音频文件时长约10秒。音频总时长为3~10分钟,建议5分钟。
- 进阶版:100句,每个音频文件时长约10秒。音频总时长10~30分钟,建议15分钟。
- 高品质:300-500句,每个音频文件时长约10秒。音频总时长1小时以上,建议1小时。
原声录制音频和其对应生成的音色播报示例,如试听音频样例所示。
录音准备
录音准备
声音类型
录制设备和软件
录音环境
录音文案
优先使用专业录音设备录制音频,推荐使用Adobe Audition软件进行录音。
如果不具备专业录音设备,可使用手机录制音频,详情请参见手机录制音频。
- 录音环境安静,无回音、混响、噪声,避免出现汽车鸣笛、他人说话、走动等杂声。
- 可使用“分贝仪”应用来测试录音环境的底噪,建议底噪低于0dB。
- 同一批录音必须使用同一套录制设备和环境。
建议使用对应版本预置的文案样例:文案样例(基础版)、文案样例(进阶版)、文案样例(高品质)。
支持自定义文案,单句文案长短需和样例相当。
每个音频文件时长为5~15秒,不能超过15秒,否则会导致声音模型训练失败。
不建议临场即兴发挥录制,避免出现较多嗯、啊的语气词,影响连贯性。
优先使用专业录音设备录制音频,推荐使用Adobe Audition软件进行录音。
如果不具备专业录音设备,可使用手机录制音频,详情请参见手机录制音频。
- 录音环境安静,无回音、混响、噪声,避免出现汽车鸣笛、他人说话、走动等杂声。
- 可使用“分贝仪”应用来测试录音环境的底噪,建议底噪低于0dB。
- 同一批录音必须使用同一套录制设备和环境。
建议使用对应版本预置的文案样例:文案样例(基础版)、文案样例(进阶版)、文案样例(高品质)。
支持自定义文案,单句文案长短需和样例相当。
每个音频文件时长为5~15秒,不能超过15秒,否则会导致声音模型训练失败。
不建议临场即兴发挥录制,避免出现较多嗯、啊的语气词,影响连贯性。
专业录音棚+高保真MIC录制。
- 录音环境安静,无回音、混响、噪声,避免出现汽车鸣笛、他人说话、走动等杂声。
- 可使用“分贝仪”应用来测试录音环境的底噪,建议底噪低于0dB。
- 同一批录音必须使用同一套录制设备和环境。
建议使用对应版本预置的文案样例:文案样例(基础版)、文案样例(进阶版)、文案样例(高品质)。
支持自定义文案,单句文案长短需和样例相当。
每个音频文件时长为5~15秒,不能超过15秒,否则会导致声音模型训练失败。
不建议临场即兴发挥录制,避免出现较多嗯、啊的语气词,影响连贯性。
录制设备和软件
优先使用专业录音设备录制音频,推荐使用Adobe Audition软件进行录音。
如果不具备专业录音设备,可使用手机录制音频,详情请参见手机录制音频。
优先使用专业录音设备录制音频,推荐使用Adobe Audition软件进行录音。
如果不具备专业录音设备,可使用手机录制音频,详情请参见手机录制音频。
专业录音棚+高保真MIC录制。
录音环境
- 录音环境安静,无回音、混响、噪声,避免出现汽车鸣笛、他人说话、走动等杂声。
- 可使用“分贝仪”应用来测试录音环境的底噪,建议底噪低于0dB。
- 同一批录音必须使用同一套录制设备和环境。
- 录音环境安静,无回音、混响、噪声,避免出现汽车鸣笛、他人说话、走动等杂声。
- 可使用“分贝仪”应用来测试录音环境的底噪,建议底噪低于0dB。
- 同一批录音必须使用同一套录制设备和环境。
- 录音环境安静,无回音、混响、噪声,避免出现汽车鸣笛、他人说话、走动等杂声。
- 可使用“分贝仪”应用来测试录音环境的底噪,建议底噪低于0dB。
- 同一批录音必须使用同一套录制设备和环境。
录音文案
建议使用对应版本预置的文案样例:文案样例(基础版)、文案样例(进阶版)、文案样例(高品质)。
支持自定义文案,单句文案长短需和样例相当。
每个音频文件时长为5~15秒,不能超过15秒,否则会导致声音模型训练失败。
不建议临场即兴发挥录制,避免出现较多嗯、啊的语气词,影响连贯性。
建议使用对应版本预置的文案样例:文案样例(基础版)、文案样例(进阶版)、文案样例(高品质)。
支持自定义文案,单句文案长短需和样例相当。
每个音频文件时长为5~15秒,不能超过15秒,否则会导致声音模型训练失败。
不建议临场即兴发挥录制,避免出现较多嗯、啊的语气词,影响连贯性。
建议使用对应版本预置的文案样例:文案样例(基础版)、文案样例(进阶版)、文案样例(高品质)。
支持自定义文案,单句文案长短需和样例相当。
每个音频文件时长为5~15秒,不能超过15秒,否则会导致声音模型训练失败。
不建议临场即兴发挥录制,避免出现较多嗯、啊的语气词,影响连贯性。
开始录音
开始录音
录音事项
说明
调整与麦克风之间的距离,以一拳距离为宜。不宜离麦太近,防止喷麦或录入呼吸声。
每句文案起始数字编号无需阅读。
示例:4. 它不仅拥有出色的功能,还具备卓越的性能,序号4无需阅读。
推荐使用无损音质格式保存音频文件,如WAV格式。
原始录音数据,需未经MP3等编码器编码,且为48kHz采样率、16bit编码和单声道。
全程风格保持一致。如直播场景时,录制风格需接近日常直播效果。
发音吐字清晰、准确,音量适中。如果出现喷麦或嘶嘶声音,建议当前句子重新录制。
语速自然、平稳,切忌过快过慢、忽快忽慢。
音量不能过小、过大、或忽大忽小,甚至削波爆音。峰值RMS在-9左右,无削波
在标点或适当断句处自然停顿,需轻声换气。
如果录制一个长音频文件时,每句之间需要有2~3秒的停顿。
重音位置要合理,避免错误的重音。
按顺序读,确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题,需整句重新录制。
说明
调整与麦克风之间的距离,以一拳距离为宜。不宜离麦太近,防止喷麦或录入呼吸声。
每句文案起始数字编号无需阅读。
示例:4. 它不仅拥有出色的功能,还具备卓越的性能,序号4无需阅读。
推荐使用无损音质格式保存音频文件,如WAV格式。
原始录音数据,需未经MP3等编码器编码,且为48kHz采样率、16bit编码和单声道。
全程风格保持一致。如直播场景时,录制风格需接近日常直播效果。
发音吐字清晰、准确,音量适中。如果出现喷麦或嘶嘶声音,建议当前句子重新录制。
语速自然、平稳,切忌过快过慢、忽快忽慢。
音量不能过小、过大、或忽大忽小,甚至削波爆音。峰值RMS在-9左右,无削波
在标点或适当断句处自然停顿,需轻声换气。
如果录制一个长音频文件时,每句之间需要有2~3秒的停顿。
重音位置要合理,避免错误的重音。
按顺序读,确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题,需整句重新录制。
录制内容提交规范
录制内容提交规范
声音类型
音频说明
音频命名
支持整段录制或按句录制,详细说明如•(推荐)方式一:整段录制、•方式二:按句录制和•方式三:使用自定义语料按句录制所示。
- 符合手机录制音频-表1中“音频命名”的要求。
支持整段录制或按句录制,详细说明如•(推荐)方式一:整段录制、•方式二:按句录制和•方式三:使用自定义语料按句录制所示。
- 符合手机录制音频-表1中“音频命名”的要求
仅支持整段录制,详细说明如•(推荐)方式一:整段录制所示。
音频文件命名无要求,可自定义,示例:VoiceClone.wav。
(推荐)方式一:整段录制
所有语料录制成一个长音频WAV文件,每句之间需要有2~3秒的停顿。直接上传MetaStudio控制台,无需压缩,无需提供语料txt文件。
推荐使用服务预置语料,也可自定义语料。系统会自动根据停顿做切割,自动进行文本识别。
方式二:使用预置语料按句录制
每个音频文件时长约10秒,不能超过15秒,否则会导致声音模型训练失败。
使用预置语料,创建声音制作任务的时候,必须选对声音标签。并将所有音频文件压缩成一个zip文件,示例如图1所示。系统会自动匹配预置文本。
图1 音频压缩文件示例
方式三:使用自定义语料按句录制
每个音频文件时长为5~15秒,不能超过15秒,否则会导致声音模型训练失败。
每个音频文件需要匹配一个文本txt文件,且音频内容必须与文本内容完全一致,示例如图2所示。系统会自动使用传入的文本匹配音频。
图2 音频压缩文件示例
制作声音模型
准备好音频文件后,就可以上传至MetaStudio控制台,进行声音训练。详细操作如下所示:
声音模型制作耗时,如下所示:
基础版:约1~3个工作日。
进阶版:约1~3个工作日。
高品质:约5个工作日。
自定义声音应用方式,如下所示:
自定义声音生成后,会自动展示在MetaStudio控制台声音列表中,可用于分身数字人视频制作、视频直播或智能交互等场景中。
通过MetaStudio的API调用自定义声音。