数字内容生产线 METASTUDIO-算法备案公示:华为云MetaStudio分身数字人声音制作算法

时间：2025-02-19 17:40:17

华为云MetaStudio分身数字人声音制作算法

表2 声音制作算法
算法项	描述
算法名称	华为云MetaStudio分身数字人声音制作算法
备案编号	网信算备520111252474601240079号
算法基本原理	分身数字人声音制作算法是指使用深度学习算法生成数字人声音模型，再使用该模型通过输入文字生成数字人语音的一种技术。其基本情况包括：输入数据：真人语音音频。算法原理：通过深度学习算法，学习真人语音音频生成数字人声音模型，通过该模型，输入文本生成数字人语音。输出结果：接近真人音色的数字人语音。应用领域：分身数字人声音制作算法可以应用于数字人视频合成时的语音配音。在新闻播报、课件制作等场景模拟真人配音，提升数字内容生产效率。
算法运行机制	训练阶段：用户上传一段真人语音音频及授权书作为输入。音频经过人工安全审核和授权认证后，由训练人员标注用于训练的音频数据，使用深度学习算法训练生成数字人声音模型。推理阶段：用户上传一段文本作为输入文本内容，由系统自动审核。输入文本使用数字人声音模型推理生成数字人语音。
算法应用场景	分身数字人声音制作算法可以应用于数字人语音合成。在新闻播报、课件制作等场景模拟真人配音，提升数字内容生产效率。
算法目的意图	可以通过有授权的真人语音音频，在预训练模型基础上微调生成数字人声音模型，该模型可用于基于文本合成类似真人音色的数字人语音。