数字内容生产线 METASTUDIO-算法备案公示:华为云MetaStudio数字人语音驱动算法

时间：2025-02-19 17:40:17

华为云MetaStudio数字人语音驱动算法

表5 语音驱动算法
算法项	描述
算法名称	华为云MetaStudio数字人语音驱动算法
备案编号	网信算备520111252474601240061号
算法基本原理	数字人语音驱动算法是指使用深度学习将语音转换成3D数字人表情和肢体驱动数据的一种技术。其基本情况包括：输入数据：语音音频数据。算法原理：通过深度学习算法，提取语音音频中的特征，并转化为表情驱动的表情基系数。输出结果：表情基系数。应用领域：应用于3D数字人文本和语音驱动场景，包括：短视频制作、直播和交互等。在特定场景中，可替代人快速生成视频内容，提升内容生成的效率。
算法运行机制	训练阶段输入预先获取的高质量语音及其表情基系数，通过学习获得语音特征与表情基系数的关系。用户使用时，输入音频流或音频文件。音频经过安全审核后，进入下一步操作，否则不返回结果。对音频特征提取后，获取音频特征，再通过算法将音频特征转换为表情基系数。返回结果数据。
算法应用场景	数字人语音驱动算法可用于短视频制作、直播、交互等场景。在特定场景中，可替代人快速生成视频内容，以提升内容生成的效率。
算法目的意图	通过学习语音与表情基系数的关系，实现使用语音生成视频的能力。在使用数据人形象生成视频的场景，包括短视频制作、直播、智能交互等，可快速生成不同台词的视频内容。