AI开发平台MODELARTS-ModelArts最佳实践案例列表:数字人场景

时间:2024-09-14 22:29:24

数字人场景

样例

场景

说明

Wav2Lip,人脸说话视频模型,训练、推理

Wav2Lip是一种基于对抗生成网络的由语音驱动的人脸说话视频生成模型。主要应用于数字人场景。不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频,还可以直接将动态的视频进行唇形转换,输出与输入语音匹配的视频,俗称“对口型”。该技术的主要作用就是在将音频与图片、音频与视频进行合成时,口型能够自然。

案例主要介绍如何基于ModelArts DevServer上的昇腾NPU资源进行模型训练推理。

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_0014.html