研究方向
媒体创新Lab秉承开发共赢的理念,愿意与学术界和工业界各位精英就以下研究方向合作,如有意向请联系MediaInnovLab@huawei.com。
-
软件视频编解码
云视频业务的快速发展,视频呈现出了新的形式, 场景越来越丰富,分辨率越来越高,互动性越来越强,接入端灵活多样,而视频编解码作为视频核心技术,也面临着时延、码率、功耗等挑战。研究业界领先的软件视频编解码技术, AI内容感知,软硬结合,灵活部署,为云上各种视频业务场景提供低码率、低功耗、 低时延和高质量的视频编解码算法。
-
媒体处理
视频作为未来云厂商最大的流量载体,极致的体验,极低的成本是各厂商竞争的高地,需要借助AI能力来不断优化算法, 保持算法的持续领先。研究跨终端,轻量级的媒体处理算法,如音视频去噪、超分辨率、超帧率、细节增强、色彩优化、光线矫正、花屏修复、抖动矫正等,来提升云视频体验和竞争力。
-
硬件视频编解码
海量且多样的计算资源是云的显著特点和巨大优势,CPU、GPU、专业转码卡、FPGA等都提供了不同程度的编码能力和AI计算能力。开发适合云原生场景的硬件编解码算法,研究AI增强编码算法,以及探索异构编码算力的部署方法,充分释放云上异构编码能力,显著降低编码时延和编码成本,提高用户体验。
-
体验建模
通过自动化QoE建模技术对实时互动云媒体应用的用户体验进行评估,旨在为各应用提供体验调优指导和质差定位
-
传输优化
面向高通量、低时延的实时互动云媒体应用,研究实时互动业务的端到端体验优化的关键技术(拥塞控制算法,前向纠错算法,编传联动算法,接收端抖动缓冲区,编码SVC与SFU抽帧联动),旨在复杂多变的网络环境中,保证用户在不同环境下的极致体验。
-
光线追踪
实时光线追踪技术带来了逼真的光影,将渲染技术带入了下一个世代。云上光线追踪不再受限于算力限制,带来了新的想象空间。我们研究光线追踪的软硬件算法,提升实时光追的效果与效率。具体而言,研究方向包括:光线求交、采样算法,PBR材质,全局光照算法(反射、折射、阴影、AO、动态GI等),以及后处理算法、神经网络辅助加速等。
-
分布式渲染
构建与运行数字化虚拟世界需要海量的计算资源,云成为了最好的载体。我们希望通过云上分布式图形计算资源,使得超大数字虚拟世界弹性可扩展的运行,在多用户间充分共享计算结果。具体而言,我们研究的软硬件技术包括:表面光场,预计算辐射传输 (PRT),着色重用 (shading reuse),高几何细节(high geometry details),并行处理,多GPU体系架构等。
-
XR混合现实
混合现实是“元宇宙”最重要的体验方式,通过云与终端的配合,可以极大的解放端侧设备的算力与功耗。我们研究通过云与XR终端设备的配合,将虚实世界无缝融合。具体而言,研究方向包括:人体数字化身的生成、驱动与传输技术 (digital avatar),端云协同渲染技术(collaborative rendering),XR现场合作的空间锚定技术(spatial anchor),支持多人交互的虚拟场景管理技术(virtual scene management)。
-
数字人
媒体产业正在由传统音视频演进到数字内容,而以虚拟分身、IP型数字人、服务型数字人为代表的各类数字人,正在成为各行各业中数字世界的入口。为了全方位构建“皮形魂”兼备的智能化、高保真、可成长型数字人,让数字人生于云、长于云,就必须整合当今最前沿的人工智能、计算机图形、视觉生成大模型等技术。具体而言,研究方向包括:生成式人工智能、计算成像、三维视觉、材质纹理生成重建、多模态数字人生成垂域模型、数字形象编辑控制、数字人自主演化和智能交互等。
-
实时高保真多物理仿真
研究物理仿真根技术,实现虚拟世界中的各种物理对象的实时高保真仿真,支撑刚体、软体、流体、人体、布料、头发和肌肉等物理对象的可交互、高保真和实时仿真,达到“影视的效果,游戏的速度”。可应用于数字人、机器人和数字孪生城市等物理仿真。
-
神经物理仿真
研究基于AI预测来替代物理计算的神经物理仿真技术,解决控制方程过于复杂的物理计算难题,极大提高物理仿真速度。充分利用云多元算力,训练形成多类通用神经物理仿真AI模型,实现时空算力复用。
-
分布式物理仿真
研究分布式多节点、多GPU的物理仿真技术,实现单机多种物理仿真算法的分布式化和多节点耦合交互,实现超大规模虚拟物理世界(如数字孪生城市等)的快速精准仿真,为元宇宙的实现打下基石。
-
基于物理仿真的深度强化学习训练
研究基于物理仿真的深度强化学习训练,实现虚拟仿真环境中的智能体与环境交互循环的学习算法,实现大规模并行环境中的计算完全统一,实现云多元算力加速,加速如云机器人运动和操控、数字人动作学习等任务的高性能策略训练。
-
AIGC物理
研究基于AI的物理内容生成技术AIGC-4D,基于AI和场景描述输入快速生成符合三维仿真世界中的场景和对象,并赋予时间维度遵循物理规律的持续运动。
-
物理引擎应用技术
研究基于云物理引擎的典型应用关键技术,如空间计算中的物理仿真、数字人仿真、机器人仿真、数字孪生和AIGC-4D等,端到端打通云物理引擎的开发环境与应用生态。
-
光笼超写实数字人重建
基于光笼(Light Stage)进行超写实数字人制作是业界的主流实践。我们通过研究高精度几何重建、自动材质解算以及基于可微渲染的主动式反馈系统,构建从采集、重建到可视化的自动化流程,实现高效率、高质量的数字人采集。
-
基于单张照片的数字人三维重建
基于影视级人脸三维重建的积累,实现基于单张照片的自动化建模,还原真实人脸的几何和材质贴图,兼容各类驱动算法。可应用于C端3D数字化身的快速生成,在元宇宙中进行社交、娱乐等活动。
-
高逼真数字人渲染
研究数字人的高逼真实时高效渲染方案。数字人既需要对皮肤、毛发、服装布料、配饰等复杂材质进行高效建模,并且需要高效支持次表面散射、软阴影、色溢、全局光照等复杂光传输效果。通过构建实时、离线、神经混合等多种渲染管线,支持不同应用场景的数字人渲染需求。
-
2D 数字人生成大模型
研究基于生成式大模型的2D数字人形象生成及编辑技术,支持文本、图片等多模态的用户输入和多种风格的形象输出,实现丰富、灵活和精确的数字人形象编辑。可用于照片驱动数字人、数字人会议、证件照生成器等一系列应用场景。
-
3D 数字人生成大模型
AIGC-3D是目前学术界和业界的前沿热点问题,3D数据短缺及3D数据的高维复杂性导致AIGC-3D充满挑战。我们通过研究CV/CG融合策略,构建3D数字人几何、PBR材质生成大模型,支持基于文本生成多样化的3D数字人形象。得益于CG管线兼容的数字人资产表示(网格+PBR材质贴图表达),生成的3D数字人支持自动绑定、表情和身体驱动。
-
数字人AIGV
研究基于生成式人工智能的数字人视频生成和编辑技术,以AI生成式大模型为基础,引入人脸/人体参数化模型的先验信息作为控制信号,实现基于表情驱动和动作驱动的数字人视频生成和编辑技术技术。可应用于数字人虚拟试衣、数字人直播等多种商用场景。
-
3D数字人形象编辑
针对3D数字人形象编辑门槛高的难点,研究包含高层次语义编辑、可控贴纸融合、智能上妆、AI几何捏脸等功能模块在内的统一编辑框架,实现面向普通用户的低门槛、高写实、多样化的3D数字人编辑,可用于照片建模、3D数字人生成、光笼重建等多来源形象的二次编辑和定制。