KubeEdge-Sedna边云协同终身学习:迈向次时代AI范式

来源微信公众号:KubeEdge

摘要:面向KubeEdge-Sedna边云协同终身学习范式的相关文章日前刊登于中国自动化学会主办的《自动化博览》边缘计算2022特辑。文章指出,当前阻碍边缘AI规模复制的技术挑战主要是边侧小样本与边缘数据异构。同时,边缘AI客户往往存在数据安全合规与边缘AI服务离线自治需求。

基于学界终身学习方法,文章首次正式地定义边云协同终身学习问题,介绍业界首个开源边云协同终身学习范式及相关案例。边云协同终身学习通过:

1)多任务迁移学习适应不同边缘局点数据异构,实现“千人千面”精准预测;

2)未知任务增量处理在小样本下越学越聪明,逐步实现AI工程化与自动化;

3)借助云侧知识库来记忆新情景知识,避免灾难性遗忘;

4)边云协同架构使得在应用云上资源同时保证数据安全合规与边缘AI服务离线自治,希望从根本上解决上述边云协同机器学习的挑战。

方法背景

在云上执行机器学习是传统而广泛为人所知的方法,基于云侧大规模算力,大部分大型云平台提供商均已提供机器学习服务。然而,机器学习所需的数据却往往并非直接从云平台中产生,而是来自传感器、手机、网关等边缘设备。随着边缘设备的广泛使用和性能提升,将机器学习相关的部分任务迁移到边缘,也即边缘AI技术,已成为必然趋势,甚至能够同时结合云侧算力和边侧数据来完成机器学习任务。2018年,VMware发布了云环境扩展到边缘的框架。微软除Azure云外,也在物联网上投资50亿美元,因为“物联网最终正在发展成为新的智能边缘”。Garner预测,到2022年,50%的企业生成数据将在传统集中式数据中心或云之外创建和处理,高于2018年的不到10%,比如工厂内、飞机或石油钻井平台上、零售店或医疗器械中。

KubeEdge社区一直密切关注边缘AI相关挑战。KubeEdge是业界首个云原生边缘计算框架、云原生计算基金会内部唯一孵化级边缘计算开源项目。KubeEdge在全球已拥有800+贡献者和60+贡献组织,在Github获得4.5k+Stars和1.3k+Forks。作为KubeEdge中唯一的AI特别兴趣小组(Special Interest Group),KubeEdge社区SIG AI致力于使能AI应用在边缘更好地运行,聚焦边缘AI技术讨论、API定义、参考架构、开源实现等。为全球开发者提供相关研发支持并孵化繁荣生态,当前已开源边缘智能平台KubeEdge-Sedna及其跨边云的协同推理、联邦学习、增量学习和终身学习特性。

华为云边缘云创新实验室ECIL(Edge Cloud Innovation Lab,Huawei Cloud)致力于分布式协同AI技术与业务创新,提供KubeEdge SIG AI系列文章(参见文末附录一历史工作一览)中边云协同推理、联邦学习、增量学习和终身学习范式。日前中国自动化学会主办的《自动化博览》边缘计算2022特辑(参见文末附录二刊物介绍)已刊登其中面向KubeEdge-Sedna边云协同终身学习范式的相关文章(下称刊登文章)。

刊登文章介绍当前阻碍边缘AI规模复制的两个技术挑战:边侧小样本与边缘数据异构。在边缘云背景下:

1)不同边侧数据分布总是不断变化

2)而边侧标注样本也往往由于成本较高导致数量稀少。

因而封闭学习需不停标注样本并重新训练,这显然给服务落地带来巨大挑战。这种数据分布和数据量上的挑战分别称为数据异构和小样本。

热舒适预测中机器学习模型随边侧环境变化示意图如下所示:

同时,边缘AI客户往往存在数据安全合规与边缘AI服务离线自治需求。基于1995年学界提出的终身学习概念 [3] ,文章进一步定义边云协同终身学习为边云协同的多机器学习任务持续学习,正式定义如下:

边云协同终身学习:给定云侧知识库中N个历史训练任务,推理持续到来的当前任务和未来M个边侧任务,并持续更新云侧知识库。其中,M趋向于无穷大,同时边侧M个推理任务不一定在云侧知识库N个历史训练任务当中。其中机器学习任务是指在特定情境下的机器学习模型相关运算工作,如中译英(给定汉语翻译为英语)、亚洲植物分类等。

边云协同终身学习流程示意图如下所示:

方法介绍

KubeEdge-Sedna发布业界首个开源边云协同终身学习范式流程。KubeEdge-Sedna边云协同终身学习通过:

1)多任务迁移学习适应不同边缘局点数据异构,实现“千人千面”精准预测;

2)未知任务增量处理在小样本下越学越聪明,逐步实现AI工程化与自动化;

3)借助云侧知识库来记忆新情景知识,避免灾难性遗忘;

4)边云协同架构使得在应用云上资源同时保证数据安全合规与边缘AI服务离线自治,希望从根本上解决上述边云协同机器学习的挑战。

其中,当前Sedna选用的模块化方案和迁移学习方案使得开源的边云协同终身学习特性能够实现模型无关:

1)同一个特性能够同时支持结构化和非结构化不同模型,在特性中模型可插拔;

2)同一个特性能够同时支持分类、回归、目标检测、异常检测等。

文章提供了一个楼宇空调控制驱动的热舒适预测案例,基于开源Ashrae Thermal Comfort II数据集。在这个开源数据集中,收录了全球28个国家99个城市1995~2015年之间楼宇内人员热舒适真实数据,目标是构建一个机器学习分类模型,给定环境特征,预测人群的热倾向(Thermal Preference)。热倾向分为三类,希望更冷(觉得热)、不希望变更(觉得舒适)、希望更热(觉得冷)。

由于人员个体差异、房间与城市差异等,不同个体、不同地点对于热舒适的感受是不一样的,那么就会导致相同的环境温度和空调设定下对应的人员的热舒适度标签值不一样,从而导致较为突出的数据异构问题。热舒适度预测主要针对楼宇中的房间人员个体,具有个性化的特点。在环境因素变化较多的情况下,边侧房间人员个体的热舒适度样本通常有限,往往不足以支撑对单个人员进行个性化模型的训练,从而导致较为突出的小样本问题。

边云协同终身学习的热舒适预测方案架构图如下所示:

案例初步结果的整体分类精度与单任务增量学习对比,相对提升5.12%(其中多任务提升1.16%)。其中,在Kota Kinabalu和Athens两个任务,在使用终身学习前后预测效果在Kota Kinabalu数据中预测率相对提升24.04%,在Athens数据中预测率相对提升13.73%。

ATCII各城市Sedna终身学习预测精度一览图如下所示:

附录:《自动化博览》刊物介绍

中国自动化学会(Chinese Association of Automation,缩写CAA)是我国成立的国家一级学术群众团体,初始筹备委员会由钱学森等29人组成。《自动化博览》是由中国自动化学会主办、国内外公开发行的大型刊物,创刊于1983年10月。集大中型控制系统、工厂信息化、先进控制与优化软件、工业通讯等于一体,特别关注人工智能、工业互联网、云计算、边缘计算等领域,理论与实践并重、产研结合、面向工程、突出实用。其边缘计算2022专辑由《自动化博览》联合边缘计算产业联盟共同出版,从产业、技术、应用三大角度展现边缘计算领域的最新进展,共同探讨智能数字化时代加速到来之际,如何把握边缘计算产业未来方向和发展机遇,促进行业数字化转型,共同迈向快速增长之路。