RL4VM论文被顶级期刊Pattern Recognition接收,用强化学习求解虚拟机调度问题

随着云计算的飞速发展,大规模动态虚拟机调度的重要性日益提高。在动态虚拟机调度过程中,最困难的问题在于其随机性,即创建请求和删除请求通常是不定期地随机出现的。现有的调度算法通常将动态虚拟机调度问题建模成动态矢量装箱问题,但没有明确考虑使用非统一内存访问架构的服务器体系结构。此外,现有的动态调度算法存在求解效率不足、仅基于局部信息、容易陷入局部最优、无法利用历史数据等问题。本文提出了一种基于深度Q网络的单智能体动态虚拟机调度算法SchedRL,针对性地设计了特殊的差值奖励函数及场景驱动的高效采样机制。为了训练与合理评估本论文所提出的算法,本论文对基于非统一内存访问架构的动态虚拟机调度过程进行了仿真系统开发,并设计了仅创建场景与普通场景两种实验方式。在两种不同的场景下,本论文在微软云的公共数据集上对提出的算法进行了评估,包括基线测试、奖励函数研究、及采样策略消融实验。SchedRL在完成数量和分配率方面优于 First Fit 和 Best Fit

image.png

本论文开发了基于多NUMA架构的动态虚拟机调度仿真系统,设计了两种具有现实意义的、不同难度的实验场景,并在公共数据集上训练及验证、对比了两种算法。实验表明,SchedRL能够在两种场景下超过基线算法。下一步工作可以从如下几个角度展开研究:

1) 可扩展性:当服务器数量增加时,状态空间和动作空间都呈指数增长,给学习带来困难。云服务提供商在实际场景中经常需要在多个服务器之间调度请求,因此使学习过程具有可扩展性是一个重要的未来方向。

2)泛化:我们的方法没有考虑到请求是由多个用户生成的,并且请求分布是随时间变化的。如何将调度策略推广到变化的分布与元学习和鲁棒学习密切相关,是未来可能研究的方向。

论文链接:https://www.sciencedirect.com/science/article/pii/S0031320321004349