AI开发平台MODELARTS-华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案:原因分析
原因分析
在CCE纳管过程中,需要通过cloudinit userdata机制拉取cce-agent,但是在服务器上查看没有拉cce-agent的动作,理论上该动作是cloudinit中的脚本在创建时自动执行的,可能是由于安装脚本没有注入userdata或者注入了但未执行。
经查看是由于userdata未执行,可能原因为服务器A制作镜像时没有清理残留目录导致,即:
镜像里面“/var/lib/cloud/instances”残留了制作镜像机器(后面称模板机)的实例ID信息,如果制作镜像不清理“/var/lib/cloud/*”就会导致用该镜像再重装模板机时,cloud-init根据残留目录(含实例ID)判断已经执行过一次,进而不会再执行user-data里面的脚本。
而使用该镜像的服务器B和C,由于实例ID信息和镜像中残留的服务器A实例ID不同,就会执行user-data,所以CCE能纳管成功。
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云
- 如何使用应用管理与运维平台环境管理功能_环境管理_创建环境_纳管资源
- 华为云CCE_华为云容器引擎CCE_容器混合云
- 容器云部署_云容器引擎是什么_云容器引擎服务
- 华为云CCE_华为云容器引擎CCE_容器秒级弹性伸缩
- 华为云CCE_华为云容器引擎CCE_集群迁移华为云CCE
- CCE是什么_CCE什么意思_容器云对比
- 华为云IEF_华为云智能边缘平台_什么是智能边缘平台IEF
- OneAccess是什么_OneAccess的特性_OneAccess的优势_OneAccess的应用场景
- IoT边缘计算架构_边缘计算平台_智能边缘计算网关