云服务器内容精选

  • 管理Lite Cluster节点 在资源池详情页,单击“节点管理”页签,您可以对节点进行退订、替换等操作。 退订/释放节点: 若是“包年/包月”且资源未到期的资源池,您可单击操作列的“退订”,即可实现对单个节点的资源释放。 若是“包年/包月”且资源到期的资源池(处于宽限期),您可单击操作列的“释放”,即可实现对单个节点的资源释放。 部分“包年/包月”节点会出现“删除”按钮,原因是该节点为存量节点,单击“删除”即可实现节点的资源释放。 退订/释放节点可能导致该节点上运行的作业失败,请保证该节点无任务运行时再进行操作。 当资源池中存在异常节点时,可通过退订/释放操作,将资源池中指定的异常节点移除,再通过扩容专属资源池获得和之前相同的总节点个数。 仅有一个节点时,无法进行退订/释放操作。 替换节点: “节点管理”页签中提供对单个节点替换的功能。可单击操作列的“替换”,即可实现对单个节点的替换。替换节点操作不会收取费用。 单击“操作记录”可查看当前资源池替换节点的操作记录。“运行中”表示节点在替换中。替换成功后,节点列表中会显示新的节点名称。 替换最长时间为24小时,超时后仍然未找到合适的资源,状态会变为“失败”。可将鼠标悬浮在图标上,查看具体失败原因。 每天累计替换的次数不超过资源池节点总数的20%,同时替换的节点数不超过资源池节点总数的5%。 替换节点时需确保有空闲节点资源,否则替换可能失败。 当操作记录里有节点处于重置中时,该资源池无法进行替换节点操作。 重置节点 “节点管理”页签中提供节点重置的功能。单击操作列的“重置”,可实现对单个节点的重置。勾选多个节点的复选框,单击操作记录旁的“重置”按钮,可实现对多个节点的重置。 下发重置节点任务时需要填写以下参数: 表1 重置参数说明 参数名称 说明 操作系统 选择下拉框中支持的操作系统。 配置方式 选择重置节点的配置方式。 按节点比例:重置任务包含多个节点时,同时被重置节点的最高比例。 按节点数量:重置任务包含多个节点时,同时被重置节点的最大个数。 单击“操作记录”可查看当前资源池重置节点的操作记录。重置中节点状态为“重置中”,重置成功后,节点状态变为“可用”。重置节点操作不会收取费用。 图1 重置节点 重置节点将影响相关业务的运行,重置时本地盘会被清空、资源池上的k8s标签会被清除,请谨慎操作。 节点状态为“可用”的节点才能进行重置。 同一时间单个节点只能处于一个重置任务中,无法对同一个节点同时下发多个重置任务。 当操作记录里有节点处于替换中时,该资源池无法进行重置节点操作。 当资源池处于驱动升级状态时,该资源池无法进行重置节点操作。 GPU和NPU规格,重置节点完成后,节点可能会出现驱动升级的现象,请耐心等待。 图2 查看资源池节点 图3 操作记录 父主题: k8s Cluster资源使用
  • 修复节点 当前修复节点功能为白名单邀测阶段,如果您有试用需求,请联系技术支持。 若资源池节点发生硬件故障,可在资源池详情页的“节点管理”页签,查看对应故障节点。在对应节点的操作列的“更多”按钮中,修复按钮变为可单击状态,此时可单击“修复”按钮,对节点进行修复,待修复完成后,节点状态会变为“可用”。 当前支持“换件维修”和“重部署”两种修复方式: - 换件维修:通过更换硬件实现原地修复,修复耗时较长,对于非本地盘类故障,本地盘数据可以保留。 - 重部署:通过更换为新服务器实现修复,修复耗时较短,本地盘数据会丢失。 修复期间实例将无法工作,请确保相关实例业务已离线。如果云服务器上的业务不可停止,请勿修复,并联系技术支持进行处理。 若选择了重部署修复方式,实例会立即关机并迁移到新服务器,本地盘数据会被清空,请提前做好业务迁移和数据备份。 图1 修复节点 父主题: k8s Cluster资源使用
  • 节点池管理 在资源池详情页,单击“节点池管理”页签,您可以创建、更新和删除节点池。 图1 节点池管理 创建节点池 当您需要更多节点池时,可单击“创建节点池”新增节点池,相关参数请参见k8s Cluster资源购买。 查看节点列表 当您想查看某一节点池下的节点相关信息,可单击操作列的“节点列表”,可查询节点的名称、规格及可用区。 更新节点池 当您想更新节点池配置时,可单击操作列的“更新”,相关参数介绍请参见k8s Cluster资源购买。 需注意,更新节点池配置时,不同参数的作用范围不同,例如K8S标签节点、污点的修改,会同步更新节点池下的存量节点。容器引擎空间大小、节点子网等参数,仅对新增的节点(扩容或重置生效),存量节点配置保持不变。 图2 更新节点池 删除节点池 当有多个节点池时,支持删除节点池,此时在操作列会显示“删除”按钮,单击“删除”后输入“DELETE”并单击“确定”即可。 每个资源池至少需要有一个节点池,当只有一个节点池时不支持删除。 父主题: k8s Cluster资源使用
  • 风险操作 当您在CCE、E CS 或BMS服务控制台直接操作ModelArts Lite k8s Cluster资源时,可能会导致资源池部分功能异常,下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容: 表1 操作及其对应风险 类型 操作 风险 集群 升级、修改、休眠集群、删除集群等。 可能影响ModelArts侧基本功能,包括但不限于资源池管理、节点管理、扩缩容、驱动升级等。 节点 退订、移除、关机、污点管理、修改登录密码、修改网络安全组、切换/重装操作系统等。 可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。 网络 修改/删除集群关联网段。 影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。 插件 升级、卸载gpu-beta插件。 可能导致NPU驱动使用异常。 升级、卸载huawei-npu插件。 可能导致NPU驱动使用异常。 升级、卸载volcano插件。 可能导致作业调度异常。 卸载ICAgent插件。 可能导致日志、监控功能异常。 helm 升级、回退、卸载os-node-agent。 可能影响节点故障检测。 升级、回退、卸载rdma-sriov-dev-plugin。 可能影响容器内使用RDMA网卡。 父主题: k8s Cluster资源使用