检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Lite Cluster资源配置 Lite Cluster资源配置流程 配置Lite Cluster网络 配置kubectl工具 配置Lite Cluster存储 (可选)配置驱动 (可选)配置镜像预热
Cluster资源池节点故障如何定位 故障说明和处理建议 图1 Lite池故障处理流程 对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondtition中。
图5 查看节点的yaml文件 父主题: Lite Cluster资源使用
父主题: Lite Cluster
驱动升级功能介绍可参考升级Lite Cluster资源池驱动。 父主题: Lite Cluster资源配置
父主题: Lite Cluster资源配置
图1 资源池详情-基本信息 单击基本信息列中对应的“CCE集群”,进入CCE集群详情页面,在“集群信息”找到“连接信息”。 图2 链接信息 使用kubectl工具。 若通过内网使用kubectl工具,需要将kubectl工具安装在和集群在相同vpc下的某一台机器上。
ModelArts Lite Cluster面向k8s资源型用户,提供托管式k8s集群,并预装主流AI开发插件以及自研的加速插件,以云原生方式直接向用户提供AI Native的资源、任务等能力,用户可以直接操作资源池中的节点和k8s集群。请参见弹性集群k8s Cluster。
工作负载Pod异常 Pod状态为Pending 当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。 通过以下命令打印Pod日志信息。
工作负载Pod异常 Pod状态为Pending 当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。 通过以下命令打印Pod日志信息。
工作负载Pod异常 Pod状态为Pending 当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。 通过以下命令打印Pod日志信息。
icAgent icagent default CCE默认安装当前适配版本 无约束 CCE基础组件,用于日志和监控。 父主题: Lite Cluster使用前必读
CCE页面上配置中心修改默认调度器为volcano。 该方案的缺点:后续对ModelArts的节点做相关操作如重置、升级驱动等可能会出现节点异常无法启动的情况。 父主题: Lite Cluster
父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.909)
父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.911)
父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.910)
父主题: Lite Cluster
77f6f112-a631-11eb-8dae-0255ac100b0d is not available" } 父主题: Lite Cluster
附录:工作负载Pod异常问题和解决方法 父主题: LLM大语言模型训练推理
附录:工作负载Pod异常问题和解决方法 父主题: LLM大语言模型训练推理