namespace: default --- apiVersion: rbac.authorization.k8s.io/v1 kind: ClusterRoleBinding metadata: name: prometheus roleRef: apiGroup:
pod_id 容器所属pod的ID。 node_ip 容器所属的节点IP值。 container_id 容器ID。 cluster_id 集群ID。 cluster_name 集群名称。 container_name 容器名称。
父主题: Lite Cluster
监控Lite Cluster资源 使用AOM查看Lite Cluster监控指标 使用Prometheus查看Lite Cluster监控指标 父主题: Lite Cluster资源管理
Lite Cluster资源使用 在Lite Cluster资源池上使用Snt9B完成分布式训练任务 在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 在Lite Cluster资源池上使用Snt9B完成推理任务 在Lite Cluster
在Lite Cluster资源池上使用Snt9B完成推理任务 场景描述 本案例介绍如何在Snt9B环境中利用Deployment机制部署在线推理服务。
其中Containerd调用链更短,组件更少,更稳定,占用节点资源更少,Containerd和Docker差异对比请见容器引擎。 如果CCE集群版本低于1.23,仅支持选择Docker作为容器引擎。如果CCE集群版本大于等于1.27,仅支持选择Containerd作为容器引擎。
Containerd和Docker的详细差异对比请见容器引擎。 您可以在创建资源池时选择容器引擎,也可在资源池创建完成后,在扩缩容界面修改。 如果CCE集群版本低于1.23,仅支持选择Docker作为容器引擎。
父主题: Lite Cluster资源使用
包含错误码,如:CCE.01400001时,可查看云容器引擎 CCE_错误码查看详细的错误信息及处理措施 其他报错请提工单联系ModelArts运维进一步定位解决。 集群纳管节点失败?
Lite Cluster资源配置 Lite Cluster资源配置流程 配置Lite Cluster网络 配置kubectl工具 配置Lite Cluster存储 (可选)配置驱动 (可选)配置镜像预热
查找搜索节点池 在节点池管理页面的搜索栏中,支持通过节点池名称、规格 、容器引擎空间大小、可用区等关键字搜索节点池。 设置节点池列表显示信息 在节点池管理页面中,单击右上角的设置图标,支持对节点池列表中显示的信息进行自定义。 父主题: Lite Cluster资源管理
父主题: Lite Cluster
AI套件(Ascend NPU) CCE AI套件(Ascend NPU)是支持容器里使用huawei NPU设备的管理插件。 开通Lite Cluster资源时,仅实例规格类型选择“Ascend”时自动安装。
yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。
yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。
父主题: Lite Cluster资源管理
Lite Cluster插件管理 Lite Cluster插件概述 节点故障检测(ModelArts Node Agent) AI套件(NVIDIA GPU) AI套件(Ascend NPU) Volcano调度器 集群弹性引擎
CCE v1.29集群 新增静默故障码 1.2.14 支持NPU监控 1.2.5 支持NPU驱动自动安装 父主题: Lite Cluster插件管理
驱动升级功能介绍可参考升级Lite Cluster资源池驱动。 父主题: Lite Cluster资源配置
您即将访问非华为云网站,请注意账号财产安全