检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Exporter Dashboard来展示DCGM相关指标信息。关于在Grafana导入Dashboard的方法,请参见Manage dashboards。 查看刚刚导入的面板。 附录:DCGM-Exporter组件故障排查 运行状态检查 在CCE AI套件(NVIDIA GPU)插件页面检查Pod状态为“运行中”。
String 节点ID 表10 TaskStatus 参数 是否必选 参数类型 描述 jobID 否 String 任务ID,供调用者查询任务进度。 响应参数 状态码: 200 表11 响应Body参数 参数 参数类型 描述 apiVersion String API版本,固定值“v3”。
单击“安装”。安装完成后,插件会在集群中部署以下实例。 prometheus-operator:根据自定义资源(Custom Resource Definition / CRDs)来部署和管理Prometheus Server,同时监控这些自定义资源事件的变化来做相应的处理,是整个系统的控制中心。 promethe
Exporter Dashboard来展示gpu的相关指标信息。 关于在Grafana导入Dashboard的方法,请参见Manage dashboards。 手动部署dcgm-exporter组件 本文在集群部署dcgm-exporter组件进行GPU指标的采集,同时以9400端口对外暴露GPU指标。
请参考无法备份HostPath类型存储卷。 集群外资源 自建镜像仓库。 可迁移至容器镜像服务SWR。 非容器化的数据库。 可迁移至云数据库服务RDS。 对象存储等非本地存储。 可迁移至对象存储服务OBS等云存储服务。 迁移流程如图1所示,对于集群外资源您可根据实际需求进行选择性迁移。
"description" : "DEPRECATED Neo4j is the world's leading graph database", "source" : "", "icon_url" : "https://example.com/images/neo4j_logo
休眠一个指定的集群。 集群唤醒 唤醒一个指定的已休眠集群。 获取集群证书 获取指定集群的证书信息。 获取任务信息 查询作业进度,通过某一作业请求下发后返回的jobID来查询指定作业的进度。 节点管理 表2 节点管理 API 说明 创建节点 在指定集群下创建节点。 获取指定的节点 通过节点ID获取指定节点的详细信息。
登录节点使用docker pull命令手动下拉镜像,镜像拉取成功。 问题根因: Kubernetes默认存在拉取镜像超时时间,如果一定时间内镜像下载没有任何进度更新,下载动作就会取消。在节点性能较差或镜像较大时,可能出现镜像无法成功下载,负载启动失败的现象。 解决方案: 方案一(推荐): 登录节点手动下载镜像。
"description" : "DEPRECATED Neo4j is the world's leading graph database", "source" : "", "icon_url" : "https://info.neo4j.com/rs/773-
"description" : "DEPRECATED Neo4j is the world's leading graph database", "source" : "", "icon_url" : "https://info.neo4j.com/rs/773-
"description" : "DEPRECATED Neo4j is the world's leading graph database", "source" : "", "icon_url" : "https://example.com/images/neo4j_logo
参数说明 虚拟私有云 显示集群所在虚拟私有云。 虚拟私有云(Virtual Private Cloud,简称VPC)可以为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境。您可以自由配置VPC内的IP地址段、子网、安全组等子服务,也可以申请弹性带宽和弹性公网IP搭建业务系统。
检查集群内节点是否Ready。 25 节点journald检查异常处理 检查节点上的journald状态是否正常。 26 节点干扰ContainerdSock检查异常处理 检查节点上是否存在干扰的Containerd.Sock文件。该文件影响Euler操作系统下的容器运行时启动。 27 内部错误异常处理
不能冲突。 集群各网段基本概念 VPC网段 虚拟私有云(Virtual Private Cloud,简称VPC)可以为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境。您可以自由配置VPC内的IP地址段、子网、安全组等子服务,也可以申请弹性带宽和弹性公网IP搭建业务系统。
prometheusOperator (负载名称:prometheus-operator) 根据自定义资源(Custom Resource Definition / CRDs)来部署和管理Prometheus Server,同时监控这些自定义资源事件的变化来做相应的处理,是整个系统的控制中心。 所有模式 Deployment
时,可通过任务ID查询删除集群的附属任务信息。 约束限制: 不涉及 取值范围: 不涉及 说明: 任务信息具有一定时效性,仅用于短期跟踪任务进度,请勿用于集群状态判断等额外场景。 reason String 参数解释: 集群变为当前状态的原因,在集群在非“Available”状态下时,会返回此参数。
时,可通过任务ID查询删除集群的附属任务信息。 约束限制: 不涉及 取值范围: 不涉及 说明: 任务信息具有一定时效性,仅用于短期跟踪任务进度,请勿用于集群状态判断等额外场景。 reason String 参数解释: 集群变为当前状态的原因,在集群在非“Available”状态下时,会返回此参数。
时,可通过任务ID查询删除集群的附属任务信息。 约束限制: 不涉及 取值范围: 不涉及 说明: 任务信息具有一定时效性,仅用于短期跟踪任务进度,请勿用于集群状态判断等额外场景。 reason String 参数解释: 集群变为当前状态的原因,在集群在非“Available”状态下时,会返回此参数。
时,可通过任务ID查询删除集群的附属任务信息。 约束限制: 不涉及 取值范围: 不涉及 说明: 任务信息具有一定时效性,仅用于短期跟踪任务进度,请勿用于集群状态判断等额外场景。 reason String 参数解释: 集群变为当前状态的原因,在集群在非“Available”状态下时,会返回此参数。
时,可通过任务ID查询删除集群的附属任务信息。 约束限制: 不涉及 取值范围: 不涉及 说明: 任务信息具有一定时效性,仅用于短期跟踪任务进度,请勿用于集群状态判断等额外场景。 reason String 参数解释: 集群变为当前状态的原因,在集群在非“Available”状态下时,会返回此参数。