检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
com/ascend-310指定申请NPU的数量。 使用huawei.com/ascend-310参数指定NPU数量时,requests和limits值需要保持一致。 指定huawei.com/ascend-310后,在调度时不会将负载调度到没有NPU的节点。如果缺乏NPU资源,会报类似“0/2
预置条件 本实践提供在CCE上运行caffe的基础分类例子https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb的过程。 OBS存储数据预置 创建OBS桶,并确认以下文件夹已创建,文件已上传至指定位置(需要使用OBS
} else { fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 OK 错误码 请参见错误码。 父主题: 集群管理
) 默认取值: 不涉及 X-Auth-Token 是 String 参数解释: 调用接口的认证方式分为Token和AK/SK两种,如果您使用的Token方式,此参数为必填,请填写Token的值,获取方式请参见获取token。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及
持久化存储 Volume PV、PVC和StorageClass
”中找到集群上报的AOM实例,查看上述组件的指标。 图2 查看指标 自建Prometheus采集Master节点组件指标 如果您需要通过Prometheus采集Master节点组件指标,可通过以下指导进行配置。 集群版本需要v1.19及以上。 在集群中需安装自建的Promethe
查看集群“概览”页,在右边“连接信息”下证书认证一栏,单击“下载”。 图1 获取证书 在弹出的“证书获取”窗口中,根据系统提示选择证书的过期时间并下载集群X509证书。 下载的证书包含client.key、client.crt、ca.crt三个文件,请妥善保管您的证书,不要泄露。 集群中容器之间互访不需要证书。 使用
) 默认取值: 不涉及 X-Auth-Token 是 String 参数解释: 调用接口的认证方式分为Token和AK/SK两种,如果您使用的Token方式,此参数为必填,请填写Token的值,获取方式请参见获取token。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及
在导航栏中选择“节点管理”,并切换至“节点”页签,单击“创建节点”。节点配置详情请参见创建节点。 图1 创建节点 解决方案 若集群升级后您的集群无法创建节点,请联系技术支持人员。 父主题: 升级后验证
) 默认取值: 不涉及 X-Auth-Token 是 String 参数解释: 调用接口的认证方式分为Token和AK/SK两种,如果您使用的Token方式,此参数为必填,请填写Token的值,获取方式请参见获取token。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及
2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。 其他组合模式。
在CCE集群中部署使用Kubeflow Kubeflow部署 Tensorflow训练 使用Kubeflow和Volcano实现典型AI训练任务 父主题: 批量计算
) 默认取值: 不涉及 X-Auth-Token 是 String 参数解释: 调用接口的认证方式分为Token和AK/SK两种,如果您使用的Token方式,此参数为必填,请填写Token的值,获取方式请参见获取token。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及
在CCE中安装部署Jenkins 在CCE中安装部署Jenkins方案概述 资源和成本规划 实施步骤 父主题: DevOps
21 v1.23 v1.25 v1.27 v1.28 新增采集自定义指标的开关,默认开启 移除对1.17和1.19版本集群的支持 Grafana从云原生监控插件中移除,拆分为独立的Grafana插件 默认只采集免费指标和服务发现自定义指标 升级开源组件版本 2.37.8 3.8.2
30版本中,Pod拓扑分布中的最小域特性进阶至GA。此特性允许通过Pod的minDomains字段配置符合条件的域的最小数量。负载拓扑约束匹配到的域的数量如果大于minDomains,则该字段没有影响;如果小于minDomains,则会将全局最小值(符合条件的域中匹配 Pod 的最小数量)设为
30版本中,Pod拓扑分布中的最小域特性进阶至GA。此特性允许通过Pod的minDomains字段配置符合条件的域的最小数量。负载拓扑约束匹配到的域的数量如果大于minDomains,则该字段没有影响;如果小于minDomains,则会将全局最小值(符合条件的域中匹配 Pod 的最小数量)设为
) 默认取值: 不涉及 X-Auth-Token 是 String 参数解释: 调用接口的认证方式分为Token和AK/SK两种,如果您使用的Token方式,此参数为必填,请填写Token的值,获取方式请参见获取token。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及
Bool 默认值:false XGPU虚拟化模式的开关 gpu_driver_config 否 Map 针对单个节点池的GPU驱动的相关配置 默认值:{} health_check_xids_v2 否 String 插件健康检查的GPU错误的范围 默认值:"74,79" inject_ld_Library_path
弹性伸缩 弹性伸缩概述 工作负载弹性伸缩 节点弹性伸缩 使用HPA+CA实现工作负载和节点联动弹性伸缩 CCE容器实例弹性伸缩到CCI服务