检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ding、ingressClass、validatingWebhookConfiguration 解决方案 使用kubectl连接集群。 查找NGINX Ingress相关资源。 className="nginx" namespace="kube-system" className=`if
fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 表示更新集群升级引导任务状态成功 错误码 请参见错误码。 父主题: 集群升级
使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 工作负载弹性伸缩实践 CCE容器实例弹性伸缩到CCI服务 使用HPA+CA实现工作负载和节点联动弹性伸缩 基于Prometheus指标的弹性伸缩实践
fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 表示更新指定节点池配置参数内容成功。 错误码 请参见错误码。 父主题: 配置管理
基于快照创建的云硬盘,其子类型(普通IO/高IO/超高IO)、是否加密、磁盘模式(VBD/SCSI)、共享性(非共享/共享)、容量等都要与快照关联磁盘保持一致,这些属性查询和设置出来后不能够修改。 只有可用或正在使用状态的磁盘能创建快照,且单个磁盘最大支持创建7个快照。 创建快照功能仅支持使用everest插
1.6.0 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 支持v1.30集群 安全加固:将插件使用的查询secret的权限限制在monitoring命名空间 1.5.2 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 新增创建容器日志默认日志流时索引功能
19 v1.21 插件性能优化,降低资源消耗 1.2.11 v1.15 v1.17 v1.19 v1.21 从K8s Metrics API查询资源指标 计算资源利用率时考虑未就绪的Pod 1.2.10 v1.15 v1.17 v1.19 v1.21 适配CCE v1.21集群 1
是 String 节点ID 表10 TaskStatus 参数 是否必选 参数类型 描述 jobID 否 String 任务ID,供调用者查询任务进度。 响应参数 状态码: 200 表11 响应Body参数 参数 参数类型 描述 apiVersion String API版本,固定值“v3”。
修复部分问题 2.1.22 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 修复了一些页面显示问题 支持查询超节点信息 支持上报显卡拓扑信息 修复了日志打印问题 2.1.14 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29
eployment、Statefulset、Service等。一般在monitoring命名空间下,请根据您实际安装的命名空间进行调整。 查询所有monitoring.coreos.com CRDs。 kubectl get crd | grep monitoring.coreos
参数 说明 取值 调度器访问kube-apiserver的QPS kube-api-qps 与kube-apiserver通信的QPS,即每秒查询率。 集群规格为1000节点以下时,默认值100 集群规格为1000节点及以上时,默认值200 调度器访问kube-apiserver的突发流量上限
fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 201 表示按需集群规格变更作业下发成功 错误码 请参见错误码。 父主题: 集群管理
[镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2] [镜像名称1:版本名称1]:等待上传的本地镜像名称和版本名称。 [镜像仓库地址]:可在SWR控制台上查询。 [组织名称]:您在SWR控制台创建的组织名称。 [镜像名称2:版本名称2]:SWR中显示的镜像名称和镜像版本。 示例: docker tag
fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 202 表示节点池伸缩已经被接受,节点池将根据伸缩后的节点池期望节点数增加或者删除节点池中的节点
使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 使用云原生监控插件监控自定义指标 使用AOM监控自定义指标 使用PrometheusRules配置普罗监控与告警规则
fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 表示节点池同步已经被接受 错误码 请参见错误码。 父主题: 节点池管理
)。当节点存在以下几种状态的Pod时,不可缩容: Pod有设置Pod Disruption Budget(即干扰预算),当移除Pod不满足对应条件时,节点不会缩容。 Pod由于一些限制,如亲和、反亲和等,无法调度到其他节点,节点不会缩容。 Pod拥有cluster-autoscaler
件已上传至指定位置(需要使用OBS Browser工具)。 例如:桶内文件路径/文件名,文件下载地址可至github中指定项目的指定路径下查找,示例如1、2所示。 models/bvlc_reference_caffenet/bvlc_reference_caffenet.caffemodel
申请值推荐计算公式: CPU申请值:计算“目标节点数 * 目标Pod规模”的值,并在表4中根据“集群节点数 * Pod规模”的计算值进行插值查找,向上取最接近规格的申请值及限制值。 例如2000节点和2w个Pod的场景下,“目标节点数 * 目标Pod规模”等于4000w,向上取最接近的规格为700/7w(“集群节点数
OnFailure 提交作业,开始训练。 kubectl apply -f mnist.yaml 等待训练作业完成,通过Kubeflow的UI可以查询训练结果信息。至此就完成了一次简单的分布式训练任务。Kubeflow的借助TFJob简化了作业的配置。Volcano通过简单的增加一行配置