检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
OnFailure 提交作业,开始训练。 kubectl apply -f mnist.yaml 等待训练作业完成,通过Kubeflow的UI可以查询训练结果信息。至此就完成了一次简单的分布式训练任务。Kubeflow的借助TFJob简化了作业的配置。Volcano通过简单的增加一行配置
ScaleUpBillingConfigOverride object 参数解释: 节点池扩容时覆盖节点池的默认计费模式配置,新版节点池(参考新版节点池切换说明)扩容包周期节点时填写此参数,其他场景建议忽略 约束限制: 只在v1.21.11-r0、v1.23.9-r0、v1.25.4-r0及以
"patch",表示升级插件版本 version 是 String 参数解释: 目标插件版本号 约束限制: 目标插件版本必须与目标集群版本配套。集群版本配套关系见查询AddonTemplates列表 取值范围: 不涉及 values 否 Map<String,Object> 参数解释: 插件参数列表,Key:Value格式。
如何选择GPU节点驱动版本请参见选择GPU节点驱动版本。 记录当前版本驱动状态。根据CCE AI套件(NVIDIA GPU)插件版本差异,查询驱动的命令如下: 1.x.x版本执行: /opt/cloud/cce/nvidia/bin/nvidia-smi 2.0.0-2.5.3版
更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 表示集群唤醒任务下发成功,需持续查询集群状态,当集群状态变为Available后表示唤醒成功 错误码 请参见错误码。 父主题: 集群管理
19 v1.21 插件性能优化,降低资源消耗 1.2.11 v1.15 v1.17 v1.19 v1.21 从K8s Metrics API查询资源指标 计算资源利用率时考虑未就绪的Pod 1.2.10 v1.15 v1.17 v1.19 v1.21 适配CCE v1.21集群 1
证书的通用名称 (CN - Common Name) 即所需 ID。 方式二:如果您无法获取到此证书申请人下载的证书,您可以通过云审计服务查询删除用户 (deleteUser)、删除委托 (deleteAgency) 的事件,事件对应的资源 ID 分别是已删除用户、已删除委托账号的
yaml deployment.apps/nginx created 命令执行后,Kubernetes集群中会创建3个Pod,使用如下命令可以查询到Deployment和Pod: # kubectl get deploy NAME READY UP-TO-DATE AVAILABLE
1.6.0 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 支持v1.30集群 安全加固:将插件使用的查询secret的权限限制在monitoring命名空间 1.5.2 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 新增创建容器日志默认日志流时索引功能
表5 响应Body参数 参数 参数类型 描述 jobid String 提交任务成功后返回的任务ID,用户可以使用该ID对任务执行情况进行查询。 请求示例 自定义节点池纳管节点 POST /api/v3/projects/{project_id}/clusters/{cluste
如果被访问服务设置白名单,白名单未添加节点网段或容器网段。 对于此类问题,您需要添加容器和节点网段到白名单。具体白名单的设置步骤,请在对应服务的帮助文档中查找。 域名解析 当访问外部域名时,Pod先使用集群的域名解析功能解析被访问目标的地址,后经过Pod侧的网络策略再进行访问,此时可能出现域名无法解析的情况,常见的报错有:
型资源共存的环境下,尽可能满足分配的公平原则。 配置建议: DRF调度算法优先考虑集群中业务的吞吐量,适用单次AI训练、单次大数据计算以及查询等批处理小业务场景。 组调度 将一组Pod看做一个整体进行资源分配。观察Job下的Pod已调度数量是否满足了最小运行数量,当Job的最小运
如果被访问服务设置白名单,白名单未添加节点网段或容器网段。 对于此类问题,您需要添加容器和节点网段到白名单。具体白名单的设置步骤,请在对应服务的帮助文档中查找。 域名解析 当访问外部域名时,Pod先使用集群的域名解析功能解析被访问目标的地址,后经过Pod侧的网络策略再进行访问,此时可能出现域名无法解析的情况,常见的报错有: