检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
启用策略中心失败怎么办? 策略中心启用失败时,根据失败情况请使用以下方案排查修复: 如果提示“wait for plugins status become health time out”,请检查集群状态是否正常,集群资源是否足够。检查无误后单击“重新启用”。 如果在启用策略中心
、“开发工具”、“网络”、“安全”、“AI/机器学习”、“其他”。 架构 服务支持的架构类型,当前分为“全部”、“X86_64”和 “ARM”。 交付方式 分为“全部”、“Operator”和“Helm”。 部署平台 分为“全部”、“CCE”、“IEF”和“UCS”。 付费 分为全部”、“免费”和“付费“。
-n kube-system describe pod proxy-agent-***查看Pod的告警信息,详细排查思路可参考proxy-agent部署失败怎么办?。 proxy-agent默认部署两个Pod实例,存在一个Pod正常Running即可使用基本功能,但是高可用性无法保证。
连通,并利用VPC终端节点通过内网与UCS服务建立连接,具有高速、低时延、安全的优势。 约束与限制 仅华为云账号或具备UCS FullAccess权限的用户可进行集群注册的操作。 若集群地域位于境外,应确保您的行为符合所适用的法律法规要求。 请确保注册的集群版本在1.19至1.30之间的集群。
集群的统一管理,包括权限管理、安全策略、配置管理以及多集群编排等统一管理的能力。 容器舰队使用限制 仅华为云账号且具备UCS FullAccess权限的用户可进行舰队的创建、删除操作。 一个集群只能加入一个舰队。 容器舰队支持的能力范围 集群接入UCS后,您可以将其加入容器舰队并
获取账号ID 在调用接口的时候,部分URL中需要填入账号ID(domain-id),所以需要先在管理控制台上获取到账号ID。账号ID获取步骤如下: 注册并登录管理控制台。 单击用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面的项目列表中查看账号ID。 图1 获取账号ID
通过kubectl命令行创建NPU应用 本节以创建无状态工作负载(Deployment)为例,说明使用kubectl命令创建训练任务的方法。 apiVersion: apps/v1 kind: Deployment metadata: annotations: description:
nt k8simagedigests k8sexternalips k8sdisallowedtags k8sdisallowanonymous k8srequiredresources k8scontainerratios k8scontainerrequests k8scontainerlimits
+0000 UTC" } }, "spec" : { "type" : "CreateFederationContainer", "federationUID" : "70acf480-2fa4-11ee-ad1d-0255ac1001c4",
容器基本信息 工作负载是Kubernetes对一组Pod的抽象模型,用于描述业务的运行载体,一个Pod可以封装1个或多个容器,您可以单击右上方的“添加容器”,添加多个容器镜像并分别进行设置。 图1 添加容器 表1 镜像参数说明 参数 说明 容器名称 为容器命名。 镜像名称 单击后方“选择镜像”,选择容器使用的镜像。
--metric-labels-allowlist=pods=[*],nodes=[node,failure-domain.beta.kubernetes.io/zone,topology.kubernetes.io/zone] kube-state-metrics将开始采集Pod和Node的labels指标,并通过kubectl
X86 GPU类型 T4、V100 GPU虚拟化驱动版本 470.57.02、510.47.03、535.54.03 容器运行时 containerd 插件 集群中需要同时安装以下插件: volcano插件:1.10.1及以上版本 gpu-device-plugin插件:2.0.0及以上版本
止状态的Pod。 容器组(不包含停止状态的Pod):限制命名空间下能创建Pod的最大数量,不包含停止状态的Pod。 服务(Service):限制命名空间下能创建服务的最大数量,包含停止状态的Service。 服务(不包含停止状态的Service):限制命名空间下能创建服务的最大数量,不包含停止状态的Service。
2d16h 查看Pod的详细信息。 kubectl describe pod proxy-agent-*** -nkube-system 可能出现如下错误: K8s事件显示集群无法拉取proxy-agent镜像,请您确保集群具备访问公网的能力,可正常拉取SWR镜像。 K8s事件显示节点
ReadOnlyAccess权限(IAM服务的只读权限),用于获取IAM用户列表。 UCS FullAccess + IAM ReadOnlyAccess 只读权限 查看权限列表或详情 UCS ReadOnlyAccess + IAM ReadOnlyAccess 策略中心 管理员权限
注册集群。 例如,将集群“ccecluster01”、“ccecluster02”添加至UCS,并查看集群是否处于正常运行状态。 在添加至UCS的两个集群中分别创建一个工作负载。 为展示流量切换的效果,本实践中两个集群的容器镜像版本不同。 集群“ccecluster01”:示例应用版本号为1
工作负载反亲和(podAntiAffinity) 前面讲了Pod的亲和,通过亲和将Pod部署在一起,有时候需求却恰恰相反,需要将Pod分开部署,例如Pod之间部署在一起会影响性能的情况。 下面例子中定义了反亲和规则,这个规则表示Pod不能调度到拥有app=frontend标签Pod的节点上
工作负载反亲和(podAntiAffinity) 前面讲了Pod的亲和,通过亲和将Pod部署在一起,有时候需求却恰恰相反,需要将Pod分开部署,例如Pod之间部署在一起会影响性能的情况。 下面例子中定义了反亲和规则,这个规则表示Pod不能调度到拥有app=frontend标签Pod的节点上
管理员权限 创建、删除舰队 注册华为云集群(CCE集群、CCE Turbo集群)、本地集群或附着集群 注销集群 将集群加入、移出舰队 为集群或舰队关联权限 开通集群联邦、联邦管理相关操作(如创建联邦工作负载、创建域名访问等) UCS FullAccess 只读权限 查询集群、舰队的列表或详情
含registry/namespace/repository。 源仓库字段不能为空,如果需要将一个源仓库同步到多个目标仓库需要配置多条规则。 目标仓库名可以和源仓库名不同,此时同步功能类似于:docker pull + docker tag + docker push。 当源仓库