检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过 Metrics API 提供资源使用指标,例如容器CPU和内存使用率。这些度量可以由用户直接访问(例如:通过使用kubectl top命令),或者由集群中的控制器(例如:Horizontal Pod Autoscaler)使用来进行决策,具体的组件为Metrics Server。
单击右上角“YAML创建”,可使用已有的YAML创建服务。 查看详情 选择服务所在的命名空间。 (可选)根据服务名称进行搜索。 单击服务名称即可查看服务详情,包括基本信息以及各集群的部署信息。 在服务详情页的部署集群栏中单击“查看YAML”,可查看各个集群中部署的服务实例YAML,并支持下载。
管理工作负载 操作场景 工作负载创建后,您可以对其执行查看详情升级、编辑YAML、重新部署、重新调度、删除等操作。 表1 工作负载管理 操作 描述 查看详情 可查看Pod和工作负载的基本信息、事件和状态等,并对工作负载的配置进行修改。 编辑YAML 可通过在线YAML编辑窗对工作
adactl join命令不幂等,失败后再次执行会报错。 解决方案 请将集群从联邦中移出,然后执行kubectl get cluster命令,校验集群联邦中是否存在该集群。 若存在,请执行kubectl edit cluster clusterName命令,编辑YAML删除fin
集群,但是所接入集群涉及的其他云服务、云资源产生的计费项并不归入华为云UCS进行计费。 查看集群的vCPU数量 如需查看所接入集群的vCPU数量(计入UCS服务管理费用的部分),可运行以下命令: kubectl get nodes -o jsonpath='{range .items[*]}{
proxy-agent-***查看Pod的告警信息,详细排查思路可参考proxy-agent部署失败怎么办?。 proxy-agent默认部署两个Pod实例,存在一个Pod正常Running即可使用基本功能,但是高可用性无法保证。 打印proxy-agent的Pod日志,查看代理程序是否可以连接到UCS。
sh/gpu-core.percentage。 执行以下命令,创建应用。 kubectl apply -f gpu-app.yaml 验证GPU虚拟化隔离能力 工作负载创建成功后,您可以尝试验证GPU虚拟化的隔离能力。 登录容器查看容器被分配显存总量 kubectl exec -it
proxy-agent-***查看Pod的告警信息,详细排查思路可参考proxy-agent部署失败怎么办?。 proxy-agent默认部署两个Pod实例,存在一个Pod正常Running即可使用基本功能,但是高可用性无法保证。 打印proxy-agent的Pod日志,查看代理程序是否可以连接到UCS。
图2 ucs-ctl下载地址 将如下命令中的下载地址替换为1中所记录的地址,然后执行命令,以下载sha256 校验文件。 curl 下载地址.sha256 -o ucs-ctl.sha256 # 将该校验文件移动至ucs-ctl 同目录下,执行如下命令,以校验工具的完整性。 sha256sum
配置其余信息,完成后,单击“创建工作负载”。返回无状态工作负载列表查看工作负载状态。 在工作负载列表中,待工作负载状态为“运行中”,工作负载创建成功。 通过kubectl命令行创建NPU应用 本节以创建无状态工作负载(Deployment)为例,说明使用kubectl命令创建训练任务的方法。 apiVersion:
事件:实例产生的事件信息,保存时间为1小时。 实例列表:查看实例名称、状态、重启次数等。 查看YAML:查看对应实例的YAML文件。 删除:删除实例。 查看/编辑YAML:可以查看/编辑工作负载的YAML文件。 删除:删除任务。 停止(仅定时任务支持):停止定时任务。 父主题: 工作负载
/proc/self/fd/<num>。 图1 有安全风险的工作负载配置示例 工作负载的容器镜像中默认WORKDIR或启动命令包含 /proc/self/fd/<num>。 可通过以下命令查看容器镜像元数据: docker运行时执行:docker inspect <镜像ID> containerd运行时执行:crictl
创建工作负载。基于准备工作中的镜像创建无状态工作负载,并配置服务,并为其创建与部署调度策略。 创建负载伸缩策略。使用命令行工具创建FederatedHPA策略与CronFederatedHPA策略。 观察负载伸缩过程。查看工作负载中的Pod的数量变动,观察所创建的负载伸缩策略效果。 图1 复杂场景下负载伸缩策略使用流程
导进行安装: 安装完成后,执行以下命令,可查看节点的/dev目录下所有的芯片设备。 ls -l /dev/davinci* 执行如下命令,查看驱动加载是否成功。 npu-smi info 若出现如下回显信息,说明加载成功,具体回显信息请以实际情况为准。否则,说明加载驱动失败。请联系华为技术支持处理。
安全环境配置kubectl。 配置完成后,即可通过kubectl命令操作网格实例的相关资源。 例如,查看北京四的namespace资源。 kubectl get serviceentry -n xxx 执行上述命令后,提示如下类似信息: 当通过API访问公有云系统时,需要使用访问
Master节点关机后,出现集群控制台不可用的情况。 操作步骤 此类问题是由于Cilium社区对“Terminating”状态的Pod并不会进行Cilium Endpoint摘除,导致部分请求分流到关机节点,从而导致请求失败。请按照如下指导处理: 执行以下命令,删除“Terminating”状态的Pod。
例如,获取所有Pod使用的命令是: kubectl get pod 这里的Pod是有命名空间的,默认为default。指定命名空间需使用如下命令: kubectl get pod -n default 当要获取全部命名空间下的Pod时,使用如下命令: kubectl get pod
首次进行远端备份需要输入sftp密码,请在please input sftp password提示后输入远端sftp服务器密码。 备份命令中的备份路径必须真实有效,否则执行命令后在远端生成的备份文件可能存在错误。 执行成功后,远端主机的指定备份路径下会产生名为“集群名-backup-时间戳.tar
kubeconfig -c test-redhat86 -o kubeconfig 可以使用ucs-ctl get kubeconfig -h查看获取KubeConfig所使用到的参数。 -c, --cluster:指定待导出KubeConfig的集群名。 -e, --eip:指定API
使用kubectl连接集群,使用如下命令在集群中创建一个名为“agent.yaml”的YAML文件(该文件名称可自定义),并将2中的agent配置内容粘贴到YAML文件中。 vim agent.yaml 在待接入集群中执行以下命令部署代理。 kubectl apply -f agent.yaml 查看集群代理部署状态。