检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
apiGroup: rbac.authorization.k8s.io 在集群中执行以下命令创建ServiceAccount。 kubectl apply -f ucs-service-account.yaml 使用以下命令获取token。 kubectl get secret ucs-user-token
通过 Metrics API 提供资源使用指标,例如容器CPU和内存使用率。这些度量可以由用户直接访问(例如:通过使用kubectl top命令),或者由集群中的控制器(例如:Horizontal Pod Autoscaler)使用来进行决策,具体的组件为Metrics Server。
单击右上角“YAML创建”,可使用已有的YAML创建服务。 查看详情 选择服务所在的命名空间。 (可选)根据服务名称进行搜索。 单击服务名称即可查看服务详情,包括基本信息以及各集群的部署信息。 在服务详情页的部署集群栏中单击“查看YAML”,可查看各个集群中部署的服务实例YAML,并支持下载。
集群,但是所接入集群涉及的其他云服务、云资源产生的计费项并不归入华为云UCS进行计费。 查看集群的vCPU数量 如需查看所接入集群的vCPU数量(计入UCS服务管理费用的部分),可运行以下命令: kubectl get nodes -o jsonpath='{range .items[*]}{
管理工作负载 操作场景 工作负载创建后,您可以对其执行查看详情升级、编辑YAML、重新部署、重新调度、删除等操作。 表1 工作负载管理 操作 描述 查看详情 可查看Pod和工作负载的基本信息、事件和状态等,并对工作负载的配置进行修改。 编辑YAML 可通过在线YAML编辑窗对工作
adactl join命令不幂等,失败后再次执行会报错。 解决方案 请将集群从联邦中移出,然后执行kubectl get cluster命令,校验集群联邦中是否存在该集群。 若存在,请执行kubectl edit cluster clusterName命令,编辑YAML删除fin
proxy-agent-***查看Pod的告警信息,详细排查思路可参考proxy-agent部署失败怎么办?。 proxy-agent默认部署两个Pod实例,存在一个Pod正常Running即可使用基本功能,但是高可用性无法保证。 打印proxy-agent的Pod日志,查看代理程序是否可以连接到UCS。
proxy-agent-***查看Pod的告警信息,详细排查思路可参考proxy-agent部署失败怎么办?。 proxy-agent默认部署两个Pod实例,存在一个Pod正常Running即可使用基本功能,但是高可用性无法保证。 打印proxy-agent的Pod日志,查看代理程序是否可以连接到UCS。
图2 ucs-ctl下载地址 将如下命令中的下载地址替换为1中所记录的地址,然后执行命令,以下载sha256 校验文件。 curl 下载地址.sha256 -o ucs-ctl.sha256 # 将该校验文件移动至ucs-ctl 同目录下,执行如下命令,以校验工具的完整性。 sha256sum
配置其余信息,完成后,单击“创建工作负载”。返回无状态工作负载列表查看工作负载状态。 在工作负载列表中,待工作负载状态为“运行中”,工作负载创建成功。 通过kubectl命令行创建NPU应用 本节以创建无状态工作负载(Deployment)为例,说明使用kubectl命令创建训练任务的方法。 apiVersion:
事件:实例产生的事件信息,保存时间为1小时。 实例列表:查看实例名称、状态、重启次数等。 查看YAML:查看对应实例的YAML文件。 删除:删除实例。 查看/编辑YAML:可以查看/编辑工作负载的YAML文件。 删除:删除任务。 停止(仅定时任务支持):停止定时任务。 父主题: 工作负载
/proc/self/fd/<num>。 图1 有安全风险的工作负载配置示例 工作负载的容器镜像中默认WORKDIR或启动命令包含 /proc/self/fd/<num>。 可通过以下命令查看容器镜像元数据: docker运行时执行:docker inspect <镜像ID> containerd运行时执行:crictl
创建工作负载。基于准备工作中的镜像创建无状态工作负载,并配置服务,并为其创建与部署调度策略。 创建负载伸缩策略。使用命令行工具创建FederatedHPA策略与CronFederatedHPA策略。 观察负载伸缩过程。查看工作负载中的Pod的数量变动,观察所创建的负载伸缩策略效果。 图1 复杂场景下负载伸缩策略使用流程
安全环境配置kubectl。 配置完成后,即可通过kubectl命令操作网格实例的相关资源。 例如,查看北京四的namespace资源。 kubectl get serviceentry -n xxx 执行上述命令后,提示如下类似信息: 当通过API访问公有云系统时,需要使用访问
导进行安装: 安装完成后,执行以下命令,可查看节点的/dev目录下所有的芯片设备。 ls -l /dev/davinci* 执行如下命令,查看驱动加载是否成功。 npu-smi info 若出现如下回显信息,说明加载成功,具体回显信息请以实际情况为准。否则,说明加载驱动失败。请联系华为技术支持处理。
Master节点关机后,出现集群控制台不可用的情况。 操作步骤 此类问题是由于Cilium社区对“Terminating”状态的Pod并不会进行Cilium Endpoint摘除,导致部分请求分流到关机节点,从而导致请求失败。请按照如下指导处理: 执行以下命令,删除“Terminating”状态的Pod。
例如,获取所有Pod使用的命令是: kubectl get pod 这里的Pod是有命名空间的,默认为default。指定命名空间需使用如下命令: kubectl get pod -n default 当要获取全部命名空间下的Pod时,使用如下命令: kubectl get pod
使用kubectl连接集群,使用如下命令在集群中创建一个名为“agent.yaml”的YAML文件(该文件名称可自定义),并将2中的agent配置内容粘贴到YAML文件中。 vim agent.yaml 在待接入集群中执行以下命令部署代理。 kubectl apply -f agent.yaml 查看集群代理部署状态。
kubeconfig -c test-redhat86 -o kubeconfig 可以使用ucs-ctl get kubeconfig -h查看获取KubeConfig所使用到的参数。 -c, --cluster:指定待导出KubeConfig的集群名。 -e, --eip:指定API
首次进行远端备份需要输入sftp密码,请在please input sftp password提示后输入远端sftp服务器密码。 备份命令中的备份路径必须真实有效,否则执行命令后在远端生成的备份文件可能存在错误。 执行成功后,远端主机的指定备份路径下会产生名为“集群名-backup-时间戳.tar