检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看nvidia驱动运行是否正常。
如果将dnsPolicy设置为“ClusterFirst”,则DNS查询将发送到kube-dns服务。 对于以配置的集群域后缀为根的域的查询将由kube-dns服务应答。所有其他查询(例如,www.kubernetes.io)将被转发到从节点继承的上游名称服务器。
首先执行以下命令查询集群中是否已开启Metrics API,如果已开启则可跳过本步骤。
如果发现是查询某个资源的信息,使用get命令能够获取更加详尽的信息。但是如果想要查询某个资源的状态,如某个Pod并不是在running状态,这时需要获取更详尽的状态信息时,就应该使用describe命令。
配额管理 查询CCE服务下的资源配额 父主题: API
API版本信息 查询API版本信息列表 父主题: API
在“API凭证”页面的项目列表中查看账号ID。 图1 获取账号ID 父主题: 附录
操作步骤 您可以在集群节点上查询GPU/NPU卡的信息,然后使用kubectl搜索到使用该卡的Pod。 GPU场景 NPU场景 登录CCE控制台,在左侧导航栏中选择“节点管理”,切换至“节点”页签,查看GPU节点的IP。本文中以192.168.0.106为例。
在“集群管理”页面,将鼠标悬浮至集群名称上方,查看当前集群ID。 图14 查看集群ID 进入云日志服务,根据集群ID查询对应的日志组和日志流。 图15 查询日志组 找到对应的日志组,单击“修改”,设置日志存储时间。 日志存储时间影响将日志存储费用。
在CCE控制台,由于云硬盘查询接口不支持企业项目,因此企业项目子用户将无法使用已有云硬盘创建PV。如需使用,需要为IAM用户添加evs:volumes:get的细粒度权限。
插件管理 创建AddonInstance 查询AddonTemplates列表 更新AddonInstance 回滚AddonInstance 删除AddonInstance 获取AddonInstance详情 获取AddonInstance列表 父主题: API
由于ELB的API限制,使用高级转发规则时,每一条转发策略中设置的域名、路径、HTTP请求方法、HTTP请求头、查询字符串、网段、Cookie所有类型的转发规则下条件总数最多为10(同一个规则中的每个参数值均视为1个条件)。
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
您可以在SDK中心查询版本信息。 表1提供了各个CCE服务支持的SDK列表,您可以在GitHub仓库查看SDK更新历史、获取安装包以及查看指导文档。
返回“策略”页面,查看HPA策略已创建成功。 图5 HPA策略创建成功 父主题: GPU调度
在监控页面,可查看工作负载的CPU利用率和物理内存使用率。 图1 查看无状态工作负载监控 单击工作负载名称,可在“实例列表”中单击某个实例的“监控”按钮,查看相应实例的CPU使用率、内存使用率。
查看K8s事件的方法请参见Pod事件查看方法。 排查思路 根据具体事件信息确定具体问题原因,如表1所示。
模板管理 上传模板 获取模板列表 获取模板实例列表 更新模板 创建模板实例 删除模板 更新指定模板实例 获取模板 删除指定模板实例 下载模板 获取指定模板实例 获取模板Values 查询指定模板实例历史记录 获取用户模板配额 父主题: API
例如:Service有2个EndPoint,但是DNS查询时只会返回Service的地址,具体client访问的是哪个Real Server,是由iptables或IPVS规则来决定的,客户端无法自行选择访问指定的EndPoint。
集群管理 创建集群 获取指定的集群 获取指定项目下的集群 更新指定的集群 删除集群 集群休眠 集群唤醒 获取集群证书 吊销用户的集群证书 变更集群规格 获取任务信息 绑定、解绑集群公网apiserver地址 获取集群访问的地址 查询集群日志配置信息 配置集群日志 获取分区列表 创建分区