检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
表8 Node节点安全组出方向规则最小范围 端口 放通地址段 说明 UDP:53 子网的DNS服务器 用于域名解析。 UDP:4789(仅容器隧道网络模型的集群需要) 所有IP地址 容器间网络互访。
41 CoreDNS配置一致性检查异常处理 检查当前CoreDNS关键配置Corefile是否同Helm Release记录存在差异,差异的部分可能在插件升级时被覆盖,影响集群内部域名解析。 42 节点Sudo检查异常处理 检查当前节点sudo命令,sudo相关文件是否正常。
操作步骤 您可以在集群节点上查询GPU/NPU卡的信息,然后使用kubectl搜索到使用该卡的Pod。 GPU场景 NPU场景 登录CCE控制台,在左侧导航栏中选择“节点管理”,切换至“节点”页签,查看GPU节点的IP。本文中以192.168.0.106为例。
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
图14 查看集群ID 进入云日志服务,根据集群ID查询对应的日志组和日志流。 图15 查询日志组 找到对应的日志组,单击“修改”,设置日志存储时间。 日志存储时间影响将日志存储费用。 图16 修改日志存储时间 如何修复日志采集策略中日志组(流)不存在的问题?
您可以在SDK中心查询版本信息。 表1提供了各个CCE服务支持的SDK列表,您可以在GitHub仓库查看SDK更新历史、获取安装包以及查看指导文档。
插件管理 创建AddonInstance 查询AddonTemplates列表 更新AddonInstance 回滚AddonInstance 删除AddonInstance 获取AddonInstance详情 获取AddonInstance列表 父主题: API
返回“策略”页面,查看HPA策略已创建成功。 图5 HPA策略创建成功 父主题: GPU调度
在监控页面,可查看工作负载的CPU利用率和物理内存使用率。 图1 查看无状态工作负载监控 单击工作负载名称,可在“实例列表”中单击某个实例的“监控”按钮,查看相应实例的CPU使用率、内存使用率。
模板管理 上传模板 获取模板列表 获取模板实例列表 更新模板 创建模板实例 删除模板 更新指定模板实例 获取模板 删除指定模板实例 下载模板 获取指定模板实例 获取模板Values 查询指定模板实例历史记录 获取用户模板配额 父主题: API
查看K8s事件的方法请参见Pod事件查看方法。 排查思路 根据具体事件信息确定具体问题原因,如表1所示。
选择“系统预置规格”时,您可根据并发域名解析能力选择“小规格”、“中规格”或“大规格”,系统会根据不同的预置规格配置插件的实例数及资源配额,具体配置值请以控制台显示为准。
次/秒 每秒执行普罗query的次数 P90查询耗时 秒 不同分片的90%的操作的查询耗时 远端样本滞后比率 秒 存储在WAL中的样本的最高时间戳与远程写入成功的最高时间戳的比率 远程写流量 字节/秒 远程写入的速率 当前队列数 个 当前用于并行发送到远程存储的分片数 最大队列数
准备工作 在开始操作前,请您先注册华为账号并完成实名认证,详情请参见注册华为账号并开通华为云和个人实名认证。 请您保证账户有足够的资金,以免创建集群失败,具体操作请参见账户充值。
使用云原生监控插件可将监控数据与监控中心对接,在监控中心控制台查看监控数据,配置告警等。
图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书 另外,华为云还提供了以下销售许可证及软件著作权证书,供用户下载和参考。具体请查看合规资质证书。
集群管理 创建集群 获取指定的集群 获取指定项目下的集群 更新指定的集群 删除集群 集群休眠 集群唤醒 获取集群证书 吊销用户的集群证书 变更集群规格 获取任务信息 绑定、解绑集群公网apiserver地址 获取集群访问的地址 查询集群日志配置信息 配置集群日志 获取分区列表 创建分区
您可以根据错误码查找对应的问题,查看问题原因和解决方案。本文介绍常见错误码及其问题原因和解决方案。 资源冲突 问题现象 安装插件时,出现“内部错误”,错误码为CCE.03500001。
步骤1:部署两个版本的服务 在集群中部署两个版本的Nginx服务,并通过Nginx Ingress对外提供七层域名访问。 创建第一个版本的Deployment和Service,本文以old-nginx为例。
查看SSH端口是否开放的命令如下: netstat -tlnp|grep -w 22 若查询结果显示存在SSH端口正在监听,则表示该节点已开放了SSH访问。