检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
nvidia-smi 可以看到该机器上存在1张卡GPU0。本文以GPU0为例,定位使用这张卡的Pod。 根据节点IP(即192.168.0.106)和设备号(即第0张卡)定位使用了该卡的Pod。 kubectl get pods --all-namespaces -o jsonpath='{range
会同时存在于AOM中。 随着历史数据的老化,集群内的Prometheus将会与AOM中数据完全相同(例如:您的Prometheus存储时长设置为7天,7天以后AOM中的数据将会和集群内的Prometheus数据完全相同)。 编辑云原生监控插件,切换为无本地存储的轻量化模式,您可以
10操作系统,采用如下命令查看内核版本: uname -a 若查询结果在3.15-6.8之间,则受该漏洞影响。 漏洞消减方案 建议容器工作负载设置seccomp,示例如下: 针对Huawei Cloud EulerOS 2.0、Ubuntu 22.04、EulerOS 2.9、EulerOS
针对故障和潜在风险,给出风险等级并提供修复建议 使用场景 运维对集群做变更前的集群状况检测,可随时主动触发健康诊断 支持运维的定时巡检,可设置定时执行时间,定期检查集群风险 集群诊断健康提炼了运维专家提供的高频故障案例,分别从如下方面进行检查: 维度 检查项 运维层面 集群运维能力
有状态工作负载升级时,若升级类型为替换升级,需要用户手动删除实例后才能升级成功,否则界面会始终显示“处理中”。 请根据业务需求进行工作负载的升级,参数设置方法与创建工作负载时一致。 更新完成后,单击“升级工作负载”,并手动确认YAML文件差异后提交升级。 编辑YAML 可通过在线YAML编辑
nodePublishSecretRef为对象存储卷挂载使用的访问密钥(AK/SK),您需要使用AK/SK创建一个Secret,在创建PV时使用。详细说明请参见对象存储卷挂载设置自定义访问密钥(AK/SK)。 创建PVC。 apiVersion: v1 kind: PersistentVolumeClaim metadata:
按需计费 按需计费是一种先使用再付费的计费模式,适用于资源需求灵活的用户。本文将介绍云容器引擎中购买按需计费资源的计费规则。 适用场景 按需计费适用于短期突增或不可预测的应用或服务,例如电商抢购、临时测试、科学计算。 适用计费项 使用云容器引擎CCE时,表1中的计费项支持从CCE
可。 对于问题二,您需要添加被访问服务子网与容器网段的路由。 白名单 如果被访问服务设置白名单,白名单未添加节点网段或容器网段。 对于此类问题,您需要添加容器和节点网段到白名单。具体白名单的设置步骤,请在对应服务的帮助文档中查找。 域名解析 当访问外部域名时,Pod先使用集群的域
vice使用selector来匹配后端Pod,其他服务或者集群外部通过访问Service即可访问到后端Pod提供的服务。如需对外暴露可直接设置Service类型为LoadBalancer,弹性负载均衡ELB将作为流量入口。 灰度发布原理 以Deployment为例,用户通常会为每
"A-location-d-test"}' kubernetes.io/elb.tags 否 String 为ELB添加资源标签,仅自动创建ELB时支持设置,且集群版本需满足v1.23.11-r0、v1.25.6-r0、v1.27.3-r0及以上。 格式为key=value,同时添加多个标签时以英文逗号(
h1144.eulerosv2r9.aarch64 问题根因 EulerOS 4.18版本内核存在调度相关问题,使用CPU cgroup场景下,设置cfs bandwidth,并触发CPU带宽管控,会概率性触发warn级别告警打印,该流程会持有调度的rq锁,跟其他进程发生死锁(x86_
零中断。 图1 集群高可用 高安全:私有集群,完全由用户掌控,并深度整合IAM和Kubernetes RBAC能力,支持用户在界面为子用户设置不同的RBAC权限。 提供安全运行时,为每个容器(准确地说是Pod)都运行在一个单独的微型虚拟机中,拥有独立的操作系统内核,以及虚拟化层的安全隔离。
包年/包月 包年/包月是一种先付费再使用的计费模式,适用于对资源需求稳定且希望降低成本的用户。通过选择包年/包月的计费模式,您可以预先购买云服务资源并获得一定程度的价格优惠。本文将介绍从CCE控制台中购买包年/包月资源的计费规则。 适用场景 包年/包月计费模式需要用户预先支付一定
HTTPS类型负载均衡证书一致性检查异常处理 检查项内容 检查HTTPS类型负载均衡所使用的证书,是否在ELB服务侧被修改。 解决方案 该问题的出现,一般是由于用户在CCE中创建HTTPS类型Ingress后,直接在ELB证书管理功能中修改了Ingress引用的证书,导致CCE集
1:显存算力隔离模式 2:默认模式,表示当前卡还没被用于GPU虚拟化设备分配。 xgpu_device_health Gauge - GPU卡 GPU虚拟化设备的健康情况。 0:表示GPU虚拟化设备为健康状态。 1:表示GPU虚拟化设备为非健康状态。 DCGM提供的GPU监控指标 表3 利用率(Utilization)
该问题常见于文件存储挂载模式为hard的场景,在hard模式下,所有访问挂载点的进程都会Hang住,直到访问成功。使用soft模式挂载可以避免该情况,具体请参见设置挂载参数。 父主题: 工作负载异常问题排查
在集群列表页面单击“节点管理”,切换到“节点”一栏,查看不可用节点的状态。(如果已安装NPD 1.6.10及以上的插件版本,则在不可用下面会展示指标异常提示,将鼠标光标移动至上方即可看到具体的问题项,若未安装请参考排查项继续排查)。 检查节点监控 登录CCE服务控制台。 在界面中选择需要检查节点所在的集群。
9及以下版本集群建议配置;1.17.17及以上版本当前已在操作系统镜像中将kernel.pid_max调整为4194304,无需配置。 您可以设置节点池安装前执行脚本,在节点池中新创建节点时通过脚本配置kernel.pid_max大小。 在创建节点池时,在“高级配置 > 安装后执行脚本”中添加如下命令。
自定义亲和策略:填写期望插件部署的节点标签实现更灵活的调度策略,若不填写将根据集群默认调度策略进行随机调度。 配置建议: 使用默认配置 同时设置多条自定义亲和策略时,需要保证集群中存在同时满足所有亲和策略的节点,否则插件实例将无法运行。 容忍策略 节点异常时等待指定时间再驱逐插件volcano容器实例,提高插件可用性
服务 服务基础配置 服务端口配置 负载均衡器基础属性 负载均衡器自动创建配置 负载均衡器配置:共享型elb自动创建配置 负载均衡器配置:独享型elb自动创建配置 负载均衡器配置:监听器配置 负载均衡器配置:后端云服务器组 健康检查配置