检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
若不含有该规则请为Node安全组添加该放通规则,协议端口选择“基本协议/ICMP”,端口号为“全部”,源地址选择“安全组”并设置为Master安全组,描述信息为"Created by CCE,please don't modify! Used by the master node to access
&& ./nvidia-smi 容器: cd /usr/local/nvidia/bin && ./nvidia-smi 若能正常返回GPU信息,说明设备可用,插件安装成功。 如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。 nvidia驱动建议放在OBS桶里,并设置为公共读。
健康诊断将针对不同维度的巡检项,归纳Kubernetes中常见的问题,并提供相应的修复建议。用户可以单击“诊断详情”查看具体诊断项的详细信息以及存在异常的资源。在部分场景下,页面还提供相应的排查文档,供用户参考排查。 图3 诊断结果 父主题: 健康中心
使用Ubuntu 22.04或Huawei Cloud EulerOS 2.0操作系统的节点上不存在此问题,CentOS/Ubuntu18.04/EulerOS 2.5/EulerOS 2.9(低版本内核)/Huawei Cloud EulerOS 1.1操作系统则存在此问题。
CCE如何与其他服务进行内网通信? 与CCE进行内网通信的华为云常见服务有:RDS、DMS、Kafka、RabbitMQ、VPN、ModelArts等,有如下两种场景: 在同一个VPC网络下,CCE节点可以与此VPC下的所有服务进行互通。CCE的容器与其他服务通信时,需要关注对端
PU虚拟化节点。 XGPU服务的隔离功能不支持以UVM的方式申请显存,即调用CUDA API cudaMallocManaged(),更多信息,请参见NVIDIA官方文档。请使用其他方式申请显存,例如调用cudaMalloc()等。 受GPU虚拟化技术的限制,容器内应用程序初始化
点池弹性伸缩行为与预期不符。 例如,节点进行规格变更后,增加CPU和内存(从2U4G变更4U8G)。 节点池扩容时,将根据节点池的节点模板信息计算资源,而ECS侧变更规格导致节点的规格与节点池设定的规格不一致,导致当前集群的CPU和内存使用量计算存在偏差,使扩容时节点池的资源总数可以部分超出CPU/内存的扩容上限。
inpack)。 配置建议如下: 负载感知重调度策略配置推荐 高负载节点驱逐pod的阈值信息targetThreshold:cpu为75、memory为70。 低负载节点承接pod的阈值信息thresholds:cpu为30、memory为30。 负载感知调度的真实负载阈值应介于重调度高负载节点与低负载节点阈值之间
coreos.com CRDs。 kubectl get crd | grep monitoring.coreos.com | awk '{print $1}' | xargs 若回显为空,则无需下一步操作。 删除所有monitoring.coreos.com CRDs。 kubectl
提供NPU资源。 NPU调度 Volcano调度 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。
通过这种方式,您可以确保容器仅拥有执行其功能所需的权限,而不会因拥有过多权限而带来安全隐患。有关更多关于如何为容器设置Capabilities的信息,请参见为容器设置Capabilities。 Seccomp Seccomp是一种系统调用过滤机制,它能够限制进程能够使用的系统调用,从而
查条件时将无法继续升级。为了能够更好地避免升级风险,本文提供全量的升级前检查问题及解决方案,帮助您对可能存在的升级故障进行预处理。 表1 检查项列表 序号 检查项名称 检查项说明 1 节点限制检查异常处理 检查节点是否可用 检查节点操作系统是否支持升级 检查节点是否含有非预期的节点池标签
节点Python命令检查异常处理 ASM网格版本检查异常处理 节点Ready检查异常处理 节点journald检查异常处理 节点干扰ContainerdSock检查异常处理 内部错误异常处理 节点挂载点检查异常处理 K8s节点污点检查异常处理 everest插件版本限制检查异常处理 cce-