检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/nvidia-smi 若能正常返回GPU信息,说明设备可用,插件安装成功。 如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。 nvidia驱动建议放在OBS桶里,并设置为公共读。
须知: ping命令使用ICMP协议进行网络连通性测试。换言之,安全组规则至少需要开通相应的ICMP协议端口,ping命令才能访问成功。 对于问题一,您需要添加相应的安全组规则,具体请参见添加安全组规则。 对于问题二,您需要修改相应规则中的协议端口,具体请参见修改安全组规则。
特性开启后可能应用所需的系统调用会被runtime限制,所以开启后应确保在测试环境调试,不会对应用造成影响。 网络策略中的EndPort进入稳定阶段 Network Policy中的EndPort已进入稳定状态,该特性于1.21版本合入。
查看设备的磁盘和分区大小。
使用Kubernetes默认GPU调度 GPU虚拟化 GPU虚拟化能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。
restricted 策略:在这种模式下,kubelet 仅为Pod 分配NUMA 对齐的CPU 和设备资源。如果节点资源不存在符合NUMA对齐资源Pod将会被拒绝。
测试验证 创建一个工作负载,配置新部署的Nginx Ingress Controller为其提供网络访问。 创建nginx工作负载。 登录CCE控制台,进入集群,在左侧导航栏中选择“工作负载”,单击右上角“YAML创建”。 填写以下内容,并单击“确定”。
若为xfs则建议您在新版本集群预先部署应用,以测试应用与新版本集群是否兼容。
(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.44 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.31 v1.23 修复
表5 存储检查 故障检查项 功能 说明 磁盘只读 DiskReadonly 通过定期对节点系统盘、CCE数据盘(包含CRI逻辑盘与Kubelet逻辑盘)进行测试性写操作,检查关键磁盘的可用性 检测路径: /mnt/paas/kubernetes/kubelet/ /var/lib/
说明: 比例配置过大可能导致区域在规模故障场景下仍尝试执行大规模迁移动作,导致集群过载等风险。 默认:0.55 取值范围为0-1 节点迁移速率 node-eviction-rate 当某区域健康时,在节点故障的情况下每秒删除 Pods的节点数。
查看设备的磁盘和分区大小。
查看设备的磁盘和分区大小。
表1 Linux云服务器登录方式一览 是否绑定EIP 本地设备操作系统 连接方法 是 Windows 使用PuTTY、Xshell等远程登录工具。 SSH密码方式鉴权:SSH密码方式登录 SSH密钥方式鉴权:SSH密钥方式登录 是 Linux 使用命令连接。
图1 同一个节点中的Pod通信 在同一节点上的Pod会通过Veth设备将一端连接到网桥,且它们的IP地址是通过网桥动态获取的,和网桥IP属于同一网段。此外,同一节点上的所有Pod默认路由都指向网桥,网桥会负责将所有非本地地址的流量进行转发。因此,同一节点上的Pod可以直接通信。
权限说明 NPD插件为监控内核日志,需要读取宿主机/dev/kmsg设备,为此需要开启容器特权,详见privileged。
stop kubelet kubelet-monit containerd containerd-monit 停止服务(docker运行时) systemctl stop kubelet kubelet-monit docker docker-monit 检查是否有程序正在使用GPU卡设备
数据分布:访问量PV分布(中国)、访问量PV分布(世界)、访问量UV分布(中国)、访问量UV分布(世界)、平均时延分布(中国)、平均时延分布(世界)、设备占比(终端)、设备占比(系统)。
cd /home mkdir -p $HOME/.kube mv -f kubeconfig-a.json $HOME/.kube/config 将集群B对应的kubeconfig-b.json文件移动至“$HOME/.kube/config-test”。
创建一个测试容器,示例如下,其中{node_ip}为该异常节点的IP。