正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
资源变更与弃用 社区1.19 ReleaseNotes 增加对vSphere in-tree卷迁移至vSphere CSI驱动的支持。in-tree vSphere Volume插件将不再使用,并在将来的版本中删除。
此时需要先卸载该节点上的NPU驱动,再重启 npu-driver-installer Pod,才能重新安装NPU驱动,按上述步骤确认驱动安装完成后再重启节点。驱动卸载方式请参见NPU驱动卸载。
驱逐后该节点上的Pod如下,节点上仅保留了不可驱逐的系统级Pod。
本文将通过评估项目、影响说明及评估参考三个角度为您阐述容器应用部署上云的各个检查项,以便帮助您扫除上云障碍、顺利高效地完成业务迁移至云容器引擎(CCE),降低因为使用不当导致集群或应用异常的风险。
如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。 nvidia驱动建议放在OBS桶里,并设置为公共读。 相关链接 GPU节点使用nvidia驱动启动容器排查思路 GPU插件安装 父主题: 工作负载异常
2.0.46 v1.21 v1.23 v1.25 v1.27 支持535版本Nvidia驱动 支持非root用户使用XGPU 优化启动逻辑 2.0.44 v1.21 v1.23 v1.25 v1.27 支持535版本Nvidia驱动 支持非root用户使用XGPU 优化启动逻辑
优势 云上容灾 通过云容器引擎,可以将业务系统同时部署在多个云的容器服务上,统一流量分发,单云故障后能够自动将业务流量切换到其他云上,并能快速自动解决现网事故。 统一架构,高弹性 云上云下同架构平台,可灵活根据流量峰值实现资源在云上云下的弹性伸缩、平滑迁移和扩容。
如何避免节点上的某个容器被驱逐? 问题背景 在工作负载调度时可能会发生一个节点上的两个容器之间互相争资源的情况,最终导致kubelet将其全部驱逐。那么能不能设定策略让其中一个服务一直保留?如何设定?
请检查NVIDIA_DRIVER_DOWNLOAD_URL字段是否与插件页面的GPU驱动版本一致,若不一致,请在页面上修改为正确的驱动版本。 父主题: 升级前检查异常问题排查
1.2.5 v1.19 v1.21 v1.23 v1.25 支持NPU驱动自动安装 1.2.4 v1.19 v1.21 v1.23 v1.25 适配CCE v1.25集群 1.2.2 v1.19 v1.21 v1.23 适配CCE v1.23集群 1.2.1 v1.19 v1.21
在“GPU驱动配置”中找到“节点池自定义驱动”,并选择新增的目标节点池。 参考准备GPU虚拟化资源,选择满足GPU虚拟化要求的驱动,并开启支持GPU虚拟化。 图1 异构资源配置 单击“确认配置”进行保存。
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理 父主题: 调度
版本的GPU驱动。
集群管理员可以直接查询节点上的服务日志,可以帮助调试节点上运行的服务问题。如需使用此功能,请确保在该节点上启用了NodeLogQuery特性门控,并且kubelet配置选项enableSystemLogHandler和enableSystemLogQuery都设置为true。
集群管理员可以直接查询节点上的服务日志,可以帮助调试节点上运行的服务问题。如需使用此功能,请确保在该节点上启用了NodeLogQuery特性门控,并且kubelet配置选项enableSystemLogHandler和enableSystemLogQuery都设置为true。
CCE节点上监听的端口列表 GPU节点使用nvidia驱动启动容器排查思路 CCE节点NTP时间不同步如何解决? Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高 为什么kubectl top命令查看节点内存使用超过100%?
每个节点上,所有日志策略采集的日志文件总数不能超过4096个。 - 父主题: 日志中心
排查项二:是否在实例上设置了tolerations 通过kubectl工具或单击对应工作负载后的“更多 > 编辑YAML”,检查工作负载上是不是设置了容忍度,具体请参见污点和容忍度。
云原生网络2.0模型说明 云原生网络2.0模型 云原生网络2.0是自研的新一代容器网络模型,深度整合了虚拟私有云VPC的弹性网卡(Elastic Network Interface,简称ENI)和辅助弹性网卡(Sub Network Interface,简称Sub-ENI)的能力,
cgroup统计资源异常导致kubelet驱逐Pod 故障现象 ARM架构节点上,cgroup统计资源异常导致kubelet驱逐Pod,节点无法正常使用。 kubelet一直在驱逐pod,把容器全终止之后还是认为内存不足。 此时实际资源使用正常。