检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
org/wikipedia/commons/thumb/c/c5/Nginx_logo.svg/500px-Nginx_logo.svg.png keywords: - ingress - nginx kubeVersion: '>=1.20.0-0' maintainers: - name: rikatz
节点Python命令检查异常处理 ASM网格版本检查异常处理 节点Ready检查异常处理 节点journald检查异常处理 节点干扰ContainerdSock检查异常处理 内部错误异常处理 节点挂载点检查异常处理 K8s节点污点检查异常处理 everest插件版本限制检查异常处理 cce-
当节点的OS版本为Huawei Cloud EulerOS 2.0、Ubuntu 22.04时,内核版本大于5.9,操作系统已修复该问题。 建议 请您对该问题的影响进行评估,如果上述问题会对您的业务产生影响建议您采取以下措施: 使用不涉及该问题的操作系统,如Huawei Cloud EulerOS
CCE Standard集群 CCE Turbo集群 最新内核信息 VPC网络模型 容器隧道网络模型 云原生网络2.0 Huawei Cloud EulerOS 2.0 v1.31 √ √ √ 5.10.0-182.0.0.95.r2220_156.hce2.x86_64 v1.30
'{print $2}'` 排查项八:DNS地址配置错误 登录节点,在日志/var/log/cloud-init-output.log中查看是否有域名解析失败相关的报错。 cat /var/log/cloud-init-output.log | grep resolv 如果回显包含如下内容则说明无法解析该域名。
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
控制指定的镜像仓库跳过对安全证书的验证,一般用于与不安全或自签名的镜像仓库建立连接。 默认为空 镜像仓库需要是IP地址或域名。 仅在开发或测试环境中使用,不建议在生产环境中启用。 如果使用自签名证书或无法获取有效证书的私有镜像仓库时,才考虑启用此选项。 v1.23.17-r0、v1
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
负载Pod一直无法创建。 解决方案: 登录该问题节点。 手动解压节点上的cce-pause镜像安装包。 tar -xzvf /opt/cloud/cce/package/node-package/pause-*.tgz 导入镜像。 Docker节点: docker load -i
故障检查项 功能 说明 磁盘只读 DiskReadonly 通过定期对节点系统盘、CCE数据盘(包含CRI逻辑盘与Kubelet逻辑盘)进行测试性写操作,检查关键磁盘的可用性 检测路径: /mnt/paas/kubernetes/kubelet/ /var/lib/docker/
默认:50 在拥有大量节点的集群中,适当增加此阈值可以帮助提高控制器的性能和响应速度。对于规模较小的集群,保持默认值即可。在调整此参数时,建议先在测试环境中验证其对性能的影响,然后再在生产环境中应用。 表4 网络组件配置(仅CCE Turbo集群支持) 名称 参数 详情 取值 集群级别的节点最少绑定容器网卡数
31 支持CCE v1.31集群 2.4.75 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 Huawei Cloud EulerOS 2.0节点上的云硬盘类型PVC支持指定Fstype类型为xfs 2.4.72 v1.23 v1.25 v1.27 v1
支持WebSocket、WSS和gRPC协议。 支持HTTP和HTTPS协议。 支持gRPC协议。 配置变更 非后端端点变更需要Reload进程,对长连接有损。 端点变更使用Lua实现热更新。 Lua插件变更需要Reload进程。 申明式API,变更后由云服务之间的OpenAPI能力将配置加载到ELB负载均衡,实现动态加载。
访问容器网段10.0.0.0/16。具体访问时要关注安全组配置,打通端口配置。 访问其他云服务 与CCE进行内网通信的与服务常见服务有:RDS、DCS、Kafka、RabbitMQ、ModelArts等。 访问其他云服务除了上面所说的VPC内访问和跨VPC访问的网络配置外,还需要
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
负载。 图2 滚动升级 设置优雅终止: 在容器配置中选择“生命周期”,设置停止前处理,建议设置为业务处理完所有剩余请求所需的时间,其中多为长连接请求。例如,您可以设置工作负载收到删除请求后休眠30s,能够有充足的时间来处理剩余的请求,保证服务的正常运行。 在高级配置中选择“升级策
Exporter Dashboard来展示DCGM相关指标信息。关于在Grafana导入Dashboard的方法,请参见Manage dashboards。 查看刚刚导入的面板。 附录:DCGM-Exporter组件故障排查 运行状态检查 在CCE AI套件(NVIDIA GPU)插件页面检查Pod状态为“运行中”。
调高 keepalive 最大空闲连接数:高并发环境下,建议将 keepalive 值配置为1000。 设置网关超时:请您确保后端的业务长连接的超时时间不低于Nginx Ingress Controller的连接超时时间。 对Nginx Ingress Controller配置HPA进行自动扩容
com/prometheus-community/helm-charts/tree/main/charts/kube-prometheus-stack/charts/crds/crds。 部署示例应用如下: apiVersion: apps/v1 kind: Deployment metadata: name:
Exporter Dashboard来展示gpu的相关指标信息。 关于在Grafana导入Dashboard的方法,请参见Manage dashboards。 手动部署dcgm-exporter组件 本文在集群部署dcgm-exporter组件进行GPU指标的采集,同时以9400端口对外暴露GPU指标。