检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
载调度到GPU/NPU节点运行,于是可能会出现GPU/NPU节点的CPU、内存资源被普通工作负载占用的情况,导致GPU/NPU资源闲置。 解决方案 在使用GPU/NPU节点时,可以为其添加污点,并通过工作负载容忍度设置,避免非GPU/NPU工作负载调度到GPU/NPU节点上。 G
台进行创建,详情请参见创建证书。 SNI:当监听器端口启用HTTPS时,可以选择是否添加SNI证书。如果需要添加SNI证书,证书中必须包含域名。如果当前无可选证书,需前往弹性负载均衡控制台进行创建,详情请参见创建证书。 安全策略:当监听器端口启用HTTPS时,支持选择可用的安全策略,更多信息请参见安全策略。v1
string message = 1; } Nginx Ingress中,gRPC服务只运行在HTTPS端口(默认443)上,因此在生产环境中,需要域名和对应的SSL证书。本示例使用 grpc.example.com和自签SSL证书。 步骤1:创建SSL证书 复制以下内容并保存至openssl
openkruise标签的命名空间)的Pod进行创建/更新/删除操作均会被拦截。 解决方案: 将kruise-controller-manager组件恢复正常即可正常调度。造成kruise-controller-manager异常的原因及解决建议如下: kruise-controller-manage
荷运行,超过一定限度会出现日志转储,进而日志累积导致磁盘使用率过高。同时因为kubelet高负荷运行此时节点上容器创删等操作也会受影响。 解决方法 一般场景下,以8U16G节点、数据盘大小为100G为例,建议单容器的日志标准输出速率不超过512KB/s,节点上所有容器总体日志标准
DMIN等 通过seccomp限制攻击者对宿主机内核的系统调用权限,具体请参见使用Seccomp限制容器的系统调用。 CCE新创建节点已经解决该漏洞。 您可以先创建新的节点,然后将老节点设置为不可调度,待老节点上应用都调度到新节点上后,删掉老节点或重置老节点。 相关链接 https://github
io/tls或者IngressTLS类型的secret存放监听器的证书信息 推荐您使用对接已有证书的方式配置 SNI证书 监听器使用的SNI证书(带域名的服务器证书) 参数名 取值范围 默认值 是否允许修改 作用范围 spec.tls[].(secrectName + hosts) 无 无
Ingress控制器插件升级至2.3.3及以上版本后,如果客户端TLS版本低于v1.2,会导致客户端与NGINX Ingress协商时报错。 解决方法 2.3.3及以上版本的NGINX Ingress默认仅支持TLS v1.2及v1.3版本,如果需要支持更多TLS版本,您可以在NGINX
27.16-r4、v1.28.13-r0、v1.29.8-r0、v1.30.4-r0及以上版本。 由于gitRepo存储卷已被弃用,社区建议的解决方案是使用initContainers容器执行Git克隆操作,然后将目录挂载至Pod容器中,请参见社区示例。 相关链接 https://github
space left on device”类似的日志打印,则说明Prometheus挂载的磁盘空间不足。 图5 查看Prometheus实例日志 解决方案 方案一:推荐使用关闭本地数据存储模式对接AOM实例。使用AOM托管指标数据,无需管理存储。 方案二:在左侧导航栏中选择“存储”,并切
node节点中vg被删除或者损坏无法识别,为了避免重置的时候误格式化用户的数据盘,需要先手动恢复vg,这样重置的时候就不会去格式化其余的数据盘。 解决方案 登录节点。 重新创建PV和VG,但是创建时报错: root@host1:~# pvcreate /dev/vdb Device /dev/vdb
登录CCE控制台,进入一个已有的集群,在左侧导航栏中选择“工作负载”。 选择“无状态负载”页签,单击工作负载后的“更多 > 重新部署”。 在弹出的提示框中单击“是”,即可完成工作负载的重新部署。 关闭/开启升级(仅无状态工作负载可用) 无状态工作负载可以进行“关闭/开启升级”操作。 关闭
group "apps" in the namespace "default" 问题根因 用户没有操作该Kubernetes资源的权限。 解决方法 给该用户授权Kubernetes权限,具体方法如下。 登录CCE控制台,在左侧导航栏中选择“权限管理”。 在右边下拉列表中选择要添加权限的集群。
node 10.2.0.35 is affected 若回显如下则表示节点无此问题: node 10.2.0.35 works well 解决办法 如果您希望继续使用该节点资源,建议重置所属集群中的CentOS 7.6节点,以升级节点上网络组件到最新版本,具体操作请参考重置节点。
io/not-ready:NoExecute 当Pod对这些污点存在容忍策略时,Pod不会进行重新调度,因此需要检查Pod对污点的容忍策略。 解决方案 通过查询Pod或者工作负载的yaml,查看容忍策略。一般情况下,工作负载的容忍度设置由以下字段组成: tolerations: -
集群视角的成本可视化最佳实践 应用现状 当前使用CCE时,默认是以CCE整个云服务的粒度体现计费信息,没有划分不同集群使用的成本。 解决方案 通过给集群使用的资源打上CCE-Cluster-ID标签,在成本中心通过标签过滤汇聚整个集群所使用资源的成本,以集群为单位进行成本分析,降本增效。
ontainerd,获取节点容器状态信息。 编译平台类应用,通过sock文件连接Docker/Containerd,创建程序编译用容器。 解决方案 问题场景一:检查到应用存在该异常,进行整改。 推荐您使用挂载目录的方式挂载sock文件。例如,若宿主机sock文件路径为/var/run/docker
namespace, cluster) * 100) > 80 告警等级 根据重要性选择告警等级,分为“紧急”、“重要”、“次要”、“提示”四个等级。 紧急 持续时长 通过下拉菜单选择告警持续时长,默认为1分钟。 1分钟 告警内容 定义告警通知中的内容,可通过“${变量}”的形式捕获Prometheus中的变量
节点池异常状态排查 排查思路 请根据具体节点池异常状态确定具体问题原因,如表1所示。 表1 节点池异常 节点池异常状态 说明 解决方案 错误 Error 节点池删除失败 重试删除节点池操作,如果节点池仍旧无法删除,请提交工单帮助删除错误节点池。 配额不足 QuotaInsufficient
仍然能够使用该YAML文件创建工作负载,但是容器在运行时,却不会使用您原本期望的命令,而是执行了镜像中的EntryPoint默认命令。 解决方案 查看Pod的配置,确定Pod中容器的配置是否符合预期。具体操作,请参见Pod配置查看方法。 排查环境变量中的某一个Key是否存在拼写