检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
kube-prometheus-stack插件实例调度失败如何解决? 问题现象 安装kube-prometheus-stack插件时, 插件状态一直处于“部分就绪”,查看插件的prometheus实例事件中提示“0/x nodes are available: x node(s) had volume node
单击对应Service操作栏中的“事件”,查看Service是否存在异常事件。 如果Service存在异常事件,可通过根据事件,参考根据Service异常事件排查查找异常的解决方案。 如果Service不存在异常事件,则一般为访问类问题或周边服务配置引入的问题,可参考根据常见问题对比排查查找异常的解决方案。
图1中为可能存在的扩缩容场景,如下表格以举例的形式说明了不同场景下CronHPA修改HPA的情况。 表1 CronHPA扩缩容场景 场景 场景说明 扩缩容条件 最终结果 操作说明 CronHPA目标实例数 (targetReplicas) Deployment实例数 (replicas) HPA实例数上下限
CCE集群控制面已经通过安全组进行防护,只允许从租户节点或者相邻节点访问安全端口,默认安全。 集群node节点上系统组件监听在127.0.0.1的端口只涉及健康检查、监控信息查询等请求,不会有信息泄露风险。 综上,该CVE对CCE集群影响不大。 漏洞修复方案 目前官方已提供安全版本修复了该漏洞,请受影响的用户升级至以下安全版本。
删除节点池 删除节点池,会先删除节点池中的节点,节点删除后,原有节点上的工作负载实例会自动迁移至其他节点池的可用节点。 约束与限制 对于包周期(包年/包月)预付费的节点池不能直接删除,请先移除节点池下全部的节点。 删除节点会导致与节点关联的本地持久存储卷类型的PVC/PV数据丢失
参数 说明 取值 控制器访问kube-apiserver的QPS kube-api-qps 与kube-apiserver通信的QPS,即每秒查询率。 集群规格为1000节点以下时,默认值为100 集群规格为1000节点及以上时,默认值为200 控制器访问kube-apiserver的突发流量上限
件已上传至指定位置(需要使用OBS Browser工具)。 例如:桶内文件路径/文件名,文件下载地址可至github中指定项目的指定路径下查找,示例如1、2所示。 models/bvlc_reference_caffenet/bvlc_reference_caffenet.caffemodel
单击“Status > Targets”,可以查看到Prometheus监控了哪些目标。 图2 查看监控目标 监控NGINX Ingress控制器指标 访问Prometheus,在“Graph”页面中,查看NGINX Ingress控制器指标。 图3 查看NGINX Ingress控制器监控指标
初始化 Running 运行中 Success 成功 Failed 失败 Error 错误 expireTimeStamp String 检查结果过期时间 message String 信息,一般是执行错误的日志信息 clusterCheckStatus clusterCheckStatus
Ingress路由,NGINX Ingress控制器插件从1.x版本升级至2.x版本后,服务中断。 问题自检 针对Nginx类型的Ingress资源,查看对应Ingress的YAML,如Ingress的YAML中未指定Ingress类型,并确认该Ingress由Nginx Ingress C
Targets”,可以查看到Prometheus监控了哪些目标。 图2 查看监控目标 监控GPU指标 创建一个使用GPU的工作负载,等工作负载正常运行后,访问Prometheus,在“Graph”页面中,查看GPU指标。 关于GPU指标详情请参见GPU监控指标说明。 图3 查看GPU监控指标
预期输出: ingress.networking.k8s.io/ingress-test created 查看Nginx Ingress Controller的配置。 执行以下命令,查看Nginx Ingress Controller服务的Pod kubectl get pods -n
失败并处于反复重启状态。 解决方案 查看Pod的事件,确认当前Pod中未启动的Init容器是否存在异常。具体操作,请参见Pod事件查看方法。 查看Pod中未启动的Init容器的日志,通过日志内容排查问题。具体操作,请参见容器日志查看方法。 查看Pod的配置,确认未启动的Init容
I组、API版本、资源作用范围,单击操作列中的“查看YAML”按钮即可查看CRD的YAML。 您可以通过上方的搜索框,使用关键词搜索全部资源类型。 查看CRD对应的资源对象 在列表中选择一个自定义资源类型,单击操作列中的“查看资源”按钮即可浏览对应的资源对象。 父主题: 工作负载
Kubelet视图 Kubelet是运行在集群中每个节点上的代理程序,它提供了一些指标可以更好地了解集群的运行状态。 指标说明 Kubelet视图暴露的指标如下: 表1 Kubelet图表说明 视图名称 单位 说明 运行中Kubelet 个 集群运行中的kubelet的数量 运行中Pod
ID数量上限。 查看参数: sysctl kernel.pid_max 修改节点进程 ID数量上限kernel.pid_max RuntimeMaxUse /etc/systemd/journald.conf 节点日志缓存内存占用量上限,若不配置长时间运行会占用较大内存。 查看参数: cat
队列的最大大小,参数值过小时极易不足。 查看参数: sysctl net.core.somaxconn net.core.somaxconn=32768 max_user_instances /etc/sysctl.conf 每个用户允许的最大 inotify 实例数,参数值过小时容器场景下极易不足。 查看参数:
计费项 使用云容器引擎服务时,产生的总费用由集群费用和其他云服务资源费用组成。 CCE Standard和Turbo集群计费项 图1 计费项 标 * 的计费项为必选计费项。 表1 使用CCE Standard和Turbo集群的费用组成 计费项 计费项说明 适用的计费模式 计费公式
在CCE Turbo集群中使用分布式云资源 CCE Turbo集群支持管理边缘基础设施(智能边缘小站)的能力。启用分布式支持后,一个集群可以统一管理数据中心和边缘的计算资源,用户可以便捷地根据应用的诉求将其部署在对应的区域。 CCE Turbo集群使用分布式云资源功能需要提前注册并部署智能边缘小站服务。
初始化 Running 运行中 Success 成功 Failed 失败 Error 错误 expireTimeStamp String 检查结果过期时间 message String 信息,一般是执行错误的日志信息 clusterCheckStatus clusterCheckStatus