检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
范围:正整数;例如0,表示关闭预热容器网卡上限值检查。当超过节点的容器网卡配额时,后台取值为节点的容器网卡配额。 配置建议: 建议设置为0,如期望配置检查上限,建议将此值设置为大部分节点平时最多运行的Pod数 动态预热容器网卡数 节点动态预热容器网卡数 参数名 取值范围 默认值 是否允许修改
cce-gpu-topology-predicate true/false true 允许 CCE Standard/CCE Turbo 一台AI服务器上共有8块NPU 1980芯片,4P * 2方式。每4块NPU 1980芯片之间通过HCCS互联,4块之间通过PCIe swith互联。 HCCS互联的4块NPU
ntainerd.service LimitNOFILE或LimitNPROC参数设置为infinity时,表示容器单进程最大文件句柄数为1048576。 容器单进程最大文件句柄数通过以下参数设置: ... LimitNOFILE=1048576 LimitNPROC=1048576
application/octet-stream 的layer,而containerd不支持application/octet-stream,导致没有拉取。 解决方法 有如下两种方式可解决该问题。 使用高版本Docker(>= docker v1.11)重新打包镜像。 手动下载镜像 登录节点。 执行如下命令手动下载镜像。
登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”。 在“插件中心”页面右侧找到云原生监控插件,单击“安装”。 建议您关注以下配置,其他配置可按需进行设置。详情请参见云原生监控插件。 本地数据存储:使用本地存储监控数据,监控数据可选择是否上报至AOM或三方监控平台。 自定义指标采集:该配置在
自定义扩容规则:单击“添加规则”,在弹出的添加规则窗口中设置参数。您可以设置多条节点弹性策略,最多可以添加1条CPU使用率指标规则、1条内存使用率指标规则,且规则总数小于等于10条。 规则类型可选择“指标触发”或“周期触发”,两种类型区别如下: 表1 自定义规则类型 规则类型 参数设置 指标触发 触发条件:请选
dule或NoExecute,此处必须设置为NoSchedule。 NoSchedule:一定不能被调度。 PreferNoSchedule:尽量不要调度。 NoExecute:不仅不会调度,还会驱逐Node上已有的Pod。 若需要重新设置污点时,可执行kubectl taint
节点数量过少,无法满足组件Pod的反亲和性要求,对应事件描述中存在didn't match pod anti-affinity rules等字样。 解决方案:可以参考以下方法满足组件Pod的调度要求,处理完成之后再次尝试组件变更操作。 检查节点的污点,删除不必要的污点。具体操作,请参见管理节点污点。 合理分配容
原节点密码将保留。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 调用方法 请参见如何调用API。 URI PUT /api/v3/projects/{project_id}/clusters/{cluster_
Event事件并非100%打印,在遇到大批量打印相同事件时,可能会出现上述问题。 以上逻辑通过Kubernetes源码中的EventCorrelate方法实现,您可以查看社区的设计方案了解详情。 该问题为Kubernetes设计机制导致,因此您可以无需关注。 父主题: 节点池
工作负载异常问题排查 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态
imagePullPolicy: Never 说明如下: 如果设置为Always ,则每次容器启动或者重启时,都会从远程仓库拉取镜像。 如果省略imagePullPolicy,策略默认为Always。 如果设置为IfNotPreset,有下面两种情况: 当本地不存在所需的镜像时,会从远程仓库中拉取。
Pod以root(UID为0)用户启动或者Pod Security Context中的allowPrivilegeEscalation设置为true(当以特权容器或者加了CAP_SYS_ADMIN权限运行时默认为true)。 下列版本的kubelet组件均在此CVE的影响范围内:
Prometheus提供了各种语言的客户端,客户端具体请参见Prometheus CLIENT LIBRARIES,开发Exporter具体方法请参见WRITING EXPORTERS。Prometheus社区提供丰富的第三方exporter可以直接使用,具体请参见EXPORTERS
签,默认展示集群视图。 监控中心仪表盘提供了预置视图,您可单击视图名称边上的“切换视图”按钮,选择需要的视图查看监控数据。 设置查看视图的相关参数。 设置视图的时间窗。 在页面右上角处,选择时间段,或者自定义时间,并单击刷新界面。 父主题: 仪表盘
获取集群升级路径 功能介绍 获取集群升级路径 调用方法 请参见如何调用API。 URI GET /api/v3/clusterupgradepaths 请求参数 表1 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 参数解释: 消息体的类型(格式)
cpu: 500m limits: cpu: 500m schedulerName:设置为volcano,表示使用Volcano调度该工作负载。 scheduling.k8s.io/group-name:指定上一步中创建的PodGroup,示例为pg-test1。
自定义指标 CCE支持采集应用程序中的自定义指标并上传到AOM,为您提供个性化的监控服务。您可以根据特定业务需求,扩展监控指标范围,具体使用方法请参见自定义监控。 父主题: 安全
范围可选择对应集群或者选择全部。 当指标值小于等于1时,表示集群重度过载,推荐设置紧急告警。 当指标值小于等于2时,表示集群中度过载,推荐设置重要告警。 当指标值小于等于3时,表示集群轻度过载,推荐设置次要告警。 其余参数可按需求填写。 图6 配置集群过载告警 单击“立即创建”。
roxy分配内存128M,在压测场景下,损耗非常大,最终导致请求失败。 目前压测所有流量都经过Proxy,业务量大就要加大分配资源。 解决方法 传文件涉及大量报文复制,会占用内存,建议把Proxy内存根据实际场景调高后再进行访问和上传。 可以考虑把该服务从网格内移除出去,因为这里