检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Token由于token不支持设置过期时间、不支持自动刷新,并且由于存放在secret中,pod被删除后token仍然存在secret中,一旦泄露可能导致安全风险。1.23版本以及以上版本CCE集群推荐使用Bound Servcie Account Token,该方式支持设置过期时间,并且和p
若能正常返回GPU信息,说明设备可用,插件安装成功。 如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。 nvidia驱动建议放在OBS桶里,并设置为公共读。 相关链接 GPU节点使用nvidia驱动启动容器排查思路 GPU插件安装 父主题: 工作负载异常问题排查
自定义调度策略:Pod可能根据自定义的亲和性和反亲和性策略进行调度,导致Pod在节点上分布不均匀。 节点污点和容忍度:节点存在某些污点,未设置容忍度的Pod无法调度到该节点上运行。 部分工作负载特性导致:工作负载可能具有特殊的分布约束,例如工作负载挂载某个可用区的云硬盘时只能调度到相同可用区的节点上。
docker容器引擎的节点上运行,请使用containerd容器引擎。详细原因请参见组件说明。 设置插件实例的部署策略。 调度策略对于DaemonSet类型的插件实例不会生效。 设置多可用区部署或节点亲和策略时,需保证集群中存在满足调度策略的节点且拥有足够的资源,否则插件实例将无法运行。
0 0 ... 解决方案 如何确认是否共享磁盘 根据检查信息,登录相应节点。 执行lsblk命令,查看/mnt/paas挂载了vgpaas-share分区,若存在则是共享磁盘场景,若不存在,则是非共享磁盘场景。 图1 查询是否为共享磁盘 节点挂载检查异常如何解决 取消手动修改的挂载点。
/etc/systemd/journald.conf 修改RuntimeMaxUse参数,建议值为100M。 若查看journald.conf文件时,文件中已设置RuntimeMaxUse值,可通过以下命令对参数值进行修改。 sed -i "s/RuntimeMaxUse=[0-9]*M/RuntimeMaxUse=100M/g"
单击右上角“创建存储卷PV”,并设置以下参数。 存储卷类型:选择“文件存储”。 文件存储:选择数据迁移后的通用文件系统(SFS 3.0)存储卷。 PV名称:自定义PV名称。 访问模式:选择“ReadWriteMany”。 回收策略:请按需设置。 Delete:删除动作会将Per
询监控指标,配置基于PromQL的告警规则。 当前云原生监控插件仅支持开启本地数据存储时,提供PrometheusRules配置的能力。 如何配置PrometheusRules Prometheus提供了PrometheusRules的用于创建用户自己的record来查询指标。 apiVersion:
dule或NoExecute,此处必须设置为NoSchedule。 NoSchedule:一定不能被调度。 PreferNoSchedule:尽量不要调度。 NoExecute:不仅不会调度,还会驱逐Node上已有的Pod。 若需要重新设置污点时,可执行kubectl taint
er)后,原有功能保持不变,但请注意不要新建Flexvolume插件(storage-driver)的存储,否则将导致部分存储功能异常。 如何判断集群的存储插件模式 登录CCE控制台。 在控制台左侧栏目树中,单击“插件中心”。 在右侧的插件管理列表中,单击“插件实例”页签。 在插
节点池扩容失败 排查思路 请根据节点池扩容失败的具体事件信息确定问题原因,如表1所示。 表1 节点池扩容失败 事件信息 问题原因 解决方案 ...call fsp to query keypair fail, error code : Ecs.0314, reason is : the
节点限制检查异常处理 检查项内容 当前检查项包括以下内容: 检查节点是否可用 检查节点操作系统是否支持升级 检查节点是否含有非预期的节点池标签 检查K8s节点名称是否与云服务器保持一致 解决方案 检查到节点状态异常,请优先恢复 若检查发现节点不可用,请登录CCE控制台,单击集群名
ntainerd.service LimitNOFILE或LimitNPROC参数设置为infinity时,表示容器单进程最大文件句柄数为1048576。 容器单进程最大文件句柄数通过以下参数设置: ... LimitNOFILE=1048576 LimitNPROC=1048576
签,默认展示集群视图。 监控中心仪表盘提供了预置视图,您可单击视图名称边上的“切换视图”按钮,选择需要的视图查看监控数据。 设置查看视图的相关参数。 设置视图的时间窗。 在页面右上角处,选择时间段,或者自定义时间,并单击刷新界面。 父主题: 仪表盘
范围可选择对应集群或者选择全部。 当指标值小于等于1时,表示集群重度过载,推荐设置紧急告警。 当指标值小于等于2时,表示集群中度过载,推荐设置重要告警。 当指标值小于等于3时,表示集群轻度过载,推荐设置次要告警。 其余参数可按需求填写。 图6 配置集群过载告警 单击“立即创建”。
wordpress 查看应用实例运行情况。 访问服务更新适配 集群迁移后,原有集群的访问服务可能无法生效,可执行如下步骤更新服务。如原集群中设置了Ingress资源,迁移后需重新对接ELB,您可参考添加Ingress-对接已有ELB。 通过kubectl连接集群。 编辑对应Serv
命名空间 创建命名空间 管理命名空间 设置资源配额及限制
imagePullPolicy: Never 说明如下: 如果设置为Always ,则每次容器启动或者重启时,都会从远程仓库拉取镜像。 如果省略imagePullPolicy,策略默认为Always。 如果设置为IfNotPreset,有下面两种情况: 当本地不存在所需的镜像时,会从远程仓库中拉取。
插件版本为2.7.40及以上时,支持部署dcgm-exporter组件。dcgm-exporter组件保持社区能力,暂不支持共享模式和GPU虚拟化。 设置插件支持的“参数配置”。 表1 GPU插件参数配置 参数 参数说明 集群默认驱动 集群下全部GPU节点将使用相同的驱动,请选择合适的GPU
how to fix it, please visit the web page mentioned above. 设置ca.crt的环境变量。将ca.crt的路径设置到CURL_CA_BUNDLE环境变量中,这将指示curl命令使用该证书文件作为信任锚点。 export CURL_CA_BUNDLE