检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
制。 解决方案 检测到目标cce-controller-hpa插件版本存在兼容性限制,需要集群安装能提供metrics api的插件,例如metrics-server; 请您在集群中安装相应metrics插件之后重试检查 父主题: 升级前检查异常问题排查
NPU)是支持容器里使用NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需指定。 flavor 是 表3 object
控制Pod中容器使用的Sysctl配置。 Pod安全策略开放非安全系统配置示例 节点池管理中可以为相应的节点池配置allowed-unsafe-sysctls,CCE从1.17.17集群版本开始,需要在Pod安全策略的allowedUnsafeSysctls字段中增加相应的配置才能生效,配置详情请参考表1。
0/12, 192.168.0.0/16是通常的私网地址。 OBS的策略的详细配置方法请参见配置对象策略和桶策略参数说明。 在CCE创建节点池时配置安装前执行脚本和安装后执行脚本。 在创建节点池的云服务器高级配置中填写如下命令。 如下命令是先使用curl命令从OBS中下载pre_install
在“我的模板”页签中,单击目标模板下的“安装”。 参照表2设置安装工作负载参数。 表2 安装工作负载参数说明 参数 参数说明 实例名称 新建模板实例名称,命名必须唯一。 命名空间 指定部署的命名空间。 选择版本 选择模板的版本。 配置文件 用户可以导入values.yaml文件,导入后可替换模板包中的values
DRF调度示意图 配置公平调度策略 安装Volcano后,您可通过“配置中心 > 调度配置”选择开启或关闭DRF调度能力,默认开启。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“配置中心”,在右侧选择“调度配置”页签。 在“AI任务性能增强调度”配置中,选择是否开启“公平调度
lcano调度器执行,详情请参见使用Volcano调度工作负载。 kube-scheduler调度器配置: 调度器性能配置 业务优先级保障调度 安装Volcano调度器后的增强配置: 资源利用率优化调度(Volcano调度器支持) AI任务性能增强调度(Volcano调度器支持)
安全加固 集群节点如何不暴露到公网? 如何配置集群的访问策略 如何获取TLS密钥证书? 如何批量修改集群node节点安全组? 父主题: 网络管理
可以通过服务发现或者静态配置去获取监控的targets。 有多种可视化图形界面。 易于伸缩。 安装插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到Prometheus,单击“安装”。 在“规格配置”步骤中,配置以下参数: 表1 Prometheus配置参数说明
云容器实例CCI 云容器引擎使用流程如下: 创建集群 配置名称、区域、网络等基本信息。 创建节点 选择节点规格、数据盘大小等配置。 集群配置 安装各类集群插件,如网络、监控、日志等。 创建工作负载 云容器实例使用流程如下: 创建命名空间 配置名称、区域、网络等基本信息。 创建工作负载 图3
installing:安装中,表示插件正在安装中。 installFailed:安装失败,表示插件安装失败,需要卸载后重新安装。 upgrading:升级中,表示插件正在更新中。 upgradeFailed:升级失败,表示插件升级失败,可重试升级或卸载后重新安装。 deleting:删除中,表示插件正在删除中。
自定义指标采集:该配置在本实践中必须选择开启,否则将无法采集容器网络扩展指标。 (可选)安装Grafana:选择安装Grafana后,可以使用图表查看指标。 该配置在3.9.0以下版本的插件中支持。对于3.9.0及以上版本的插件,如果存在使用Grafana的需求,请单独安装Grafana。
步骤重新安装。 未安装storage-driver插件的集群,可参考如下步骤进行安装: 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到CCE容器存储(FlexVolume),单击“安装”。 云存储插件暂未开放可配置参数,直接单击“安装”。 父主题:
排查思路: 确认节点标签是否已经打上nvidia资源。 查看nvidia驱动运行是否正常。 到插件运行所在的节点上,查看驱动的安装日志,路径如下所示: /opt/cloud/cce/nvidia/nvidia_installer.log 查看nvidia容器标准输出日志: 过滤容器id docker
您可以在节点上执行以下命令查看是否安装CUPS相关服务: systemctl status cups-browsed 显示如下: 结果返回 “Unit cups-browsed.service could not be found.”表示未安装CUPS相关服务,不受漏洞影响。 结果返回“Active”
监控运维配置 CCE为您提供监控应用及资源的能力,支持采集各项指标及事件等数据以分析应用健康状态,您可以通过“配置中心 > 监控运维配置”统一调整监控运维参数。 您需要开通监控中心,以使用监控运维配置的所有功能。 监控配置 采集配置 系统预置采集:可视化管理云原生监控插件的监控采集任务。详情请参见管理监控采集任务。
onfig配置项,并单击“更新”。 图1 更新配置项 在“配置数据”中单击config.yaml对应的“编辑”按钮,在rules字段下添加自定义指标采集规则。修改完成后单击“确定”保存配置。 如果您需要增加多个采集规则,可在rules字段下添加多个配置,关于采集规则配置详情请参见Metrics
您可单击“指标异常”,按照修复建议提示修复。 自定义检查项配置 登录CCE控制台,单击集群名称进入集群。 在左侧选择“节点管理”,切换至“节点”页签,单击“故障检测策略”。 在跳转的页面中查看当前检查项配置,单击检查项操作列的“编辑”,自定义检查项配置。 当前支持以下配置: 启用/停用:自定义某个检查项的开启或关闭。
升是非常明显的。 配置组调度策略 安装Volcano后,您可通过“配置中心 > 调度配置”选择开启或关闭Gang调度能力,默认开启。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“配置中心”,在右侧选择“调度配置”页签。 在“AI任务性能增强调度”配置中,选择是否开启“组调度
Pod 同时在新增节点上安装驱动,可能导致安装的驱动和预期不符或安装失败。因此,不建议在huawei-npu驱动选择功能已开启的情况下,对已设置“安装后执行脚本”NPU驱动安装命令的节点池进行扩容,或在创建新节点池时设置“安装后执行脚本”用于安装NPU驱动。 安装插件 登录CCE控制