检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
置。 安装前执行脚本 请输入脚本命令,命令中不能包含中文字符。脚本命令会进行Base64转码。安装前/后执行脚本统一计算字符,转码后的字符总数不能超过10240。 脚本将在Kubernetes软件安装前执行,可能导致Kubernetes软件无法正常安装,需谨慎使用。 安装后执行脚本
Ingress控制器指标。 前提条件 集群中已安装3.9.5及以上版本云原生监控插件插件。 集群中已安装2.5.4及以上版本的NGINX Ingress控制器插件,且已打开“开启指标采集”开关。 访问Prometheus 云原生监控插件安装完成后会在集群中部署一系列工作负载和Service。其
E会定期同步社区bug,升级CoreDNS插件的版本,建议客户定期升级集群的CoreDNS版本。CCE的插件管理中心提供了CoreDNS的安装及升级功能。您可以定义关注集群中的CoreDNS版本,如果版本可以升级请尽快安排业务无缝升级集群中的CoreDNS组件。 您可以通过以下流程升级集群中的CoreDNS:
# 插件版本为2.0.0及以上时,驱动安装路径更改,需执行以下命令: cd /usr/local/nvidia/bin && ./nvidia-smi 登录CCE控制台,单击集群名称进入集群,在左侧选择“配置中心”。 切换至“异构资源配置”页签,在“节点池自定义驱动”下方选择
2] ReleaseVersion "test-convert.v1" d 转换流程(使用Helm v3客户端) 安装Helm v3客户端,参见安装Helm v3。 安装转换插件。 # helm plugin install https://github.com/helm/helm-2to3
tl的连接信息,并在弹出页面中下载配置文件。 配置kubectl。 登录到您的客户端机器,复制1.b中下载的配置文件(kubeconfig.json)到您客户端机器的/home目录下。 配置kubectl认证文件。 cd /home mkdir -p $HOME/.kube mv
“提交配置”,便可以在部门管理界面看到配置的结果。部门配置结果如下: 图6 部门配置 开通单集群视角的成本洞察 登录CCE控制台,单击集群名称进入集群。 单击左侧导航栏中的“云原生成本治理 > 成本洞察”。 单击“立即开通”,同样系统会自动执行安装云原生监控插件、成本标签激活、创
控制Pod中容器使用的Sysctl配置。 Pod安全策略开放非安全系统配置示例 节点池管理中可以为相应的节点池配置allowed-unsafe-sysctls,CCE从1.17.17集群版本开始,需要在Pod安全策略的allowedUnsafeSysctls字段中增加相应的配置才能生效,配置详情请参考表1。
onfig配置项,并单击“更新”。 图1 更新配置项 在“配置数据”中单击config.yaml对应的“编辑”按钮,在rules字段下添加自定义指标采集规则。修改完成后单击“确定”保存配置。 如果您需要增加多个采集规则,可在rules字段下添加多个配置,关于采集规则配置详情请参见Metrics
在CCE控制台中,单击ingress1的“更多 > 更新”,选择证书来源为ELB服务器证书,并配置为上一步骤查询到的服务器证书,单击“确定”更新Ingress配置。 ingress1的证书来源由TLS密钥更换为服务器证书,且更换前后密钥内容一致,实际生效的配置在更换前后不变。 切换至namespace2,单击ingress2的“更多
数据库的名称,此处需要设置为步骤1:部署MySQL中MYSQL_DATABASE一致。 图3 设置环境变量 服务配置 单击服务配置下的加号,创建服务(Service),用于从外部访问负载。本例将创建一个负载均衡类型的Service,请在右侧弹窗中配置如下参数。 Service名称
已创建CCE集群,且配置了kubectl命令行工具。详细操作可参考通过kubectl连接集群。 集群上安装了CCE AI套件(GPU/NPU),可参考CCE AI套件(NVIDIA GPU)和 CCE AI套件(Ascend NPU)。其中NPU驱动版本应大于23.0。 操作步骤 您可以在
下指导进行配置。 集群版本需要v1.19及以上。 在集群中需安装自建的Prometheus,您可参考Prometheus使用Helm模板进行安装。安装自建Prometheus后,还需要使用prometheus-operator纳管该Prometheus实例,具体操作步骤请参见Prometheus
installing:安装中,表示插件正在安装中。 installFailed:安装失败,表示插件安装失败,需要卸载后重新安装。 upgrading:升级中,表示插件正在更新中。 upgradeFailed:升级失败,表示插件升级失败,可重试升级或卸载后重新安装。 deleting:删除中,表示插件正在删除中。
情页。 在左侧导航栏中选择“配置中心”,切换至“监控运维配置”页签。 修改“采集配置”。 监控采集任务配置由系统预置采集配置、ServiceMonitor采集配置、PodMonitor采集配置和Targets采集配置配置项共同提供。 系统预置采集配置 为保证插件默认行为的一致性,
开启负载感知调度能力。 安装Volcano后,您可通过“配置中心 > 调度配置”选择开启或关闭负载感知调度能力,默认关闭。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“配置中心”,在右侧选择“调度配置”页签。 在“资源利用率优化调度”配置中,修改负载感知调度配置。 为达到最优的
com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。 查看nvidia驱动运行是否正常。 到插件运行所在的节点上,查看驱动的安装日志,路径如下所示: /opt/cloud/cce/nvidia/nvidia_installer.log 查看nvidia容器标准输出日志:
not exists#__ 以上报错代表您的节点上缺少了chage、chown、chmod、mkdir、in、touch、pidof等命令,请安装对应命令之后重新检查。 父主题: 升级前检查异常问题排查
0,可以用如下命令查看安装包版本: rpm -qa |grep openssh 若openssh版本小于openssh-8.8p1-2.r34,且开放了SSH端口(默认为22),则受该漏洞影响。 如果集群node节点OS是Ubuntu 22.04,可以用如下命令查看安装包版本: dpkg
性列表,选择合适的NVIDIA驱动版本。 GPU驱动支持列表 当前GPU驱动支持列表仅针对1.2.28及以上版本的GPU插件。 如果您需要安装最新版本的GPU驱动,请将您的GPU插件升级到最新版本。 表1 GPU驱动支持列表 GPU型号 支持集群类型 机型规格 操作系统 Huawei