检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
installing:安装中,表示插件正在安装中。 installFailed:安装失败,表示插件安装失败,需要卸载后重新安装。 upgrading:升级中,表示插件正在更新中。 upgradeFailed:升级失败,表示插件升级失败,可重试升级或卸载后重新安装。 deleting:删除中,表示插件正在删除中。
操作系统为Huawei Cloud EulerOS。 存量节点池 将CentOS操作系统切换为支持切换的操作系统。如果现有的节点配置(VPC、磁盘等配置的类型和数量)都不需要改变,仅需要修改节点的操作系统镜像,并且您的软件和原操作系统耦合度较低,建议使用重置节点的功能进行系统切换。
控制Pod中容器使用的Sysctl配置。 Pod安全策略开放非安全系统配置示例 节点池管理中可以为相应的节点池配置allowed-unsafe-sysctls,CCE从1.17.17集群版本开始,需要在Pod安全策略的allowedUnsafeSysctls字段中增加相应的配置才能生效,配置详情请参考表1。
在ECS虚拟机上安装kubectl命令行工具。 您可以尝试执行kubectl version命令判断是否已安装kubectl,如果已经安装kubectl,则可跳过此步骤。 本文以Linux环境为例安装和配置kubectl,更多安装方式请参考安装kubectl。 下载kubectl。 cd /home curl -LO
在CCE集群中部署使用Tensorflow 资源准备 购买CCE集群,购买GPU节点并使用gpu-beta插件安装显卡驱动。 在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取
集群配置概览 集群配置中心为您提供集群基础配置的概况及对应的修改入口,包含集群信息、集群配置、集群控制节点可用区和已安装插件多维度的信息概况。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“配置中心”,单击“配置概览”页签。 图1 配置概览 集群信息
aemonSet)部署工作负载。 为上述工作负载配置ClusterIP类型或NodePort类型的Service,可参考集群内访问(ClusterIP)或节点访问(NodePort)配置示例Service。 添加Nginx Ingress时,需在集群中提前安装NGINX Ingress
记录下这个token值,就是要搜集的bearer_token信息。 配置bearer_token 信息。 登录到Prometheus所在机器,进入Prometheus的安装目录,将目标集群的token信息保存在文件中。 配置Prometheus监控job。 示例job监控的是容器指标。
VE-2022-0811) linux内核导致的容器逃逸漏洞公告(CVE-2022-0492) containerd镜像Volume非安全处理漏洞公告(CVE-2022-23648) Linux内核整数溢出漏洞(CVE-2022-0185) Linux Polkit 权限提升漏洞预警(CVE-2021-4034)
E会定期同步社区bug,升级CoreDNS插件的版本,建议客户定期升级集群的CoreDNS版本。CCE的插件管理中心提供了CoreDNS的安装及升级功能。您可以定义关注集群中的CoreDNS版本,如果版本可以升级请尽快安排业务无缝升级集群中的CoreDNS组件。 您可以通过以下流程升级集群中的CoreDNS:
详细操作请参考应用拓扑。 修改性能管理配置 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”,单击工作负载名称。 在“性能管理配置”页签中,单击右下角“编辑”修改性能管理配置参数。 参数说明详情请参见4。 父主题: 配置工作负载
步骤二:异构资源配置 单击左侧导航栏的“配置中心”,选择“异构资源配置”页签。 在“GPU配置”中找到“节点池配置”,并选择新增的目标节点池。 参考准备GPU虚拟化资源,选择满足GPU虚拟化要求的驱动,并开启支持GPU虚拟化。 图1 异构资源配置 单击“确认配置”进行保存。 步骤三:创建GPU虚拟化负载并扩容
许特权逃逸”的配置。 通过配置安全计算模式seccomp,限制容器的系统调用权限,具体配置方法可参考社区官方资料使用 Seccomp 限制容器的系统调用。 通过配置ReadOnlyRootFilesystem的配置,保护容器根文件系统。 如deployment配置如下: apiVersion:
置。 安装前执行脚本 请输入脚本命令,命令中不能包含中文字符。脚本命令会进行Base64转码。安装前/后执行脚本统一计算字符,转码后的字符总数不能超过10240。 脚本将在Kubernetes软件安装前执行,可能导致Kubernetes软件无法正常安装,需谨慎使用。 安装后执行脚本
onfig配置项,并单击“更新”。 图1 更新配置项 在“配置数据”中单击config.yaml对应的“编辑”按钮,在rules字段下添加自定义指标采集规则。修改完成后单击“确定”保存配置。 如果您需要增加多个采集规则,可在rules字段下添加多个配置,关于采集规则配置详情请参见Metrics
存储多可用区部署的推荐配置 应用场景 在多可用区构成的集群下,业务可以指定可用区部署。 多可用区部署可以减少可用区资源不足带来的故障问题。 通过存储多可用区部署优化,可以帮您最大限度地减少应用发布中断,确保关键业务系统和应用在各种故障情况下能持续运行。 前提条件 您已创建一个安装CCE
com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。 查看nvidia驱动运行是否正常。 到插件运行所在的节点上,查看驱动的安装日志,路径如下所示: /opt/cloud/cce/nvidia/nvidia_installer.log 查看nvidia容器标准输出日志:
installing:安装中,表示插件正在安装中。 installFailed:安装失败,表示插件安装失败,需要卸载后重新安装。 upgrading:升级中,表示插件正在更新中。 upgradeFailed:升级失败,表示插件升级失败,可重试升级或卸载后重新安装。 deleting:删除中,表示插件正在删除中。
情页。 在左侧导航栏中选择“配置中心”,切换至“监控运维配置”页签。 修改“采集配置”。 监控采集任务配置由系统预置采集配置、ServiceMonitor采集配置、PodMonitor采集配置和Targets采集配置配置项共同提供。 系统预置采集配置 为保证插件默认行为的一致性,
not exists#__ 以上报错代表您的节点上缺少了chage、chown、chmod、mkdir、in、touch、pidof等命令,请安装对应命令之后重新检查。 父主题: 升级前检查异常问题排查