检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU插件检查异常处理 检查项内容 检查到本次升级涉及GPU插件,可能影响新建GPU节点时GPU驱动的安装。 解决方案 由于当前GPU插件的驱动配置由您自行配置,需要您验证两者的兼容性。建议您在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。
在默认情况下,镜像启动时会运行默认命令,如果想运行特定命令或重写镜像默认值,需要进行相应设置。 Docker的镜像拥有存储镜像信息的相关元数据,如果不设置生命周期命令和参数,容器运行时将运行镜像制作时提供的默认的命令和参数,Docker将这两个字段定义为ENTRYPOINT和 CMD。
使用Kubectl命令操作集群 kubectl kubectl是Kubernetes集群的命令行工具,您可以将kubectl安装在任意一台机器上,通过kubectl命令操作Kubernetes集群。 CCE集群的kubectl安装请参见通过kubectl连接集群。连接后您可以执行kubectl
13及之前版本集群的创建公告 发布时间:2020/12/08 根据CCE发布的Kubernetes版本策略中的版本策略,从2021年3月1日之后,CCE将不再支持1.13及之前版本集群的创建及维护。 建议您将集群升级到最新版本,升级操作请参见集群升级。 父主题: 集群版本公告
当前检查项包括以下内容: 检查集群是否使用ASM网格服务 检查当前ASM版本是否支持目标集群版本 解决方案 先升级对应的ASM网格版本,再进行集群升级,ASM网格版本与集群版本适配规则如下表。 表1 ASM网格版本与集群版本适配规则 ASM网格版本 集群版本 1.3 v1.13、v1
manager)中没有包含对Pod中挂载的/etc/hosts文件的临时存储占用量管理,因此在特定的攻击场景下,一个挂载了/etc/hosts的Pod可以通过对该文件的大量数据写入占满节点的存储空间,从而造成节点的拒绝访问(Denial of Service)。 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间
将从监控文件列表中删除该文件。 1024k 512k 内存缓冲区限制(Mem_Buf_Limit) 数据追加到引擎时的内存限制。如果达到此限制,插件读取日志文件数据将暂停;刷新数据后,将再次恢复。 300mb 40mb 参数单位支持k、kb、m、mb、g、gb(不区分大小写),如果不填写单位则表示以字节为单位。
包周期的CCE集群到期可以直接删除吗? CCE集群包周期到期后,您可以在备份好所有数据的情况下直接删除该集群。 如果到期后您仍没有续费或删除,系统会根据资源到期时间删除该集群,请及时续费并做好数据备份工作。 父主题: 计费类
v1.29集群 1.9.6 表3 NGINX Ingress控制器插件2.5.x版本发布记录 插件版本 支持的集群版本 更新特性 社区版本 2.5.6 v1.25 v1.27 v1.28 修复部分问题 1.9.3 2.5.4 v1.25 v1.27 v1.28 同一集群支持安装多套NGINX
us,提供简单易用的端到端Kubernetes集群监控能力。 使用kube-prometheus-stack可将监控数据与监控中心对接,在监控中心控制台查看监控数据,配置告警等。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需指定。
中挂载路径下的数据会存储在存储卷的tmp文件夹中。不填写时默认为根路径。 权限 只读:只能读容器路径中的数据卷。 读写:可修改容器路径中的数据卷,容器迁移时新写入的数据不会随之迁移,会造成数据丢失。 本例中将磁盘挂载到容器中/data路径下,在该路径下生成的容器数据会存储到云硬盘中。
<secret_id> 仅v1.19.16-r2、v1.21.5-r0、v1.23.3-r0及以上版本的集群支持使用ELB服务中的证书,上述版本集群请参考方案一处理,其他版本集群请参考方案二处理。 方案一:您可以将Ingress使用的证书替换为ELB服务器证书,即可通过ELB控制台创建或编辑该证书。
面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量 集群-算力使用率 百分比 集群的算力使用率 计算公式:集群内容器算力使用总量/集群内算力总量
节点Python命令检查异常处理 检查项内容 检查Node节点中Python命令是否可用。 检查方式 /usr/bin/python --version echo $? 如果回显值不为0证明检查失败。 解决方案 可优先重置节点或手动安装Python之后再进行升级。 父主题: 升级前检查异常问题排查
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer -nkube-system
网段(使用掩码实现,确定每个节点最多分配多少容器IP),例如上限为128,则此时集群最多支持65536/128=512个节点,然后去掉Master节点数量为509,此时是1.13集群支持的节点数。集群升级后,在此基础上3台Master节点会各占用1个网段,最终结果就是506台节点。
etes元数据(如Deployment、ConfigMap、Service)保存为本地压缩包,实现应用备份能力。同时可以将本地压缩包恢复回Kubernetes元数据,实现应用的恢复能力。 数据备份的流程参考如下: 图1 数据备份流程 数据恢复的流程参考如下: 图2 数据恢复流程
multiAZEnable 否 bool 插件中deployment组件多可用部署是否采用强制模式,默认:false。强制模式下插件Deployment实例强制调度到不同可用区的节点上,如集群下节点不满足多可用区,插件实例将无法全部运行。若multiAZEnable与multiA
数据库部署的“IP:端口”。 MYSQL_USER 数据库用户名。 MYSQL_PASSWORD 数据库密码。 在“容器配置”中选择“数据存储”,为实现数据的持久化存储,需要设置为云存储。 本例使用了MongoDB数据库,并需要数据持久化存储,所以需要配置云存储。请根据您业务的实际情况,来决定是否需要使用云存储。
API变更规格,具体请参见变更云服务器规格。 操作方法 如果需要变更规格的节点是纳管到集群中的,可将节点从CCE集群中移除后再变更节点规格,避免影响业务。 登录CCE控制台,进入集群,在左侧选择“节点管理”,在右侧单击节点名称,跳转到弹性云服务器详情页。 在弹性云服务器详情页中,单击右上角的“关机”,关机完成后单击“更多