检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
的提升是非常明显的。 配置组调度策略 安装Volcano后,您可通过“配置中心 > 调度配置”选择开启或关闭Gang调度能力,默认开启。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“配置中心”,在右侧选择“调度配置”页签。 在“AI任务性能增强调度”配置中,选择是否开启“组调度
在集群非运行状态(例如冻结、不可用状态)时删除集群,会残留存储、网络等关联资源,请妥善处理。 删除按需计费的集群 处于休眠状态的集群无法直接删除,请将集群唤醒后重试。 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要删除的集群,查看集群的更多操作,并单击“删除集群”。 图1 删除集群 在弹出的“删
如果以上排查思路仍无法解决您的问题,请提交工单寻找客服人员协助您进行定位。 排查项一:安全组是否被修改 登录控制台,选择“服务列表 > 网络 > 虚拟私有云 VPC”,单击左侧导航栏的“访问控制 > 安全组”,找到集群控制节点的安全组。 控制节点安全组名称为:集群名称-cce-control-编号。
集群配置中心为您提供集群基础配置的概况及对应的修改入口,包含集群信息、集群配置、集群控制节点可用区和已安装插件多维度的信息概况。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“配置中心”,单击“配置概览”页签。 图1 配置概览 集群信息 集群信息包括多个维度:
创建密钥对 背景信息 在创建集群之前,您需要创建密钥对,用于登录工作节点时的身份验证。 如果用户已有密钥对,可重复使用,不需多次创建。 操作步骤 登录管理控制台,选择“计算 > 弹性云服务器”。 在左侧导航树中,选择“密钥对”。 单击“创建密钥对”,并按照提示完成创建,详情请参见密钥对。
受controller管理的Pod。详情请参见节点排水规则说明。 单击“确定”,等待完成节点排水。 请参见通过kubectl连接集群,使用kubectl连接集群。 编辑Drainage资源的YAML。 Drainage-test.yaml示例如下: apiVersion: node
/usr/local/nvidia/bin && ./nvidia-smi 登录CCE控制台,单击集群名称进入集群,在左侧选择“配置中心”。 切换至“异构资源配置”页签,在“节点池自定义驱动”下方选择需要更新驱动的节点池及驱动,或者选择填写自定义驱动链接。 本文档中更新后的驱动为535.54.03。 单击“确认配置”。
如果某IAM用户拥有一定范围的集群管理权限和命名空间权限,然后在界面下载kubeconfig认证文件。此时CCE根据用户信息的权限判断kubectl有权限访问哪些Kubernetes资源,即哪个用户获取的kubeconfig文件,kubeconfig中就拥有哪个用户的认证信息,任
检查节点是否需要迁移。 解决方案 该问题由于节点拉包组件异常或节点由比较老的版本升级而来,导致节点上缺少关键的系统组件导致。 解决方案一 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面,单击对应节点的“更多 > 重置节点”,详情请参见重置节点。节点重置完毕后,重试检查任务。
检查到集群中存在未完成的排水任务,此时升级可能会导致升级完成后触发排水动作,将运行中的Pod进行驱逐。 解决方案 配置Kubectl命令,具体请参见通过kubectl连接集群。 查看是否存在排水任务,以下为正常回显: kubectl get drainage 图1 排水任务,以下回显表示存在排水任务 请将d
首次安装kube-prometheus-stack插件时,prometheus实例会延迟绑定云硬盘类型的存储卷(PVC名为pvc-prometheus-server-0),创建该云硬盘时可用区会自动与实例运行的节点所在可用区保持一致。例如实例运行的节点可用区为可用区1,则该云硬盘的可用区也为可用区1。
、编辑YAML以及删除等操作。 操作步骤 您可以查看工作负载弹性策略的规则、最新状态和事件,参照界面中的报错提示有针对性的解决异常事件。 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中单击“策略”,在“弹性伸缩策略”页签下,根据弹性伸缩策略类型选择HPA / CronHPA
模板管理 上传模板 获取模板列表 获取模板实例列表 更新模板 创建模板实例 删除模板 更新指定模板实例 获取模板 删除指定模板实例 下载模板 获取指定模板实例 获取模板Values 查询指定模板实例历史记录 获取用户模板配额 父主题: API
务,一个是Web Server,另一个是数据库。其中Web Server需要访问数据库。但是当启动这个应用的时候,并不能保证数据库服务先启动起来,所以可能出现在一段时间内Web Server有数据库连接错误。为了解决这个问题,可以在运行Web Server服务的Pod里使用一个Init
置管理异常。 nodepool id(master)表示集群配置管理异常。 问题场景一:节点池配置管理异常 修复节点池异常配置步骤如下: 登录CCE控制台,进入“节点管理”。 找到问题节点池,单击“更多”并选择“配置管理”。 选择“网络组件配置(eni)”,修改节点池级别的节点预热容器网卡回收阈值
更新系统内核,修复安全漏洞。 4.18.0-147.5.1.6.h1017.eulerosv2r9.x86_64 2023年6月 更新系统内核,修复安全漏洞。 修复IPVS模式下,EulerOS 2.9节点上升级CoreDNS后出现概率性解析超时的问题。 4.18.0-147.5.1.6.h841.eulerosv2r9
目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。 您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA GPU)插件。 单击该插件的“升级”按钮,查看插件目标版本及驱动版本。
等业务。这种方式既保护了原始数据,又能通过快照创建的新云硬盘快速部署其他业务,满足企业对业务数据的多元化需求。 创建快照 使用控制台创建 登录CCE控制台。 单击集群名称进入集群,在左侧选择“存储”,在右侧选择“快照与备份”页签。 单击右上角“创建快照”,在弹出的窗口中设置相关参数。
检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer -nkube-system -oyaml
CCE启动实例失败时的重试机制是怎样的? CCE是基于原生Kubernetes的云容器引擎服务,完全兼容Kubernetes社区原生版本,与社区最新版本保持紧密同步,完全兼容Kubernetes API和Kubectl。 在Kubernetes中,Pod的spec中包含一个res