检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在使用GPU/NPU节点时,可以为其添加污点,并通过工作负载容忍度设置,避免非GPU/NPU工作负载调度到GPU/NPU节点上。 GPU/NPU工作负载:添加指定污点的容忍度,可以调度至GPU/NPU节点。 普通工作负载:未添加指定污点的容忍度,无法调度至GPU/NPU节点。 操作步骤如下: 登录CCE控制台,单击集群名称进入集群。
检查节点是否需要迁移。 解决方案 该问题由于节点拉包组件异常或节点由比较老的版本升级而来,导致节点上缺少关键的系统组件导致。 解决方案一 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面,单击对应节点的“更多 > 重置节点”,详情请参见重置节点。节点重置完毕后,重试检查任务。
节点规格(flavor)说明 创建节点时password字段加盐加密的方法 节点可创建的最大Pod数量说明 节点操作系统 默认数据盘空间分配说明 节点磁盘挂载 通过控制台可视化生成API参数
安全加固 集群节点如何不暴露到公网? 如何配置集群的访问策略 如何获取TLS密钥证书? 如何批量修改集群node节点安全组? 父主题: 网络管理
避免日志输出过多的容器调度在同一个节点。例如给此类应用配置Pod间反亲和,或减少单节点的Pod数量上限。 考虑单独挂盘,如用户创建节点时挂载额外用户数据盘或应用动态挂载存储等等,然后将业务日志输出到额外挂载盘中的文件。 父主题: 节点运行
0下,支持为StatefulSet工作负载或直接创建的Pod分配固定的公网IP(EIP)。 约束限制 仅以下指定版本的CCE Turbo集群支持用户配置Pod固定EIP: v1.19集群:v1.19.16-r20及以上版本 v1.21集群:v1.21.10-r0及以上版本 v1.23集群:v1
目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。 您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA GPU)插件。 单击该插件的“升级”按钮,查看插件目标版本及驱动版本。
获取指定的集群 获取指定项目下的集群 更新指定的集群 删除集群 集群休眠 集群唤醒 获取集群证书 吊销用户的集群证书 变更集群规格 获取任务信息 绑定、解绑集群公网apiserver地址 获取集群访问的地址 查询集群日志配置信息 配置集群日志 获取分区列表 创建分区 获取分区详情 更新分区 父主题:
检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer -nkube-system -oyaml
模板管理 上传模板 获取模板列表 获取模板实例列表 更新模板 创建模板实例 删除模板 更新指定模板实例 获取模板 删除指定模板实例 下载模板 获取指定模板实例 获取模板Values 查询指定模板实例历史记录 获取用户模板配额 父主题: API
io/client-go中的generated clients。 已从apiserver_request_total中删除“client”标签。 参考链接 关于Kubernetes 1.19与其他版本的性能对比和功能演进的更多信息,请参考: Kubernetes v1.19.0 Release
Pod接口ExtendPathMode: PodUID如何与社区client-go兼容? 使用场景 社区Pod结构体中没有ExtendPathMode,用户使用client-go调用创建pod或deployment的API接口时,创建的pod中没有ExtendPathMode。为了与社区的cl
NPD插件版本过低导致进程资源残留问题 模板格式不正确,无法删除模板实例? CCE是否支持nginx-ingress? 插件安装失败,提示The release name is already exist如何解决? 创建或升级实例失败,提示rendered manifests contain
于OOM事件,可以参考为容器和Pod分配内存资源。 解决方案 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 通过Pod内存监控查看内存增长曲线,确定异常出现时间。 根据监控、
GPU)(2.7.5及以上版本)、Volcano调度器及CCE集群弹性引擎(1.28.78或1.29.41及以上版本)。 步骤一:节点池配置 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“节点管理”。 单击“创建节点池”,创建一个GPU虚拟化规格的节点池,操作详情请参见创建节点池。
GPU)插件和Volcano调度器插件。 登录CCE控制台,单击集群名称进入集群,在左侧选择“配置中心”。 切换至“异构资源配置”页签,开启“GPU虚拟化”。 集群默认驱动:集群中GPU节点默认使用的GPU驱动版本。如果选择“自定义驱动链接地址”,则需填写Nvidia驱动的下载链接,详情请参见获取驱动链接-公网地址。
性时,在依赖检查中对CCE授权。 请勿删除该委托,如果删除会导致相关开启Secret落盘加密特性的集群不可用。 开启Secret落盘加密 登录CCE控制台。 在“集群管理”页面右上角单击“购买集群”。 在页面最下方,展开“高级配置”,找到“Secret落盘加密”,开启该特性。 开
v1.21 v1.23 v1.25 支持插件实例AZ反亲和配置 默认污点容忍时长修改为60s 0.6.2 1.3.3 v1.19 v1.21 v1.23 v1.25 适配CCE v1.25集群 CronHPA调整Deployment实例数,新增skip场景 0.6.2 1.3.2
集群概述 集群基本信息 Kubernetes版本发布记录 补丁版本发布记录 父主题: 集群
CPU调度 CPU管理策略 增强型CPU管理策略 父主题: 调度