检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
删除节点池 删除节点池,会先删除节点池中的节点,节点删除后,原有节点上的工作负载实例会自动迁移至其他节点池的可用节点。 约束与限制 对于包周期(包年/包月)预付费的节点池不能直接删除,请先移除节点池下全部的节点。 删除节点会导致与节点关联的本地持久存储卷类型的PVC/PV数据丢失
装箱调度(Binpack) 装箱调度(Binpack)是一种优化算法,以最小化资源使用量为目标,将资源合理地分配给每个任务,使所有资源都可以实现最大化的利用价值。在集群工作负载的调度过程中使用Binpack调度策略,调度器会优先将Pod调度到资源消耗较多的节点,减少各节点空闲资源碎片,提高集群资源利用率。
文件存储卷概述 CCE支持将弹性文件存储(SFS)创建的存储卷挂载到容器的某一路径下,以满足数据持久化需求,SFS存储卷适用于多读多写的持久化存储,适用场景包括:媒体处理、内容管理、大数据分析和分析工作负载程序等。 图1 CCE挂载文件存储卷 使用说明 符合标准文件协议:用户可以
文件存储概述 文件存储介绍 CCE支持将弹性文件存储(SFS)创建的存储卷挂载到容器的某一路径下,以满足数据持久化需求,SFS存储卷适用于多读多写的持久化存储,适用大容量扩展以及成本敏感型的业务场景,包括媒体处理、内容管理、大数据分析和分析工作负载程序等。SFS容量型文件系统不适合海量小文件业务,推荐使用SFS
同步节点池 在节点池配置更新后,节点池中的已有节点无法自动同步部分配置,您可以手动同步节点配置。 批量同步过程中请勿删除或重置节点,否则可能导致节点池配置同步失败。 该操作涉及重置节点,节点上已运行的工作负载业务可能会由于单实例部署、可调度资源不足等原因产生中断,请您合理评估升级
跳过节点检查 检查项内容 集群升级后,需要检测集群内是否有跳过升级的节点,这些节点可能会影响正常使用。 检查步骤 系统会为您检查集群内是否存在跳过升级的节点,您可以根据诊断结果前往节点列表页进行确认。跳过的节点含有标签upgrade.cce.io/skipped=true。 解决方案
升级操作系统 当CCE发布新版本的操作系统镜像时,已有节点无法自动升级,您可以手动进行批量升级。 注意事项 该操作会通过重置节点的方式升级操作系统,节点上已运行的工作负载业务可能会由于单实例部署、可调度资源不足等原因产生中断,请您合理评估升级风险,并挑选业务低峰期进行,或对关键业务应用设置PDB策略(Pod
true”,就可以从逻辑概念表示该节点是用来部署QA(测试)环境使用。 图1 添加节点标签 标签添加成功后,再次进入该界面,在节点数据下可查看到已经添加的标签。 父主题: 管理节点
的安全检查。这项服务能够深入扫描您在镜像仓库中的私有镜像,识别出潜在的安全漏洞,并为您提供针对性的修复建议。 了解更多关于如何使用镜像安全扫描功能,以及如何解读和应用扫描结果中的修复建议,请参见镜像安全扫描。 使用镜像签名并配置验签策略 镜像验签是一种安全机制,用于验证容器镜像是
您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA GPU)插件。 单击该插件的“升级”按钮,查看插件目标版本及驱动版本。 在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。
从控制台获取项目ID的步骤如下: 登录管理控制台。 鼠标悬停在右上角的用户名,选择下拉列表中的“我的凭证”。 在“API凭证”页面的项目列表中查看项目ID。 图1 查看项目ID 父主题: 附录
BS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker logs {容器id}查看归类结果,可以看到结果:tabby cat。 使用GPU 创建一个普通job,镜像输入第三方镜像bvlc/caffe:gpu,设置对应的容器规格。
事件名称”可通过CCE事件列表查询。 普通事件上报:开启后,会将普通事件上报至AOM,系统默认配置了部分需要上报的普通事件。如果您需要自定义上报的事件,可以单击“配置白名单”,将需要上报添加至白名单进行管理,其中“事件名称”可通过CCE事件列表查询。 父主题: 配置中心
久卷存储配置ReadWriteOnce,文件存储及对象存储配置ReadWriteMany 回收策略 当与此PV绑定的PVC被删除以后,PV如何被处理的策略 参数名 取值范围 默认值 是否允许修改 作用范围 persistentVolumeReclaimPolicy 两种策略:Retain
30版本中,传统ServiceAccount令牌清理器特性进阶至GA。其作为kube-controller-manager的一部分运行,每24小时检查一次,查看是否有任何自动生成的传统ServiceAccount令牌在特定时间段内(默认为一年,通过--legacy-service-account-
labels 无 无 允许 - 标签是资源对象的一种附加标识,可以通过标签进行过滤查询 配置建议: 用户按需将一些查询和管理维度(如密钥所属业务领域、微服务等)抽象为标签,方便对配置项进行过滤查询 父主题: 密钥
在“集群管理”页面右上角单击“购买集群”。 参考购买Standard/Turbo集群,根据自身需求配置集群参数。 完成配置后,在“确认配置”页面,查看根据配置生成的API数据,您可以通过下载或复制进行使用。 图1 生成创建集群的API参数 使用生成的API数据作为Body体,调用创建集群接口,详情请参见创建集群。
通过节点池升级存量节点的NVIDIA驱动,本质上是在重启节点的过程中重新安装驱动,因此请务必在升级驱动前确认节点上不存在正在运行的任务。 步骤一:指定节点池驱动版本 登录节点查看节点上实际的驱动,驱动版本为510.47.03。 # 插件版本为2.0.0以下时,执行以下命令: cd /opt/cloud/cce/nvidia/bin
登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要变更规格的集群,查看集群的更多操作,并选择“规格变更”。 图1 变更规格 在弹出的页面中,根据实际需求选择新的“集群规模”。 单击“下一步”进行规格确认,并单击“确定”。 您可以在控制台右上角单击“操作记录”查看集群变更记录。状态从“执行中”变为“成功”,表示集群规格变更成功。
"$mount_path hang mount" fi done 执行保存好的脚本,查看输出。 如上图所示,则为/root/foo和/root/bar这两个文件夹的挂载点存在问题。 执行以下命令,查看卡死的挂载点。 mount -n | grep /root/foo 一般来说,此类