检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。 详情请参见GPU虚拟化概述。 AI任务性能增强调度 针对AI、大数据协作调度场景,可使用Volcano公平调度(DRF)、组调度(Gang)来提升训练性能,提高资源使用效率。 公平调度(DRF) DRF(Dominant
通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用户,最大支持1000Pod/s的调度并发数,轻松应对各种规模的工作负载,大大提高调度效率和资源利用率。 Volcano针对计算型应用提供了作业调度、作业管理、队列管理等多项功能,主要特性包括: 丰富的计算框架支持:通过
Controller挂卸卷能力 提高SFS挂载稳定性 新建集群EVS默认创建类型调整为SAS 1.2.5 v1.15 v1.17 v1.19 提升挂载相关能力可靠性 优化了使用OBS存储时的认证功能,需要用户上传密钥 提高everest插件对flexvolume卷的兼容能力 提高插件运行稳定性 1
高可靠配置建议 集群控制面 CCE是一项托管式的Kubernetes服务,集群控制面(即控制节点)无需由用户进行运维,您可以通过一些集群配置来提高集群整体的稳定性和可靠性。 集群Master节点多可用区 集群网络选择 服务转发模式 关注配额限制 监控Master指标 集群数据面 在K
com"替代默认仓库,则参数值为["http://example.com,https://example.com"]。 如果需要提高镜像拉取速度可以将替代仓库配置为本地镜像仓库。 如果需要提高容错能力和可用性可以配置多个替代镜像仓库。 须知: 配置错误的替代镜像仓库可能导致容器无法拉取所需镜像。 v1
如果资源充足,可将QoS Pod类型均设置为Guaranteed。用计算资源换业务性能和稳定性,减少排查问题时间和成本。 如果想更好的提高资源利用率,业务服务可以设置为Guaranteed,而其他服务根据重要程度可分别设置为Burstable或BestEffort,例如filebeat。
执行普通任务、定时任务:使用容器化方式运行Job、CronJob类型应用,帮助业务降低对主机系统配置的依赖,全局的资源调度既保证任务运行时资源量,也提高集群下整体资源利用率。 图1 CCE集群 价值 通过容器化改造,使应用部署资源成本降低,提升应用的部署效率和升级效率,可以实现升级时业务不中断以及统一的自动化运维。
Resource,CR)来满足业务需求。 CRD允许用户创建新的资源类别的同时又不必添加新的Kubernetes API服务器,从而有效提高集群管理的灵活性。 创建CRD 登录CCE控制台。 单击集群名称进入集群,在左侧选择“自定义资源”,在右上角单击“YAML创建”。 输入Y
通用入门型:通用入门型实例提供均衡的计算、存储以及网络配置,利用CPU积分机制保证基准性能,适合平时不会持续高压力使用CPU,但偶尔需要提高计算性能完成工作负载的场景,可用于轻量级Web服务器、开发、测试环境以及中低性能数据库等场景。 GPU加速型:提供优秀的浮点计算能力,从容
尽管存在手动创建永久ServiceAccount Token的机制,但还是推荐使用TokenRequest的方式使用短期的Token,以提高安全性。 由于本案例使用的集群版本为v1.25,ServiceAccount不会自动创建对应的Secret。下面手动创建名为dev-sec
Controller挂卸卷能力 提高SFS挂载稳定性 新建集群EVS默认创建类型调整为SAS 1.2.5 v1.15 v1.17 v1.19 提升挂载相关能力可靠性 优化了使用OBS存储时的认证功能,需要用户上传密钥 提高everest插件对flexvolume卷的兼容能力 提高插件运行稳定性 1
于容器共享宿主机的内核,一旦容器内部发生恶意行为或利用内核漏洞,就可能突破资源隔离,导致容器逃逸,进而威胁到宿主机及其他容器的安全。 为了提高运行时安全性,可以通过多种机制对容器内部的恶意活动进行检测和预防,这些机制可以与Kubernetes集成,包括但不限于Capabiliti
测试通过并经过审批后,将此镜像部署到另一个Kubernetes集群的生产环境中。 图1 方案架构图 方案优势 从代码提交到部署上线,实现全流程自动化,极大提高交付效率。 使用容器化构建应用程序,做到即开即用,可实现低成本复用。 多Kubernetes集群隔离,保证测试、生产环境独立运行、互不影响。
选择“调度配置”页签。 在“AI任务性能增强调度”配置中,选择是否开启“组调度 (Gang) ”。 启用该能力后,可增强集群业务的吞吐量,提高业务运行性能。 修改完成后,单击“确认配置”。 配置完成后,可以在工作负载或Volcano Job中使用Gang调度能力。 创建工作负载使用Gang调度能力
同时设置多条自定义亲和策略时,需要保证集群中存在同时满足所有亲和策略的节点,否则插件实例将无法运行。 容忍策略 节点异常时等待指定时间再驱逐插件volcano容器实例,提高插件可用性 参数名 取值范围 默认值 是否允许修改 作用范围 toleration taints的社区配置 无 允许 CCE Standard/CCE
节点云服务器所在的可用区,集群下节点创建在不同可用区下可以提高可靠性。创建后不可修改。 建议您选择“随机分配”,可根据选择的节点规格随机分配一个可以使用的可用区。 可用区是在同一区域下,电力、网络隔离的物理区域,可用区之间内网互通,不同可用区之间物理隔离。如果您需要提高工作负载的高可靠性,建议您将云服务器创建在不同的可用区。
卷写入。 条带化:创建逻辑卷时指定条带化,当实际写入数据时会将连续数据分成大小相同的块,然后依次存储在多个物理卷上,实现数据的并发读写从而提高读写性能。多块卷才能选择条带化。 扩容存储池 存储池扩容可采用两种方式: 通过以上手动导入的方式新增大容量磁盘。 前往ECS界面扩容已导入
卷写入。 条带化:创建逻辑卷时指定条带化,当实际写入数据时会将连续数据分成大小相同的块,然后依次存储在多个物理卷上,实现数据的并发读写从而提高读写性能。多块卷才能选择条带化。 扩容存储池 存储池扩容可采用两种方式 通过以上手动导入的方式新增大容量磁盘。 前往ECS界面扩容已导入的
工作线程CPU亲和性 worker-cpu-affinity 自动分配工作进程到特定的CPU核心,提高多核系统的性能。比如在多核服务器上,可以使某些工作进程固定在特定的CPU核上;这样可以减少上下文切换,提高处理效率。 自动亲和 开启指标采集:插件版本不低于2.4.12时,支持采集Promet
场景下Pod支持极速弹性,而网卡创建绑定需要一定时间,影响了大规模批创场景下的容器启动速度。系统默认提供了容器网卡动态预热的能力,在尽可能提高IP的资源利用率的前提下,加快Pod的启动速度。集群预热配置为您的集群设置全局的预热策略,集群节点默认会根据集群预热配置选项进行容器网卡的