检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台,它弥补了Kubernetes在机器学习、深度学习、HPC、大数据计算等场景下的基本能力缺失,其中包括gang-schedule的调度能力、计算任务队列管理、task-topology
ret落盘加密特性已开启。 使用自动轮转密钥开启Secret落盘加密 您可以使用KMS自动轮转密钥功能进行Secret的落盘加密。当密钥发生自动轮转时,存量的Secret仍旧使用轮转前的密钥版本进行加密,新增的Secret将使用轮转后的新密钥版本进行加密。关于自动轮转密钥具体操作,请参见密钥轮换概述。
Turbo 优先占满一台节点的NPU 1980芯片,减少资源碎片 配置建议: 使用NPU的集群默认开启,不使用NPU资源可以关闭 专家模式 如果上述Volcano的典型配置无法满足您的业务场景,可以使用专家模式定制专属于您的调度策略 参数名 取值范围 默认值 是否允许修改 作用范围
Volcano调度器 插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
com/volcano-sh/volcano 本文介绍如何在CCE集群中安装及配置Volcano插件,具体使用方法请参见Volcano调度。 在使用Volcano作为调度器时,建议将集群中所有工作负载都使用Volcano进行调度,以避免多调度器同时工作导致的一些调度资源冲突问题。 安装插件 登录CCE控制
常运维中,华为云会对ECS实例所在底层宿主机的软硬件故障进行预测和主动规避。 当宿主机上的故障风险无法规避时,为避免因ECS实例的资源可用性或性能受损对您的业务造成更大的影响,系统会对受影响的ECS实例生成云服务器事件并进行上报,例如实例重部署、系统维护等。 您可以在弹性云服务器
创建集群 使用账号登录CCE,并创建一个集群。 注意不要使用IAM用户user-example创建集群,因为CCE会自动为创建集群的用户添加该集群所有命名空间cluster-admin权限,也就是说该用户允许对集群以及所有命名空间中的全部资源进行完全控制。 使用IAM用户us
OnSingleGPU, 3 Insufficient nvidia.com/gpu. 在CCE控制台使用GPU资源,只需在创建工作负载时,选择使用的GPU配额即可。 图1 使用GPU GPU节点标签 创建GPU节点后,CCE会给节点打上对应标签,如下所示,不同类型的GPU节点有不同标签。
Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano
image:预置镜像到SWR步骤中上传至SWR的镜像地址。 local:使用本地的jar包路径。本例中使用本地文件存放jar包,因此使用local类型。根据实际情况,该参数可采用多种类型(file/http/local等),详情请参见官方文档。 访问对象存储服务OBS 使用spark-submit下发hdfs任务
使用密钥 密钥创建后,可在工作负载环境变量和数据卷两个场景使用。 请勿对以下CCE系统使用的密钥做任何操作,详情请参见集群系统密钥说明。 请不要操作kube-system下的secrets。 请不要操作任何命名空间下的default-secret、paas.elb。其中,defa
使用ASM实现灰度发布和蓝绿发布 应用服务网格(Application Service Mesh,简称ASM)是基于开源Istio推出的服务网格平台,它深度、无缝对接了企业级Kubernetes集群服务云容器引擎(CCE),在易用性、可靠性、可视化等方面进行了一系列增强,可为客户提供开箱即用的上手体验。
本文提供以下两种方式使用YAML部署Deployment和Service: 方式1:在创建无状态工作负载向导页面,单击右侧“YAML创建”,再将本文示例的YAML文件内容输入编辑窗中。 方式2:将本文的示例YAML保存为文件,再使用kubectl指定YAML文件进行创建。例如:kubectl
Pod Autoscaling,可根据业务历史指标,识别工作负载弹性周期并对未来波动进行预测,提前进行扩缩容动作,解决原生HPA的滞后问题。 功能介绍 AHPA通过对工作负载的历史指标进行监控,以周为维度进行建模,因此对具有明显周期性的工作负载具有更佳效果。 AHPA启动后拉取指定的工
秒级弹性伸缩 应用场景 电商客户遇到促销、限时抢购等活动期间,访问量激增,需及时、自动扩展云计算资源。 视频直播客户业务负载变化难以预测,需要根据CPU/内存使用率进行实时扩缩容。 游戏客户每天中午12点及晚上18:00-23:00间需求增长,需要定时扩容。 价值 云容器引擎可根据用户的业
云原生监控插件兼容模式 若您已自建Prometheus,且您的Prometheus基于开源,未做深度定制、未与您的监控系统深度整合,建议您卸载自建Prometheus并直接使用云原生监控插件对您的集群进行监控,无需开启“兼容模式”。 卸载您自建的Prometheus,需要确保删除您自建Pr
Ingress对多个应用进行弹性伸缩 在实际的生产环境中,应用多实例部署可以提高应用的稳定性和可靠性,但也会增加资源的浪费和成本。因此,在进行多实例部署时,需要权衡资源利用率和应用性能之间的平衡,但手动调节实例数量存在伸缩不及时的问题,难以达到最佳的效果。 如果该应用使用Nginx In
重置用户密码、分配用户权限等。由于账号是付费主体,为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建用户并使用用户进行日常管理工作。 用户 由账号在IAM中创建的用户,是云服务的使用人员,具有身份凭证(密码和访问密钥)。 在我的凭证下,您可以查看账号ID和IAM用
es API添加接口对应的结构体。 例如使用curl命令调用创建Deployment接口,请求方法为POST,并添加对应的Body体。 本示例中使用nginx.json文件,创建一个名为nginx的Deployment负载,该工作负载使用nginx:latest镜像并包含两个Po
化,HPA也会考虑它们的CPU使用数据进行扩缩容。这有助于在Pod状态频繁变化时,确保CPU使用数据被持续追踪。 配置建议:如果Pods在启动后的就绪状态发生波动,并且您需要避免此波动导致HPA的误判,适当增加此值可以使HPA得到更全面的CPU使用数据。 说明: 请合理设置该参数