集群类型对比 集群类型对比 CCE支持多种类型的集群创建,以满足您各种业务需求,如下为集群类型之间的区别,可帮助您选择合适的集群: 维度 子维度 CCE Standard CCE Turbo CCE Autopilot 产品定位 - 标准版本集群,提供高可靠、安全的商业级容器集群服务。
CCE AI套件(NVIDIA GPU) 插件介绍 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 是 object 插件基础配置参数。
CCE AI套件(Ascend NPU) 插件简介 CCE AI套件(Ascend NPU)是支持容器里使用huawei NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 约束与限制 集群中使用“AI加速型”节点时必须安装CCE
Container Runtime等不兼容,继而导致驱动安装失败或者CCE AI套件(NVIDIA GPU)插件异常。对于使用自定义GPU驱动的场景,请您自行验证。 安装插件 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到CCE AI套件(NVIDIA
CCE AI套件(Ascend NPU) 插件介绍 CCE AI套件(Ascend NPU)是支持容器里使用NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
因此容器Core Dump需要将Core文件持久化存储在主机或云存储上。本文将介绍容器Core Dump的方法。 约束与限制 容器Core Dump持久化存储至OBS(并行文件系统或对象桶)时,由于CCE挂载OBS时默认挂载参数中带有umask=0的设置,这导致Core Dump
/api/v1/namespaces/{namespace}/cloudpersistentvolumeclaims cce:storage:create √ √ 删除PersistentVolumeClaim DELETE /api/v1/namespaces/{namespace}/clo
CCE AI套件(NVIDIA GPU)版本发布记录 CCE会定期发布CCE AI套件(NVIDIA GPU)插件新版本,进行特性更新、性能优化和BUG修复,以提升用户体验和系统稳定性。为了方便您能够体验最新功能、规避已知漏洞或问题,并保障业务的安全性和可靠性,建议定期升级至最新版本的CCE
CCE AI套件(Ascend NPU)版本发布记录 CCE会定期发布CCE AI套件(Ascend NPU)插件新版本,进行特性更新、性能优化和BUG修复,以提升用户体验和系统稳定性。为了方便您能够体验最新功能、规避已知漏洞或问题,并保障业务的安全性和可靠性,建议定期升级至最新版本的CCE
则默认状态为 Success。 就绪探针 参数名 取值范围 默认值 是否允许修改 作用范围 ReadinessProbe 无 无 允许 - 指示容器是否准备好为请求提供服务。如果就绪态探测失败, 端点控制器将从与 Pod 匹配的所有服务的端点列表中删除该 Pod 的 IP 地址。
CCE容器弹性引擎 CCE容器弹性引擎(原名cce-hpa-controller)插件是一款CCE自研的插件,能够基于CPU利用率、内存利用率等指标,对无状态工作负载进行弹性扩缩容。 安装本插件后,可创建CronHPA定时策略及CustomedHPA策略,具体请参见创建CronH
创建一个Pod,用于运行Spark的驱动程序。 驱动程序在集群中创建执行程序的Pod并与其建立连接,用于执行应用程序代码。 应用程序完成后,执行程序的Pod将终止并清理,但驱动程序Pod仍然存在并保持在“已停止”状态,直到最终进行垃圾回收或手动清理。在“已停止”状态下,驱动程序Pod不会使用任何计算或内存资源。
使用Kubeflow和Volcano实现典型AI训练任务 Kubernetes已经成为云原生应用编排、管理的事实标准, 越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用Kubernet
求体,或联系技术支持。 400 CCE.03400002 Missing access key. 缺少Access key。 请确认安装或升级的存储插件版本正确,或联系技术支持。 401 CCE.01401001 Authorization failed. 认证失败。 请参考返回的message,或联系技术支持。
查 运行状态检查 在CCE AI套件(NVIDIA GPU)插件页面检查Pod状态为“运行中”。 查看Pod日志,确认HTTP服务器开始监听。 在集群上使用curl命令访问dcgm-exporter,确认数据正常获取。 检查dcgm-exporter组件Pod IP: kubectl
插件部署:autoscaler、cce-hpa-controller 工作负载弹性:CronHPA(CronHorizontalPodAutoscaler)+ HPA(Horizontal Pod Autoscaling) 集群节点弹性:CA(Cluster AutoScaling) 图1
CCE控制台的权限依赖 CCE对其他云服务有诸多依赖关系,因此在您开启IAM授权后,在CCE Console控制台的各项功能需要配置相应的服务权限后才能正常查看或使用,详细说明如下: 依赖服务的权限配置均基于您已设置了IAM授权的CCE FullAccess或CCE ReadOn
AI任务性能增强调度 公平调度(DRF) 组调度(Gang) 父主题: Volcano调度
云容器引擎(CCE)和应用管理与运维平台(ServiceStage)的区别是什么? 对于使用者而言,云容器引擎关注的重点是Pod的部署,应用管理与运维平台关注的是服务的使用。 对于技术实现来看,应用管理与运维平台是对云容器引擎的再一次封装。 基础概念 云容器引擎(CCE) 云容器引擎(Cloud
CCE集群安全配置建议 从安全的角度,建议您对集群做如下配置。 使用最新版本的CCE集群 Kubernetes社区一般4个月左右发布一个大版本,CCE的版本发布频率跟随社区版本发布节奏,在社区发布Kubernetes版本后3个月左右同步发布新的CCE版本,例如Kubernetes
您即将访问非华为云网站,请注意账号财产安全