检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
23 - 1.23.0 1.23.47 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.44 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容
CCE节点故障检测 Kubernetes Dashboard CCE AI套件(Ascend NPU) CCE AI套件(NVIDIA GPU) 开启对分布式云支持 创建CCE Turbo集群时,可在创建集群过程中,开启对分布式云(cloudpond)支持。 开启分布式云支持后,
28 修复部分问题 1.4.2 v1.21 v1.23 v1.25 v1.27 v1.28 支持v1.28集群 支持本地集群日志采集 支持GPU事件上报AOM字段特殊处理 1.3.10 v1.17 v1.19 v1.21 v1.23 v1.25 v1.27 v1.28 修复fluent-bit内存崩溃漏洞
捷安装Prometheus。 云原生异构计算插件 插件名称 插件简介 CCE AI套件(NVIDIA GPU) CCE AI套件(NVIDIA GPU)是支持在容器中使用GPU显卡的设备管理插件,仅支持Nvidia驱动。 CCE AI套件(Ascend NPU) CCE AI套件(Ascend
未得到满足的用户等价平分剩下的资源 max-min fairness算法的最大问题是认为资源是单一的,但是现实情况中资源却不是单一的,例如CPU、Memory、GPU等资源在分配时都需要考虑。这个时候DRF应运而生,简单来说DRF就是 max-min fairness 算法的泛化版本,可以支持多种类型资源的公平分配,
机器学习系统的自动化敏捷构建,实现AI领域的DevOps。 前提条件 已在CCE创建一个集群clusterA,集群下有一个可用GPU节点,节点上的GPU卡数量大于等于2。 由于安装Kubeflow需要从github下载文件,从gcr.io等下载镜像,建议在华为云国际站创建集群,否则容易碰到较多网络问题。
节点的操作系统名称。 os.version 操作系统节点内核版本。 accelerator/huawei-npu NPU节点标签。 accelerator GPU节点标签。 cce.cloud.com/cce-nodepool 节点池节点专属标签。 添加/删除节点标签 登录CCE控制台,单击集群名称进入集群。
求创建按需节点,也可以选择成本效益更高的包年/包月节点。 多元的实例选择:您可以基于业务需求,通过CPU和内存等参数筛选多种实例规格(如GPU实例),从而满足不同业务场景的需要。 高级的弹性伸缩:节点池支持开启弹性伸缩功能,您可以配置多种伸缩策略来应对不同的业务场景,从而提高资源利用率。
增强高版本内核的OS异常掉电等重启场景的稳定性。 cadvisor GPU/NPU相关指标优化。 修复部分安全问题。 v1.23.5-r0 v1.23.11 容器存储支持对接SFS 3.0文件存储服务。 支持GPU节点的设备故障检测和隔离能力。 支持配置集群维度的自定义安全组。 CCE
增强高版本内核的OS异常掉电等重启场景的稳定性。 cadvisor GPU/NPU相关指标优化。 修复部分安全问题。 v1.23.5-r0 v1.23.11 容器存储支持对接SFS 3.0文件存储服务。 支持GPU节点的设备故障检测和隔离能力。 支持配置集群维度的自定义安全组。 CCE
前往Grafana或AOM页面处查看您的自定义采集指标是否采集成功。 相关操作 Prometheus监控多个集群 监控GPU指标 使用CCE AI套件(NVIDIA GPU)提供GPU指标 使用dcgm-exporter提供GPU指标 父主题: 云原生观测最佳实践
- plugins: - name: cce-gpu-topology-predicate - name: cce-gpu-topology-priority - name: cce-gpu - plugins: - name:
维或者开发人员进行数据库的迁移,详情请参见跨云数据库在线迁移。完成迁移后,可参考数据库更新适配进行对接。 存储迁移 若您的集群对接了对象存储服务,且需同步搬迁至上云,可以使用对象存储迁移服务 OMS,帮助您将对象存储中的数据在线迁移至对象存储服务。其他存储类型暂未提供官方工具支持。
云容器引擎CCE 云容器实例CCI 定价 CCE在使用过程中会创建相关资源(如节点、带宽等),您需要为这些资源付费。 CCI实例资源包含CPU、内存、GPU等,根据使用的实际实例资源规格进行计费。 计费方式 支持按需计费、包年/包月两种计费模式 支持按需计费、购买套餐包两种计费模式 最小计价单位
SDK概述 本文介绍了CCE服务提供的SDK语言版本,列举了最新版本SDK的获取地址。 在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 您可以在API Explorer中具体API页面的“代码示例”页签查看对应编程语言类型的SDK代码,如图1所示。
可观测性生态有一个全面的认识。 图1 可观测性体系 从架构分层的角度,CCE可观测性分为四个层次。自下而上分别为:算力底座、数据采集、监控与日志、云原生观测。 算力底座 云容器引擎CCE支持多种类型的集群创建,包括CCE Turbo集群与CCE Standard集群,以满足您各种
Standard集群、CCE Turbo集群支持 CCE基于Volcano调度器提供多元算力资源调度及任务调度的能力,面向机器学习、深度学习、生物信息学、基因组学及其他大数据应用场景提供完整的应用调度特性。 CCE支持CPU资源调度、GPU/NPU异构资源调度、在离线作业混合部署、CPU Burst弹性
L文件差异后提交升级。 编辑YAML 可通过在线YAML编辑窗对无状态工作负载、有状态工作负载、守护进程集、定时任务和容器组的YAML文件进行修改和下载。普通任务的YAML文件仅支持查看、复制和下载。本文以无状态工作负载为例说明如何在线编辑YAML。 登录CCE控制台,进入一个已
name: usage - plugins: - name: cce-gpu-topology-predicate - name: cce-gpu-topology-priority - name: xgpu - plugins:
nlyMany)的各种工作负载(Deployment/StatefulSet)和普通任务(Job)使用,主要面向大数据分析、静态网站托管、在线视频点播、基因测序、智能视频监控、备份归档、企业云盘(网盘)等场景。 相关参考 CCE支持挂载第三方租户的OBS桶,包含OBS并行文件系统