检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
NPU调度 Volcano调度 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 功能
步骤一:指定节点池驱动版本 登录节点查看节点上实际的驱动,驱动版本为510.47.03。 # 插件版本为2.0.0以下时,执行以下命令: cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi # 插件版本为2.0.0及以上时,驱动安装路径更改,需执行以下命令:
请确保该插件处于启用状态。 混部agent以DaemonSet方式亲和部署在OS类型为Huawei Cloud EulerOS 2.0 x86的节点上,非Huawei Cloud EulerOS 2.0 x86的节点不会部署agent。 默认节点池不支持修改混部配置。 云原生混部配置
缺省值:PersistentVolume metadata 是 PersistentVolumeMetadata object PersistentVolume的元数据信息 spec 是 PersistentVolumeSpec object PersistentVolume的规格信息 status 否
LB侧(证书名以k8s_plb_default开头),由CCE自动创建的证书在ELB侧不可修改或删除。 使用ELB服务中的证书配置SNI:直接使用ELB服务中创建的证书,无需手动配置集群Secret,且可以在ELB侧修改证书。 前提条件 集群中需提前部署可用的工作负载用于对外提供
同Kubernetes资源的权限。同时CCE基于开源能力进行了增强,可以支持基于IAM用户或用户组粒度进行RBAC授权、IAM token直接访问API进行RBAC认证鉴权。 命名空间权限涉及CCE Kubernetes API,基于Kubernetes RBAC能力进行增强,支
节点操作系统为Huawei Cloud EulerOS 2.0。 CCE Turbo集群的弹性云服务器-物理机节点不支持使用CPU管理策略。 操作步骤 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 选择一个操作系统为Huawei Cloud EulerOS
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
27及以上时,仅支持Ubuntu 22.04。 Huawei Cloud EulerOS 无限制 检查到节点属于默认节点池,但是含有普通节点池标签,将影响升级流程 由节点池迁移至默认节点池的节点,"cce.cloud.com/cce-nodepool"该标签影响集群升级。请确认该节点上的负载调度是否依赖该标签:
在默认情况下,镜像启动时会运行默认命令,如果想运行特定命令或重写镜像默认值,需要进行相应设置。 Docker的镜像拥有存储镜像信息的相关元数据,如果不设置生命周期命令和参数,容器运行时将运行镜像制作时提供的默认的命令和参数,Docker将这两个字段定义为ENTRYPOINT和 CMD。
表5 污点容忍配置 node_match_expressions 否 Array of 表6 插件实例亲和性配置 表4 resources字段数据结构说明 参数 是否必选 参数类型 描述 limitsCpu 是 String CPU大小限制,单位:m。 limitsMem 是 String
StorageClass的名称,对象存储为csi-obs volumeName: testing-abc # PV的名称 创建工作负载,并在容器配置中的数据存储选项中选择存储卷声明PVC,添加上述创建的PVC,如果工作负载能够正常创建成功,则说明可以跨区域使用OBS桶。 apiVersion:
节点”,在节点配置步骤中设置节点参数。 以下为开启安全加固关键参数设置,其余参数请根据需求设置。 在“操作系统”中选择“Huawei Cloud EulerOS 2.0”。 在“安全加固”设置中选择“等保加固”。 图1 开启安全加固 其余节点参数设置完成后,单击“下一步:规格确认”。
则客户端向调用程序返回错误。 默认为hard。 sharecache/nosharecache 无需填写 设置客户端并发挂载同一文件系统时数据缓存和属性缓存的共享方式。设置为sharecache时,多个挂载共享共享同一缓存。设为nosharecache时,每个挂载各有一个缓存。默认为sharecache。
表5 污点容忍配置 node_match_expressions 否 Array of 表6 插件实例亲和性配置 表4 resources字段数据结构说明 参数 是否必选 参数类型 描述 limitsCpu 是 String CPU大小限制,单位:m limitsMem 是 String
器。 默认节点池不支持弹性扩缩容,详情请参见默认节点池DefaultPool说明。 缩容节点会导致与节点关联的本地持久卷类型的PVC/PV数据丢失,无法恢复,且PVC/PV无法再正常使用。缩容节点时使用了本地持久存储卷的Pod会从缩容的节点上被驱逐,并重新创建Pod,Pod会一直
> 4core 1core*6% + 1core*1% + 2core*0.5% + (CPU总量– 4core)*0.25% CCE对节点数据盘的预留规则 CCE使用LVM(Logical Volume Manager)进行磁盘管理,LVM会在磁盘上创建一个metadata区域用
如果您需要安装最新版本的GPU驱动,请将您的GPU插件升级到最新版本。 表1 GPU驱动支持列表 GPU型号 支持集群类型 机型规格 操作系统 Huawei Cloud EulerOS 2.0(支持GPU虚拟化) Ubuntu 22.04.4 Ubuntu 22.04.3 CentOS Linux release
节点池视图使用的指标清单如下: 表2 指标说明 指标名称 单位 说明 kube_node_labels Gauge 节点标签,其中label_cce_cloud_com_cce_nodepool为CCE节点池名称,若无该标签值则为Default Pool。 node_cpu_seconds_total
ia驱动安装失败,请排查nvidia驱动是否下载成功。 GPU节点: # 插件版本为2.0.0以下时,执行以下命令: cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi # 插件版本为2.0.0及以上时,驱动安装路径更改,需执行以下命令: cd