检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
前往ECS控制台为节点添加SCSI类型的磁盘。操作步骤详情请参见新增磁盘。 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“存储”,并切换至“存储池”页签。 查看已添加磁盘的节点,选择“导入临时卷”,导入时可以选择写入模式。 如存储池列表中未找到手动挂载的磁盘,请耐心等待1分钟后刷新列表。
业务上报nvidia版本和cuda版本不匹配? 容器中查看cuda的版本,执行如下命令: cat /usr/local/cuda/version.txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错
本文以本地持久卷举例,修复本地临时卷时,使用相应的卷组即可。 本文提供的指导仅能恢复误卸载磁盘后存储池页面显示“不可用”状态,修复后可重新导入持久卷或临时卷,但无法恢复原有数据。 问题现象 当用户错误卸载存储池的磁盘时,会导致该节点存储池状态不可用。 问题定位 使用kubectl命令查看nodelocalvolumes资源:
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级。
object 升级流程的元数据信息 spec WorkFlowResponseSpec object 集合类的元素类型,您对集群升级流程主体都在spec中给出。CCE通过spec的描述来创建或更新对象。 status WorkFlowStatus object 集合类的元素类型,用于记
Resource的调度算法。volcano-scheduler观察每个Job请求的主导资源,并将其作为对集群资源使用的一种度量,根据Job的主导资源,计算Job的share值,在调度的过程中,具有较低share值的Job将具有更高的调度优先级。这样能够满足更多的作业,不会因为一个
配额管理 查询CCE服务下的资源配额 父主题: API
com/gpu为0.5,依然可以在容器中看到完整的GPU显存资源。且使用nvidia.com/gpu资源的工作负载无法和使用虚拟化显存的工作负载共同调度到同一节点。 编辑插件配置时,修改“虚拟化节点兼容GPU共享模式”选项,不会影响已运行的工作负载。修改该配置可能工作负载导致调度失败
配置管理 查询指定节点池支持配置的参数列表 查询指定集群支持配置的参数列表 查询指定节点池支持配置的参数内容 修改指定节点池配置参数的值 父主题: API
节点(弹性至CCI)的Pod,其次删除按需计费节点上的Pod,最后删除包周期节点上的Pod。 应用扩缩容优先级策略包括两个方面: 针对扩容:集群中新建的Pod,Volcano会按照设定的节点优先级进行调度。 针对缩容:指定工作负载时,Volcano会按照设定的节点优先级对其进行打分,用于缩容时决定Pod删除顺序。
--master:集群的API Server,其中https://**.**.**.**:5443为 ~/.kube/config中使用的master地址,可通过kubectl cluster-info获取。 --deploy-mode: cluster:在集群的工作节点上部署驱动程序。
3-r0及之后版本的集群中,CCE使用的数据盘支持采用容器引擎和Kubelet共享磁盘空间的方式,即不再划分容器引擎 (Docker/Containerd) 和Kubelet组件的空间。 Pod容器空间分配:即容器的basesize设置,每个工作负载下的容器组 Pod 占用的磁盘空间设置
AI套件(NVIDIA GPU)插件配置节点的驱动文件路径,节点重启后会自动安装驱动。您也可以手动更新驱动的方式进行更新。 手动更新GPU节点的驱动版本为临时方案,适用于需要对某个节点进行差异化配置的场景,但节点重启后将自动重置为GPU插件配置中指定的版本。 如果需要稳定升级GPU节点驱
object 升级流程的元数据信息 spec WorkFlowResponseSpec object 集合类的元素类型,您对集群升级流程主体都在spec中给出。CCE通过spec的描述来创建或更新对象。 status WorkFlowStatus object 集合类的元素类型,用于记
3-r0及之后版本的集群中,CCE使用的数据盘支持采用容器引擎和Kubelet共享磁盘空间的方式,即不再划分容器引擎 (Docker/Containerd) 和Kubelet组件的空间。 Pod容器空间分配:即容器的basesize设置,每个工作负载下的容器组 Pod 占用的磁盘空间设置
调度到ARM架构的节点上,使用x86架构镜像时让Pod调度到x86架构的节点上。 构建双架构镜像,同时支持两种架构,当Pod调度到ARM架构节点时拉取ARM架构的镜像,当Pod调度到x86架构节点时拉取x86架构的镜像。双架构镜像的一个特征是镜像可以只使用一个地址,但背后有两个镜
告警中心概述 云原生告警是可观测性体系里面比较重要的一环。在云原生告警中,除了传统的CPU、内存等资源使用量的告警以外,还有容器重启等事件告警、应用访问失败等自定义的监控指标告警。 CCE的云原生告警能力是由AOM服务提供的,支持指标和事件的告警。同时,CCE集群详情中增加了告警中心能
根据不同的适用机型选择是否启用驱动,启用后插件将根据用户指定的驱动版本自动进行驱动安装。默认使用“推荐驱动”,您也可以选择“自定义驱动”并填写完整的驱动地址。 插件将根据用户针对指定机型选择的驱动版本进行驱动安装。仅对未安装NPU驱动的节点生效,已安装 NPU 驱动的节点会保持
密码不能包含用户名或用户名的逆序。 Windows系统密码不能包含用户名或用户名的逆序,不能包含用户名中超过两个连续字符的部分。 Python 以下是Python 3.7.7环境下对密码进行加盐的示例步骤: pip install passlib python -c "import base64;
命令中的yaml名称是示例,请以实际步骤2和步骤3创建的pv和pvc的yaml名字为准。 通过kubectl edit的方式修改有状态应使用新建的PVC。 kubectl edit sts sts-example -n xxx 命令中的sts-example为待升级的有状态应用的名称,请以实际为准。xxx指代有状态应用所在的命名空间。