检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当前该能力适用于数据集创建节点、数据集标注节点、数据集导入节点、数据集版本发布节点、作业类型节点、模型注册节点以及服务部署节点。
进入资源池详情页,在节点管理页面,选择需要进行驱动升级的节点,单击操作列的“更多 > 驱动升级”。 在“驱动升级”弹窗中,会显示当前专属资源池节点的名称ID、规格和驱动版本号,选择节点待升级的“升级版本”。 单击“确定”,开始升级单个节点的驱动。
自定义镜像训练作业配置节点间SSH免密互信 当用户使用基于MPI和Horovod框架的自定义镜像进行分布式训练时,需配置训练作业节点间SSH免密互信,否则训练会失败。 配置节点间SSH免密互信涉及代码适配和训练作业参数配置,本文提供了一个操作示例。
准备镜像 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。
准备镜像 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。
准备镜像 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。
使用边缘节点部署边缘服务能否使用http接口协议? 系统默认使用https。
(节点相关定义已省略),在policy中定义了两个预置场景:模型训练和服务部署,工作流发布至运行态后,部分运行的开关默认关闭,节点全部运行。
释放游离节点 如果您的资源中存在游离节点(即没有被纳管到资源池中的节点),您可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。
在左侧菜单栏中选择“AI专属资源池 > 弹性节点 Server”。 执行如下操作,启动或停止弹性节点Server。 启动弹性节点Server:单击“启动”。只有处于“已停止/停止失败/启动失败”状态的弹性节点Server可以执行启动操作。
镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。
镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。
镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。
镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。
镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。
镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。
] properties 节点的属性信息 否 dict policy 节点的执行策略,主要包含节点调度运行的时间间隔、节点执行的超时时间、以及节点执行是否跳过的相关配置 否 StepPolicy depend_steps 依赖节点的列表,该字段决定了DAG的结构,也决定了节点执行的顺序
镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。
镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。