-
动态挂载OBS并行文件系统成功,但是在Notebook的JupyterLab中无法看到本地挂载点 - AI开发平台ModelArts
动态挂载OBS并行文件系统成功,但是在Notebook的JupyterLab中无法看到本地挂载点 问题现象 在Notebook中动态挂载OBS并行文件系统,本地挂载目录为/data/demo-yf/,实际在JupyterLab左侧导航看不到此目录。 图1 本地挂载目录 图2 Notebook的JupyterLab
-
使用ModelArts监控自定义指标 - AI开发平台ModelArts
使用ModelArts监控自定义指标 背景信息 用户有一些自定义的指标数据需要保存到AOM,ModelArts提供了命令方式将用户的自定义指标上报保存到AOM。 约束与限制 ModelArts以10秒/次的频率调用自定义配置中提供的命令或http接口获取指标数据。 自定义配置中提
-
NPU Snt9B裸金属服务器算力查询 - AI开发平台ModelArts
NPU Snt9B裸金属服务器算力查询 场景描述 本文介绍如何在Snt9B裸金属服务器查询对应算力。 操作步骤 Snt9B裸金属服务器执行如下命令进行查看,然后查看表1对应型号算力即可。 npu-smi info 结果如下图所示,name列为B1型号,根据表格可得B1的理论算力为400T。
-
订阅算法物体检测YOLOv3 - AI开发平台ModelArts
订阅算法物体检测YOLOv3_ResNet18(Ascend)训练失败报错label_map.pbtxt cannot be found 问题现象 使用订阅算法物体检测YOLOv3_ResNet18(Ascend) 进行训练作业,训练失败报错label_map.pbtxt cannot
-
GP Vnt1裸金属服务器支持的镜像详情 - AI开发平台ModelArts
GP Vnt1裸金属服务器支持的镜像详情 GP Vnt1规格在北京四、北京一和上海一虽然规格相同,但是产品的配置、发布时间都存在很大差异,因此镜像不能共用。 镜像1:Ubuntu18.04 纯净版(仅限于北京四) 镜像名称:Ubuntu-18.04-server-64bit-for-Vnt1-BareMetal
-
GPU A系列裸金属服务器节点内NVLINK带宽性能测试方法(Pytorch模式) - AI开发平台ModelArts
GPU A系列裸金属服务器节点内NVLINK带宽性能测试方法(Pytorch模式) 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列
-
在k8s集群配置Ascend使用环境 - AI开发平台ModelArts
进入conda环境: source /home/ma-user/.bashrc cd ~ 查看容器中可以使用的卡信息: npu-smi info 如果命令报如下错误,则代表容器启动时指定的“ASCEND_VISIBLE_DEVICES”卡号已被其他容器占用,此时需要重新选择卡号并重新启动新的容器。
-
NPU Snt9B集合通信算子单机多卡性能测试指导 - AI开发平台ModelArts
NPU Snt9B集合通信算子单机多卡性能测试指导 场景描述 本文介绍如何使用在NPU Snt9B服务器上进行集合通信算子性能测试,包括的集合通信算子:allreduce、reducescatter、allgather、all2all。 本文选择的服务器镜像是:EulerOS-2
-
NPU Snt9B裸金属服务器docker网络配置方案 - AI开发平台ModelArts
NPU Snt9B裸金属服务器docker网络配置方案 场景描述 Snt9B裸金属服务器搭配8卡算力资源,可供多人共用裸机完成训练与调测工作。为避免多人使用时环境等冲突,建议在docker容器中进行独立开发。此外,在分布式训练场景下,需要多机、多容器之间免密登录、网络互通。本文介绍两种docker容器常用的网络配置。
-
AI CPU 算子替换样例 - AI开发平台ModelArts
AI CPU 算子替换样例 部分算子因为数据输入类型问题或者算子实现问题,导致会在昇腾芯片的AI CPU上执行,没有充分利用AI CORE的资源,从而导致计算性能较差,影响训练速度。部分场景下,可以通过修改Python代码来减少这类AI CPU算子,从而提升训练性能。 当前对 AICPU
-
SFT全参微调权重转换 - AI开发平台ModelArts
SFT全参微调权重转换 增量训练前需将HuggingFace格式权重转换为Megatron格式后再进行SFT全参微调。 本章节主要介绍如何将HuggingFace权重转换为Megatron格式。此处的HuggingFace权重文件和转换操作结果同时适用于SFT全参微调和LoRA微调训练。
-
使用ma-cli dli-job get-queue命令查询DLI 队列 - AI开发平台ModelArts
使用ma-cli dli-job get-queue命令查询DLI 队列 执行ma-cli dli-job get-queue命令查询DLI对列。 ma-cli dli-job get-queue -h Usage: ma-cli dli-job get-queue [OPTIONS]
-
不在同一个主账号下,如何使用他人的自定义镜像创建Notebook? - AI开发平台ModelArts
不在同一个主账号下,如何使用他人的自定义镜像创建Notebook? 不是同一个主账号,用户A需要使用用户B的自定义镜像创建Notebook,此时需要用户B将此镜像共享给用户A,用户A将此共享镜像Pull下来注册后方可在Notebook中使用。详细操作如下: 用户B的操作: 登录容
-
使用ma-cli ma-job get-job命令查询ModelArts训练作业 - AI开发平台ModelArts
使用ma-cli ma-job get-job命令查询ModelArts训练作业 使用ma-cli ma-job get-job命令可以查看训练作业列表或某个作业详情。 $ ma-cli ma-job get-job -h Usage: ma-cli ma-job get-job
-
NPU Snt9B裸金属服务器安装深度学习框架PyTorch - AI开发平台ModelArts
NPU Snt9B裸金属服务器安装深度学习框架PyTorch 场景描述 昇腾为使用PyTorch框架的开发者提供昇腾AI处理器的超强算力,需要安装PyTorch Adapter插件用于适配PyTorch,本文介绍如何安装Pytorch框架和Pytorch Adapter插件。 本文使用ModelArts上的NPU
-
NPU Snt9B裸金属服务器支持的镜像详情 - AI开发平台ModelArts
NPU Snt9B裸金属服务器支持的镜像详情 镜像名称:EulerOS-2.10-Arm-rc3-64bit-for-Snt9B-BareMetal-with-CANN7.0.RC1 表1 镜像详情 软件类型 版本详情 操作系统 EulerOS 2.10 内核版本 Linux 4
-
示例:从0到1制作自定义镜像并用于训练(Horovod-PyTorch+GPU) - AI开发平台ModelArts
示例:从0到1制作自定义镜像并用于训练(Horovod-PyTorch+GPU) 本章节介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是Horovod 0.22.1 + PyTorch 1.8.1,训练使用的资源是GPU。 本实践教程仅适用于新版训练作业。
-
Step2 构建成功的镜像注册到镜像管理模块 - AI开发平台ModelArts
Step2 构建成功的镜像注册到镜像管理模块 将Step1 在Notebook中构建一个新镜像中构建成功的自定义镜像注册到镜像管理中,方便后续使用。 登录ModelArts控制台,在左侧导航栏中选择“镜像管理”,单击“注册镜像”,进入注册镜像页面。 输入镜像源地址,选择架构和类型后,单击“立即注册”。
-
Step1 在Notebook中拷贝模型包 - AI开发平台ModelArts
Step1 在Notebook中拷贝模型包 登录ModelArts控制台,在左侧导航栏中选择“开发环境 > Notebook”,进入“Notebook”管理页面。 单击右上角“创建”,进入“创建Notebook”页面,请参见如下说明填写参数。 填写Notebook基本信息,包含名称、描述、是否自动停止。
-
Step4 使用调试成功的镜像用于推理部署 - AI开发平台ModelArts
Step4 使用调试成功的镜像用于推理部署 将Step3 在Notebook中变更镜像并调试中调试成功的自定义镜像导入到AI应用中,并部署为在线服务。 登录ModelArts控制台,在左侧导航栏中选择“AI应用管理 > AI应用”,单击“创建”,进入创建AI应用。 设置AI应用的参数,如图1所示。