-
使用ma-cli dli-job get-resource命令查询DLI 分组资源 - AI开发平台ModelArts
[OPTIONS] Get DLI resource info. Example: # Get DLI resource details by resource name ma-cli dli-job get-resource --resource-name ${resource_name}
-
在lite资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts
kubernetes.io/hostname containers: - image: bert_pretrain_mindspore:v1 # 镜像地址,Training framework image, which can be
-
自动诊断工具MA-Advisor简介 - AI开发平台ModelArts
推理、训练场景下对Profiling timeline单卡数据进行调优分析,给出相关亲和API替换的调优建议。 推理、训练场景下对Profiling单卡数据进行调优分析,给出AICPU相关调优建议。 推理、训练场景下对Profiling单卡数据进行调优分析,给出block dim、operator no bound相关AOE配置以及调优建议。
-
Step4 上传镜像至SWR - AI开发平台ModelArts
tag命令给上传镜像打标签。 #region和domain信息请替换为实际值,组织名称deep-learning也请替换为自定义的值。 sudo docker tag mindspore:2.1.1-cann6.3.RC2 swr.{region}.{domain}/deep-learning/mindspore:2
-
物体检测或图像分类项目支持对哪些格式的图片进行标注和训练? - AI开发平台ModelArts
物体检测或图像分类项目支持对哪些格式的图片进行标注和训练? 图片格式支持JPG、JPEG、PNG、BMP。 父主题: 准备数据
-
调用transformers出现ImportError: libcblas.so.3: cannot open shared object file: No such file or directory - AI开发平台ModelArts
调用transformers出现ImportError: libcblas.so.3: cannot open shared object file: No such file or directory 问题现象 调用transformers出现“ImportError: libcblas
-
容器化个人调测环境搭建 - AI开发平台ModelArts
-v /home:/home_host是指将宿主机home目录挂载到容器home_host目录,建议在容器中使用该挂载目录进行代码和数据的存储以便持久化 docker run -itd --cap-add=SYS_PTRACE -e ASCEND_VISIBLE_DEVICES=0
-
如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic - AI开发平台ModelArts
如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic 场景描述 Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic。 操作指导 检查当前内核版本。 uname -r 升级内核 apt-get install linux-headers-5
-
上传场景和入口介绍 - AI开发平台ModelArts
上传场景和入口介绍 Notebook的JupyterLab中提供了多种方式上传文件。 上传文件要求 对于大小不超过100MB的文件直接上传,并展示文件大小、上传进度及速度等详细信息。 对于大小超过100MB不超过5GB的文件可以使用OBS中转,系统先将文件上传OBS(对象桶或并行
-
GP Ant8裸金属服务器使用Megatron-Deepspeed训练GPT2并推理 - AI开发平台ModelArts
精度缩放等。它还支持优化大模型的内存使用和计算资源分配。 GPT2 GPT2(Generative Pre-trained Transformer 2),是OpenAI组织在2018年于GPT模型的基础上发布的新预训练模型,是一个基于Transformer且非常庞大的语言模型。它
-
物理机环境配置 - AI开发平台ModelArts
n格式正确。其中“data_root”代表docker数据存储路径,“default-shm-size”代表容器启动默认分配的共享内容大小,不配置时默认为64M,可以根据需要改大,避免分布式训练时共享内存不足导致训练失败。 图10 docker配置 保存后,执行如下命令重启docker使配置生效:
-
GPU A系列裸金属服务器节点内NVLINK带宽性能测试方法(Pytorch模式) - AI开发平台ModelArts
GPU A系列裸金属服务器节点内NVLINK带宽性能测试方法(Pytorch模式) 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列
-
NPU Snt9B集合通信算子单机多卡性能测试指导 - AI开发平台ModelArts
NPU Snt9B集合通信算子单机多卡性能测试指导 场景描述 本文介绍如何使用在NPU Snt9B服务器上进行集合通信算子性能测试,包括的集合通信算子:allreduce、reducescatter、allgather、all2all。 本文选择的服务器镜像是:EulerOS-2
-
NPU Snt9裸金属服务器支持的镜像详情 - AI开发平台ModelArts
NPU Snt9裸金属服务器支持的镜像详情 镜像:EulerOS纯净版 镜像名称:ModelArts-Euler2.8_Aarch64_Snt9_C78 表1 镜像详情 软件类型 版本详情 操作系统 EulerOS 2.0 (SP8) 内核版本 4.19.36-vhulk1907
-
使用ma-cli ma-job get-event命令查询ModelArts训练作业事件 - AI开发平台ModelArts
Example: # Get training job running event ma-cli ma-job get-event --job-id ${job_id} Options: -i, --job-id TEXT Get training job event
-
上传本地超大文件(5GB以上)至JupyterLab - AI开发平台ModelArts
通过OBS下载文件到Notebook中时,提示Permission denied。请依次排查: 请确保读取的OBS桶和Notebook处于同一站点区域,例如:都在华北-北京四站点。不支持跨站点访问OBS桶。 请确认操作Notebook的账号有权限读取OBS桶中的数据。 具体请参见ModelArts中提示OBS路径错误。
-
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接 - AI开发平台ModelArts
Code打开后未进行远程连接 若本地为Linux系统,见原因分析二。 原因分析一 自动安装VS Code插件ModelArts-HuaweiCloud失败。 解决方法一 方法一:检查VS Code网络是否正常。在VS Code插件市场上搜索ModelArts-HuaweiCloud,若显示如
-
连接远端开发环境时,一直处于"ModelArts Remote Connect: Connecting to instance xxx..."超过10分钟以上,如何解决? - AI开发平台ModelArts
解决方法 单击“Canel”,并回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。 父主题: VS Code连接开发环境失败常见问题
-
创建相同帐户下的VPC对等连接 - AI开发平台ModelArts
创建相同帐户下的VPC对等连接 对等连接是建立在两个VPC之间的网络连接,不同VPC之间网络不通,通过对等连接可以实现同一个区域下的不同VPC之间的云上内网通信。 本章节指导用户创建相同帐户下的VPC对等连接,即连通的两个VPC位于同一个帐户下。 详细操作请参见:创建相同帐户下的对等连接。
-
GP Ant1裸金属服务器支持的镜像详情 - AI开发平台ModelArts
GP Ant1裸金属服务器支持的镜像详情 镜像:EulerOS纯净版 镜像名称:EulerOS2.10 x86 64bit sdi3 for Ant1 BareMetal 表1 镜像详情 软件类型 版本详情 操作系统 EulerOS 2.10 64bit 架构类型 x86 RoCE路由配置