-
示例:从0到1制作自定义镜像并用于训练(Horovod-PyTorch+GPU) - AI开发平台ModelArts
1-ofed-cuda11.1 Step5 上传镜像至SWR服务 登录容器镜像服务控制台,选择区域,要和ModelArts区域保持一致,否则无法选择到镜像。 单击右上角“创建组织”,输入组织名称完成组织创建。请自定义组织名称,本示例使用“deep-learning”,下面的命令中涉及到组织名称“deep-
-
将AI应用发布到ModelArts模型管理 - AI开发平台ModelArts
将AI应用发布到ModelArts模型管理 AI应用开发并调试完成后,开发者可以将AI应用服务到ModelArts AI应用管理模块,然后在ModelArts的推理平台进行应用的生产部署。发布AI应用包含了应用打包、构建镜像和发布这三个步骤。 打包AI应用 构建镜像 发布和部署AI应用
-
NPU Snt9B裸金属服务器docker网络配置方案 - AI开发平台ModelArts
ip_forward 以上命令含义为:Linux系统默认是禁止数据包转发的,转发即当主机拥有多于一块的网卡时,一块网卡收到数据包并根据数据包的目的ip地址将数据包发往本机另一块网卡。由于从外部访问容器内部时需要访问宿主机的地址和对应的容器映射的地址,访问的数据包到宿主机上后经过ip包解析后通
-
NPU Snt9裸金属服务器支持的镜像详情 - AI开发平台ModelArts
NPU Snt9裸金属服务器支持的镜像详情 镜像:EulerOS纯净版 镜像名称:ModelArts-Euler2.8_Aarch64_Snt9_C78 表1 镜像详情 软件类型 版本详情 操作系统 EulerOS 2.0 (SP8) 内核版本 4.19.36-vhulk1907
-
GPU A系列裸金属服务器没有任务,GPU被占用问题 - AI开发平台ModelArts
GPU A系列裸金属服务器没有任务,GPU被占用问题 问题现象 服务器没有任务,但GPU显示被占用。 图1 显卡运行状态 处理方法 nvidia-smi -pm 1 父主题: FAQ
-
准备镜像 - AI开发平台ModelArts
Step3 创建镜像组织 在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step4 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中复制临时登录指令,即可完成登录。 图3 复制登录指令 Step5 获取训练镜像
-
准备镜像 - AI开发平台ModelArts
Step3 创建镜像组织 在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step4 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中复制临时登录指令,即可完成登录。 图3 复制登录指令 Step5 获取推理基础镜像
-
示例:从 0 到 1 制作自定义镜像并用于训练(MindSpore+Ascend) - AI开发平台ModelArts
示例:从 0 到 1 制作自定义镜像并用于训练(MindSpore+Ascend) 场景描述 Step1 创建OBS桶和文件夹 Step2 准备脚本文件并上传至OBS中 Step3 制作自定义镜像 Step4 上传镜像至SWR Step5 在ModelArts上创建Notebook并调试
-
使用GPU A系列裸金属服务器有哪些注意事项? - AI开发平台ModelArts
使用GPU A系列裸金属服务器有哪些注意事项? 使用华为云A系列裸金属服务器时有如下注意事项: nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致,可参考GP Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 515+CUDA
-
GP Vnt1裸金属服务器支持的镜像详情 - AI开发平台ModelArts
GP Vnt1裸金属服务器支持的镜像详情 GP Vnt1规格在北京四、北京一和上海一虽然规格相同,但是产品的配置、发布时间都存在很大差异,因此镜像不能共用。 镜像1:Ubuntu18.04 纯净版(仅限于北京四) 镜像名称:Ubuntu-18.04-server-64bit-for-Vnt1-BareMetal
-
GPU A系列裸金属服务器RoCE带宽不足问题解决方法 - AI开发平台ModelArts
conf至/etc/infiniband/中或nv_peer_mem不在/etc/init.d/中。 若找不到相关文件的问题,可以搜索相关文件在哪里,然后复制到指定目录,例如可执行如下命令: cp /tmp/nvidia-peer-memory-1.3/nv_peer_mem.conf /etc/infiniband/
-
准备数据 - AI开发平台ModelArts
准备数据 使用ModelArts自动学习构建模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域。 数据上传至OBS 在本文档中,采用管理控制台上传数据至OBS。 执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。 登录OBS管理控
-
NPU Snt9B裸金属服务器支持的镜像详情 - AI开发平台ModelArts
Snt9B裸金属服务器支持的镜像详情 镜像名称:EulerOS-2.10-Arm-rc3-64bit-for-Snt9B-BareMetal-with-CANN7.0.RC1 表1 镜像详情 软件类型 版本详情 操作系统 EulerOS 2.10 内核版本 Linux 4.19.90-vhulk2211
-
GPU A系列裸金属服务器节点内NVLINK带宽性能测试方法(Pytorch模式) - AI开发平台ModelArts
manager, 重装后再测试又恢复到了正式模式,GPU0和GPU4之间带宽恢复到370GB/s。 可能原因如下,仅供参考: 驱动程序问题:可能是由于驱动程序没有正确安装或配置,导致NVLINK带宽受限。重新安装nvidia驱动、CUDA和nvidia-fabricmanager
-
准备数据 - AI开发平台ModelArts
准备数据 使用ModelArts自动学习构建模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域。 数据上传至OBS 在本文档中,采用管理控制台上传数据至OBS。 执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。 登录OBS管理控
-
推理服务端到端运维 - AI开发平台ModelArts
推理服务的端到端运维流程图 整个运维过程会对服务请求失败和资源占用过高的场景进行监控,当超过阈值时发送告警通知。 图2 监控告警流程图 方案优势 通过端到端的服务运维配置,可方便地查看业务运行高低峰情况,并能够实时感知在线服务的健康状态。 约束限制 端到端服务运维只支持在线服务,因为推
-
GP Ant8裸金属服务器支持的镜像详情 - AI开发平台ModelArts
GP Ant8裸金属服务器支持的镜像详情 镜像1:Ubuntu20.04 With Nvidia Driver 525 镜像名称:Ubuntu 20.04 x86 64bit SDI3 for Ant8 BareMetal with RoCE and NVIDIA-525 CUDA-12
-
Step5 在ModelArts上创建Notebook并调试 - AI开发平台ModelArts
Step5 在ModelArts上创建Notebook并调试 将上传到SWR上的镜像注册到ModelArts的镜像管理中。 登录ModelArts管理控制台,在左侧导航栏中选择“镜像管理 ”,单击“注册镜像”,根据界面提示注册镜像。注册后的镜像可以用于创建Notebook。 在N
-
预训练 - AI开发平台ModelArts
预训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中,具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置 以llama2-13b预训练为例,执行脚本0_pl_pretrain_13b
-
SFT全参微调训练 - AI开发平台ModelArts
SFT全参微调训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中,具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置 以llama2-13b SFT微调为例,执行脚本 0_pl_sft_13b