-
WebSocket在线服务全流程开发 - AI开发平台ModelArts
优先验证自定义镜像提供的websocket服务的情况,不同的工具实现的websocket服务会有不同,可能出现连接建立后维持不住,可能出现请求一次后连接就中断需要重新连接的情况,ModelArts平台只保证,未上ModelArts前自定义镜像的websocket的形态跟上了Model
-
GP Ant8裸金属服务器使用Megatron-Deepspeed训练GPT2并推理 - AI开发平台ModelArts
Megatron-Deepspeed是一个由NVIDIA开发的基于PyTorch的深度学习模型训练框架。它结合了两个强大的工具:Megatron-LM和DeepSpeed,可在具有分布式计算能力的系统上进行训练,并且充分利用了多个GPU和深度学习加速器的并行处理能力。可以高效地训练大规模的语言模型。 Megatro
-
方案概述 - AI开发平台ModelArts
Notebook等线上开发工具工程化开发体验不如IDE,但是本地开发服务器等资源有限,运行和调试环境大多使用团队公共搭建的CPU或GPU服务器,并且是多人共用,这带来一定的环境搭建和维护成本。因此使用本地IDE+远程Notebook结合的方式,可以同时享受IDE工程化开发和云上资源的即开即用,优势互补,满足开发者需求。
-
使用SFS盘出现报错rpc - AI开发平台ModelArts
但有时候会出现读取速度变慢的现象,并且SFS提示报错"rpc_check_timeout:939 callbacks suppressed"。 原因分析 根据SFS客户端日志分析出现问题的时间点发现,SFS盘连接的客户端个数较多,在问题的时间点并发读取数据,I/O超高;当前SFS服务端的机制是:当
-
准备镜像 - AI开发平台ModelArts
准备训练Llama2-13B模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像 swr
-
准备镜像 - AI开发平台ModelArts
创建镜像组织 Step6 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中复制临时登录指令,即可完成登录。 图4 复制登录指令 Step7 上传镜像 在ECS服务器中输入Step4登录指令后,使用下列示例命令将Standard镜像上传至SWR。
-
NPU Snt9B集合通信算子多机多卡性能测试指导 - AI开发平台ModelArts
前提条件 确保主节点已经配置了其他节点机器的免密登录,配置方法参考NPU Snt9B裸金属服务器多机免密互通解决方案。 确保mpirun的安装路径都是相同的。 确保设置的hostfile文件位于主节点中,且配置格式如下所示。 # 训练节点ip:每节点的进程数 192.168.1.1:8 图1
-
NPU Snt9B RoCE网卡带宽测试指导方案 - AI开发平台ModelArts
RC1,该镜像已经安装CANN和mpich,并完成了环境配置。 操作步骤 多机RoCE网卡带宽测试。 执行以下命令查看昇腾的RoCE IP: cat /etc/hccn.conf 图1 查看昇腾的RoCE IP RoCE测试。 在Session1:在接收端执行 -i卡id。 hccn_tool -i
-
作为调用发起方的客户端无法访问已经获取到的推理请求地址 - AI开发平台ModelArts
作为调用发起方的客户端无法访问已经获取到的推理请求地址 问题现象 完成在线服务部署且服务处于“运行中”状态后,已经通过调用指南页面的信息获取到调用的server端地址,但是调用发起方的客户端访问该地址不通,出现无法连接、域名无法解析的现象。 原因分析 在调用指南页签中显示的调用地址都是华
-
NPU Snt9B集合通信算子单机多卡性能测试指导 - AI开发平台ModelArts
Snt9B集合通信算子单机多卡性能测试指导 场景描述 本文介绍如何使用在NPU Snt9B服务器上进行集合通信算子性能测试,包括的集合通信算子:allreduce、reducescatter、allgather、all2all。 本文选择的服务器镜像是:EulerOS-2.10-Arm-rc3-64bit-
-
连接云上开发环境 - AI开发平台ModelArts
例详情,单击“连接”按钮进行远程连接。如果Notebook实例是停止状态,连接时VSCode插件会先启动实例再进行连接。 图3 连接Notebook实例 第一次连接Notebook时,系统右下角会提示需要先配置密钥文件。选择本地密钥pem文件(必须放在用户家目录下的.ssh文件夹下),根据系统提示单击“OK”。
-
关闭和开启RoCE网卡网口 - AI开发平台ModelArts
开启昇腾RoCE网卡网口 查询RoCE网卡的IP,记录address_0地址。 cat /etc/hccn.conf 图1 查询RoCE网卡的IP 由于hccn_tool没有直接up的命令,因此需要执行以下命令,重新配置一个RoCE网卡的IP,address为步骤1查询的IP。 hccn_tool
-
部署为在线服务 - AI开发平台ModelArts
时停止。 您可以前往在线服务列表,查看在线服务的基本情况。在线服务列表中,刚部署的服务“状态”为“部署中”,当在线服务的“状态”变为“运行中”时,表示服务部署完成。 父主题: 部署AI应用(在线服务)
-
使用前须知 - AI开发平台ModelArts
DevServer存在以下使用限制: 切换或者重置操作系统后,ModelArts Lite DevServer服务器的EVS系统盘将不支持扩容 服务器在进行过“切换或者重置操作系统”操作后,EVS系统盘ID发生变化,和下单时订单中的EVS ID已经不一致, 因此EVS系统盘无法扩容,并显示信息:"当前订单已到期
-
配额说明 - AI开发平台ModelArts
配额说明 本服务应用的基础设施如下: 弹性云服务器 云硬盘 虚拟私有云 云容器引擎 其配额查看及修改请参见关于配额。
-
查看CPU - AI开发平台ModelArts
物理CPU:插在裸金属服务器上的真实的CPU硬件,一般一台裸金属服务器都会配置2块及以上的物理CPU。 CPU核心数:随着CPU技术的发展,现在的每一块物理CPU都是多核的CPU处理器,多核处理器其中的核就是指的核心数,一般一块英特尔的CPU都会支持32核心或者更高。因此裸金属服务的核心数为:物理CPU数目*CPU核心数
-
弹性裸金属切换操作系统 - AI开发平台ModelArts
操作系统动作。 在裸金属服务中的更多选项中如下图所示点击切换操作系统 图2 选择操作系统 在切换操作系统界面,选择上一步接收到的共享镜像即可。 图3 选择镜像 父主题: DevServer资源使用
-
删除DevServer实例 - AI开发平台ModelArts
SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 service String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 uri String 实例私有IP地址。 表6 ServerImageResponse
-
停止DevServer实例 - AI开发平台ModelArts
SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 service String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 uri String 实例私有IP地址。 表6 ServerImageResponse
-
启动DevServer实例 - AI开发平台ModelArts
SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 service String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 uri String 实例私有IP地址。 表7 ServerImageResponse