-
GPU裸金属服务器环境配置 - AI开发平台ModelArts
GPU裸金属服务器环境配置 GP Vnt1裸金属服务器EulerOS 2.9安装NVIDIA 515+CUDA 11.7 GP Vnt1裸金属服务器Ubuntu 18.04安装NVIDIA 470+CUDA 11.4 GP Vnt1裸金属服务器的Docker模式环境搭建 GP Ant8裸金属服务器Ubuntu
-
报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决? - AI开发平台ModelArts
'或者'Port forwarding is disabled.”如何解决? 问题现象 或 原因分析 Notebook实例重新启动后,公钥发生变化,OpenSSH核对公钥发出警告。 解决方法 在VS Code中使用命令方式进行远程连接时,增加参数"-o StrictHostKeyChecking=no"
-
本地IDE操作流程 - AI开发平台ModelArts
创建训练作业,上云训练,调用SDK创建训练作业的操作请参见调用SDK创建训练作业。 可以基于PyCharm ToolKit直接提交训练作业,具体参考使用PyCharm ToolKit提交训练作业。 也可以通过调用ModelArts提供的SDK,创建训练作业,上云训练,调用SDK
-
弹性裸金属切换操作系统 - AI开发平台ModelArts
在裸金属服务中的更多选项中如下图所示点击切换操作系统 图2 选择操作系统 在切换操作系统界面,选择上一步接收到的共享镜像即可。 图3 选择镜像 父主题: DevServer资源使用
-
环境准备 - AI开发平台ModelArts
ModelArts开发环境针对推理昇腾迁移的场景提供了云上可以直接访问的开发环境,具有如下优点: 利用云服务的资源使用便利性,可以直接使用到不同规格的昇腾设备。 通过指定对应的运行镜像,可以直接使用预置的、在迁移过程中所需的工具集,且已经适配到最新的版本可以直接使用。 开发者可以通过浏览器入口一Notebook方
-
NPU Snt9B裸金属服务器算力查询 - AI开发平台ModelArts
NPU Snt9B裸金属服务器算力查询 场景描述 本文介绍如何在Snt9B裸金属服务器查询对应算力。 操作步骤 Snt9B裸金属服务器执行如下命令进行查看,然后查看表1对应型号算力即可。 npu-smi info 结果如下图所示,name列为B1型号,根据表格可得B1的理论算力为400T。
-
在Linux上安装配置Grafana - AI开发平台ModelArts
购买弹性公网IP,并绑定到购买的弹性云服务器ECS上,具体操作请参见《弹性公网IP快速入门》。 操作步骤 将本地命令拷贝至ECS服务器请参考如下方法: 在ECS桌面单击“复制粘贴”,使用快捷键“Ctrl+V”将命令粘贴至窗口中并单击“发送”,将复制的命令发送至命令行窗口,如下图所示。 图3 复制粘贴按钮
-
安装VS Code软件及插件 - AI开发平台ModelArts
选择区域:例如“上海一”。此处的区域必须和远程连接的Notebook在同一个区域,否则插件无法显示需要连接的实例列表。 登录成功后显示Notebook实例列表。 图10 登录成功 如果该账号下还没有创建过远程连接的实例,则列表显示为空。需要参考创建云上开发环境创建实例后,在插件刷新后即可显示实例列表。
-
NPU Snt9B集合通信算子单机多卡性能测试指导 - AI开发平台ModelArts
RC1。该镜像已经安装CANN和mpich,并进行了环境配置,若选择其他镜像需要先执行步骤1和2。 操作步骤 安装cann-toolkit。下载Ascend-cann-toolkit_6.3.T205_linux-aarch64.run,并执行: ./Ascend-cann-toolkit_6
-
VS Code ToolKit连接Notebook - AI开发平台ModelArts
H远程连接图标,表示VS Code插件安装完成。 图3 安装完成提示 图4 安装完成 当前网络不佳时SSH远程连接插件可能未安装成功,此时无需操作,在Step4 连接Notebook实例的1之后,会弹出如下图对话框,单击Install and Reload即可。 图5 重新连接远程SSH
-
NPU Snt9B RoCE网卡带宽测试指导方案 - AI开发平台ModelArts
192.168.100.18 -tcp RoCE测试结果如图: 图2 RoCE测试结果(接收端) 图3 RoCE测试结果(服务端) 当某网卡已经开始RoCE带宽测试时,再次启动任务会有如下报错: 图4 报错信息 需要执行下述命令后关闭roce_test任务后再启动任务。 hccn_tool
-
GPU裸金属服务器使用EulerOS内核误升级解决方案 - AI开发平台ModelArts
5.1.6.h934.eulerosv2r9.x86_64 下安装的nvidia-driver-515,由于执行了yum update并reboot服务器, 发现再次执行nvidia命令时报错: [root@devserver-ddff ~]# nvidia-smi NVIDIA-SMI
-
NPU Snt9B集合通信算子多机多卡性能测试指导 - AI开发平台ModelArts
算子编译完成后显示内容: 图2 算子编译完成 测试通信算子。在主节点中执行以下命令。 多机all_reduce_test cd /usr/local/Ascend/ascend-toolkit/latest/tools/hccl_test 多机多卡测试执行如下命令: mpirun -f
-
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts
原因分析 经过对裸金属服务器排查,发现nvidia-drvier和cuda都已安装,并且正常运行。nvidia-fabricmanager服务可以使单节点GPU卡间互联,在多卡GPU机器上,出现这种问题可能是nvidia-fabricmanger异常导致。 执行以下命令,查看NVI
-
NPU Snt9B裸金属服务器多机批量执行命令 - AI开发平台ModelArts
该命令的含义为:在hostlist文件中的每台机器分别执行runnn.sh脚本。效果如下: 图2 执行doCommand.sh 可以将环境配置的脚本放在信任节点上,并将其作为doCommand.sh执行时的参数。 ./doCommand.sh "环境配置脚本" 这样就实现了在单机上,对多机批量执行环境配置脚本了。 父主题:
-
NPU Snt9B裸金属服务器安装深度学习框架PyTorch - AI开发平台ModelArts
本文使用ModelArts上的NPU Snt9B裸金属服务器以及其提供的昇腾镜像EulerOS-2.10-Arm-rc3-64bit-for-Snt9B-BareMetal-with-CANN7.0.RC1,具体镜像环境可参考NPU Snt9B裸金属服务器支持的镜像详情。该Snt9B资源中的Python环境为3
-
Step1 准备Docker机器并配置环境信息 - AI开发平台ModelArts
议申请一台弹性云服务器并购买弹性公网IP,并在准备好的机器上安装必要的软件。 ModelArts提供了ubuntu系统的脚本,方便安装docker。 本地Linux机器的操作等同ECS服务器上的操作,请参考本案例。 创建ECS服务器 登录ECS控制台,购买弹性云服务器,镜像选择公共镜像,推荐使用ubuntu18
-
裸金属服务器支持IPV6解决方案 - AI开发平台ModelArts
裸金属服务器支持IPV6解决方案 场景描述 本文旨在介绍裸金属服务器支持IPV6所需配置。裸金属服务器支持IPV6需要依赖规格、镜像、子网、安全组,对这些依赖项设置完成后,即可以在该裸金属服务上使用IPV6进行网络通信。 操作步骤 确认裸金属服务器规格支持IPV6。需要确保要购买
-
PyCharm手动连接Notebook - AI开发平台ModelArts
境。可以执行pip install安装所需要的包。 Step5 在开发环境中调试代码 由于已经连接至云端开发环境,此时可以方便的在本地PyCharm中编码、调测并运行。运行实际环境为云上开发环境,资源为云上昇腾AI处理器资源。可以做到本地编写修改代码,直接在云上环境运行。 像本地
-
部署本地服务进行调试 - AI开发平台ModelArts
Notebook部署本地服务。 本地服务Predictor和在线服务Predictor说明 部署本地服务Predictor,即将模型文件部署在本地,其环境规格取决于本地;例如在一个modelarts.vm.cpu.2u的Notebook中,部署本地Predictor,其运行环境就是cpu.2u。 部署在