检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CANN 8.0.RC3 MindSpore Lite 2.3.0 OS arm 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.910-xxx.zip软件包中的AscendCloud-CV-6.3.910-xxx.zip 说明:
cann_8.0.rc3 驱动 24.1.rc1 PyTorch 2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.912-xxx.zip软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 说明:
版本 driver 23.0.6 PyTorch pytorch_2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.912-xxx.zip软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 说明:
用户自定义镜像自建的conda环境会查到一些额外的包,影响用户程序,如何解决? 问题现象 用户的自定义镜像运行在Notebook里会查到一些额外的pip包。如下图所示,左侧为自定义镜像运行在本地环境,右侧为运行在Notebook里。 可能原因 Notebook自带moxing、m
训练作业找不到GPU 问题现象 训练作业运行出现如下报错: failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected 原因分析 根据错误信息判断,报错原因为训练作业运行程序读取不到GPU。
ModelArts开发环境界面上,查询所有用户的实例列表,适用于给开发环境的实例管理员配置该权限。 IAM iam:users:listUsers VSCode插件(本地)/ PyCharm Toolkit(本地) ModelArts modelarts:notebook:listAllNotebooks
版本 driver 23.0.6 PyTorch pytorch_2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.910-xxx.zip软件包中的AscendCloud-AIGC-6.3.910-xxx.zip 说明:
模型某一层的参数得到梯度后会马上进行通讯并进行梯度平均。 各GPU更新模型参数。 具体流程图如下: 图1 多机多卡数据并行训练 代码改造点 引入多进程启动机制:初始化进程 引入几个变量:tcp协议,rank进程序号,worldsize开启的进程数量 分发数据:DataLoader中多了一个Sampler参数,避免不同进程数据重复
日志提示"write line error" 问题现象 在程序运行过程中,刷出大量错误日志“[ModelArts Service Log]modelarts-pipe: write line error”。并且问题是必现问题,每次运行到同一地方的时候,出现错误。 原因分析 出现该问题的可能原因如下:
该规格售罄创建失败。 建议您在创建界面更换规格重新创建资源池。 为什么无法使用资源池节点上的全部CPU资源? 由于资源池节点上会安装系统、插件等内容,因此不能完全使用所有资源。例如:资源池节点是8U,节点分配给系统组件部分CPU,可用的资源会小于8U。 建议您在启动任务前,在该资
准备模型训练镜像 ModelArts平台提供了Tensorflow,PyTorch,MindSpore等常用深度学习任务的基础镜像,镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时,您还可以基于这些基础镜像制作一个新的镜像并进行训练。 训练作业的预置框架介绍
版本 driver 23.0.6 PyTorch pytorch_2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.911-xxx.zip软件包中的AscendCloud-AIGC-6.3.911-xxx.zip 说明:
日志提示"No CUDA-capable device is detected" 问题现象 在程序运行过程中,出现如下类似错误。 1.‘failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected’
装配置,即开即用。 Jupyterlab简介及常用操作 案例教程 本地IDE(PyCharm) ModelArts提供了一个PyCharm插件工具PyCharm ToolKit,协助用户完成代码上传、提交训练作业、将训练日志获取到本地展示等,用户只需要专注于本地的代码开发即可。 使用PyCharm
如何在Notebook中安装外部库? ModelArts Notebook中已安装Jupyter、Python程序包等多种环境,包括TensorFlow、MindSpore、PyTorch、Spark等。您也可以使用pip install在Notobook或Terminal中安装外部库。
例的开发环境。 实例在停止状态时,用户可以在Notebook详情页中更新SSH的配置信息。 说明: 开启此功能的实例中会预置VS Code插件(python、jupyter等)以及VS Code Server包,会占用约1G左右的持久化存储空间。 “密钥对” 开启“SSH远程开发”功能后,需要设置此参数。
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象 在Vnt1 GPU裸金属服务器(Ubuntu18.04系统),安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc
训练专属预置镜像列表 ModelArts平台提供了Tensorflow,PyTorch,MindSpore等常用深度学习任务的基础镜像,镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时,您可以基于这些基础镜像制作一个新的镜像并进行训练。 训练基础镜像列表
如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic? 场景描述 Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic。 操作指导 检查当前内核版本。 uname -r 升级内核 apt-get install linux-headers-5
Lite Server使用流程 ModelArts Lite Server提供多样化的xPU裸金属服务器,赋予用户以root账号自主安装和部署AI框架、应用程序等第三方软件的能力,为用户打造专属的云上物理服务器环境。用户只需轻松选择服务器的规格、镜像、网络配置及密钥等基本信息,即