-
使用ma-cli ma-job get-flavor命令查询ModelArts训练资源规格 - AI开发平台ModelArts
使用ma-cli ma-job get-flavor命令查询ModelArts训练资源规格 执行ma-cli ma-job get-flavor命令查询ModelArts训练的资源规格。 $ ma-cli ma-job get-flavor -h Usage: ma-cli ma-job
-
使用ma-cli dli-job get-log命令查询DLI Spark运行日志 - AI开发平台ModelArts
使用ma-cli dli-job get-log命令查询DLI Spark运行日志 执行ma-cli dli-job get-log命令查询DLI Spark作业后台的日志。 $ ma-cli dli-job get-log -h Usage: ma-cli dli-job get-log
-
使用ma-cli dli-job get-resource命令查询DLI 分组资源 - AI开发平台ModelArts
使用ma-cli dli-job get-resource命令查询DLI 分组资源 执行ma-cli dli-job get-resource命令获取DLI资源详细信息,如资源名称,资源类型等。 $ ma-cli dli-job get-resource -h Usage: ma-cli
-
报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exitng now.”如何解决? - AI开发平台ModelArts
报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exitng now.”如何解决? 问题现象 或 原因分析 可能为/home/ma-user/work磁盘空间不足。 解决方法 删除
-
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决? - AI开发平台ModelArts
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决? 问题现象 报错“Bad owner or permissions
-
使用ma-cli ma-job get-event命令查询ModelArts训练作业事件 - AI开发平台ModelArts
使用ma-cli ma-job get-event命令查询ModelArts训练作业事件 执行ma-cli ma-job get-event命令查看ModelArts训练作业事件。 $ ma-cli ma-job get-event -h Usage: ma-cli ma-job
-
使用ma-cli ma-job get-engine命令查询ModelArts训练AI引擎 - AI开发平台ModelArts
使用ma-cli ma-job get-engine命令查询ModelArts训练AI引擎 执行ma-cli ma-job get-engine命令查询ModelArts训练使用的AI引擎。 $ ma-cli ma-job get-engine -h Usage: ma-cli ma-job
-
昇腾迁移融合算子API替换样例 - AI开发平台ModelArts
昇腾迁移融合算子API替换样例 部分torch原生的API在下发和执行时会包括多个小算子,下发和执行耗时较长,可以通过替换成NPU API来使能融合算子,提升训练性能。 API替换总览 •torch_npu.optim.NpuFusedAdamW •optimizer.clip_grad_norm_fused_
-
NVIDIA和CUDA驱动安装指南 - AI开发平台ModelArts
NVIDIA和CUDA驱动安装指南 场景描述 本文介绍如何华为云裸金属服务器中安装NVIDIA和CUDA驱动(以Ant8规格为例)。 1、安装NVIDIA驱动 打开NVIDIA官方网站。 根据Ant8的详细信息和您所需的cuda版本选择驱动 图1 驱动选择 选择后会自动出现Driver版本并下载,或者直接。
-
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
-
在lite资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts
在lite资源池上使用Snt9B完成推理任务 场景描述 本案例介绍如何在Snt9B上使用deployment部署在线在推理服务。 操作步骤 拉取镜像。本测试镜像为bert_pretrain_mindspore:v1,已经把测试数据和代码打进镜像中。 docker pull swr
-
GP Ant8裸金属本地盘实现软RAID5的解决方案 - AI开发平台ModelArts
GP Ant8裸金属本地盘实现软RAID5的解决方案 场景描述 本文介绍GP Ant8裸金属服务器使用本地盘实现软RAID5的解决方案,该方案保障了本地盘数据的可靠性,当其中一块硬盘故障时,备份硬盘可自动恢复数据。 RAID1:同时对2个硬盘读写(同样的数据),强调数据的绝对安全
-
NPU Snt9B裸金属服务器多机批量执行命令 - AI开发平台ModelArts
NPU Snt9B裸金属服务器多机批量执行命令 场景描述 在使用NPU Snt9B裸金属服务器进行多机训练/推理作业时,往往需要将多机的环境配置的完全一致。如果逐台登录主机,逐台使用环境配置脚本来配置,虽然可以完成任务,但是效率低下。为了提高效率,本文介绍如何在单节点通过脚本方式实现多台主机批量执行命令。
-
训练运行报错AttributeError: 'torch - AI开发平台ModelArts
训练运行报错AttributeError: 'torch_npu._C._NPUDeviceProperties' object has no attribute 'multi_processor_count' 问题现象 训练运行报错“AttributeError: 'torch_npu
-
使用ModelArts的exporter功能在Prometheus查看监控数据 - AI开发平台ModelArts
使用ModelArts的exporter功能在Prometheus查看监控数据 背景信息 Prometheus是一款开源监控工具,ModelArts支持Exporter功能,方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。 使用说明 该功能
-
GP Ant8裸金属本地磁盘合并挂载至指定目录并设置开机启动自动挂载 - AI开发平台ModelArts
GP Ant8裸金属本地磁盘合并挂载至指定目录并设置开机启动自动挂载 场景描述 本文介绍如何将GP Ant8裸金属服务器本地磁盘合并挂载至指定目录并设置开机启动自动挂载。 操作步骤 首次配置环境时,需要先处理磁盘分配,这样可以把机器上几个T的空间用起来。这一步操作放在最开始,避免
-
同样功能的PyTorch Pipeline,因为指导要求适配onnx pipeline,两个pipeline本身功能就有差别,如何适配? - AI开发平台ModelArts
同样功能的PyTorch Pipeline,因为指导要求适配onnx pipeline,两个pipeline本身功能就有差别,如何适配? 由于Diffusers社区的“single model file policy”设计原则,不同的pipeline是不同路径在独立演进的。先确保
-
示例:从 0 到 1 制作自定义镜像并用于训练(MindSpore+Ascend) - AI开发平台ModelArts
示例:从 0 到 1 制作自定义镜像并用于训练(MindSpore+Ascend) 场景描述 Step1 创建OBS桶和文件夹 Step2 准备脚本文件并上传至OBS中 Step3 制作自定义镜像 Step4 上传镜像至SWR Step5 在ModelArts上创建Notebook并调试
-
GP Ant8裸金属服务器使用Megatron-Deepspeed训练GPT2并推理 - AI开发平台ModelArts
GP Ant8裸金属服务器使用Megatron-Deepspeed训练GPT2并推理 场景描述 本文将介绍在GP Ant8裸金属服务器中, 使用Megatron-Deepspeed框架训练GPT-2(分别进行单机单卡和单机多卡训练)。 训练完成后给出自动式生成内容,和交互式对话框模式。
-
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口 - AI开发平台ModelArts
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口 原因分析 未安装VS Code或者安装版本过低。 解决方法 下载并安装VS Code(Windows用户请单击“Win”,其他用户请单击“其他”下载),安装完成后单击“刷新”完成连接。