搜索_华为云

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

initialize NVML: Driver/library version mismatch 处理方法执行命令：lsmod | grep nvidia，查看内核中是否残留旧版nvidia，显示如下： nvidia_uvm 634880 8 nvidia_drm

帮助中心 > AI开发平台ModelArts > ModelArts Lite用户指南 > 弹性裸金属DevServer > FAQ
扩缩容资源池 - AI开发平台ModelArts

空间大小”，修改容器引擎空间大小。方式二：单击某个资源池操作列的“扩缩容”，修改容器引擎空间大小。修改容器引擎空间大小仅作用在新建节点上，且会导致资源池内该规格下节点的dockerBaseSize不一致，可能会使得部分任务在不同节点的运行情况不一致。图3 修改容器引擎空间大小（规格页签界面）

帮助中心 > AI开发平台ModelArts > 资源管理 > 弹性集群
PyCharm手动连接Notebook - AI开发平台ModelArts

单击右侧文件夹图标，勾选上“Automatically upload”选项，以便于本地修改的文件自动上传到容器环境中。单击“Finish”，结束配置。可以看到本地的工程文件已经自动往云上环境上传了。后续本地的文件每修改一次，都会自动的同步到云上的环境中。右下角可以看到当前的Interpreter为Remote

帮助中心 > AI开发平台ModelArts > 开发环境 > 本地IDE > 本地IDE（PyCharm）
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

新安装的包与镜像中带的CUDA版本不匹配。处理方法必现的问题，使用本地Pycharm远程连接Notebook调试安装。先远程登录到所选的镜像，使用“nvcc -V”查看目前镜像自带的CUDA版本。重装torch等，需要注意选择与上一步版本相匹配的版本。建议与总结在创建训练作业前，推荐您先使用Mode

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
预训练任务 - AI开发平台ModelArts

表示开始训练。训练过程中，训练日志会在最后的Rank节点打印。图1 等待模型载入更多查看训练日志和性能操作，请参考查看日志和性能章节。如果需要使用断点续训练能力，请参考断点续训练章节修改训练脚本。父主题：预训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型 > Baichuan2-13B基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
VS Code连接开发环境失败时，请先进行基础问题排查 - AI开发平台ModelArts

StrictHostKeyChecking no UserKnownHostsFile /dev/null ForwardAgent yes 查看密钥文件，建议放在C:\Users\xx.ssh下，并确保密钥文件无中文字符。如果还未解决，请参考后续章节的FAQ处理。父主题： VS

帮助中心 > AI开发平台ModelArts > 常见问题 > Notebook > VS Code连接开发环境失败常见问题
为什么资源充足还是在排队？ - AI开发平台ModelArts

业或实例上，判断是否使用了专属资源池。如判断相关作业或实例可停止，则可以停止，释放出更多的资源。图1 总览单击进入专属资源池详情页面，查看作业列表。观察队头是否有其他作业在排队，如果已有作业在排队，则新建的作业需要继续等待。图2 作业排队列表如果通过排查计算，发现资源确

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
Step3 注册新镜像 - AI开发平台ModelArts

完成后即可在SWR上看到该镜像。图1 将镜像推到SWR SWR地址，包括{局点信息}/{组织名称}/{镜像名称}:{版本名称}，局点信息可以参考下图查看，组织名称在“容器镜像服务>组织管理”创建。注册镜像在ModelArts Console上注册镜像登录ModelArts控制台，在左

 帮助中心 > AI开发平台ModelArts > 镜像管理 > Notebook中使用自定义镜像 > 在ECS上构建自定义镜像并在Notebook中使用
训练的权重转换说明 - AI开发平台ModelArts

d_dir_for_output/llama2-13b/saved_models/pretrain_hf/目录下查看转换后的权重文件。用户自定义执行权重转换参数修改说明同样以 llama2 为例，用户可在Notebook直接编辑scripts/llama2/2_convert_mg_hf

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

用户选择了1/2/4卡这些规格的作业，然后设置了CUDA_VISIBLE_DEVICES=‘1’这种类似固定的卡ID号，与实际选择的卡ID不匹配。处理方法尽量代码里不要去修改CUDA_VISIBLE_DEVICES变量，用系统默认里面自带的。如果必须指定卡ID，需要注意一下1/2/4规格下，指定的卡ID与实际分配的卡ID不匹配的情况。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
训练中的权重转换说明 - AI开发平台ModelArts

_dir_for_output/llama2-13b/saved_models/pretrain_hf/ 目录下查看转换后的权重文件。用户自定义执行权重转换参数修改说明同样以 llama2 为例，用户可直接编辑 scripts/llama2/2_convert_mg_hf.sh

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
Step1 在Notebook中拷贝模型包 - AI开发平台ModelArts

在Terminal终端中解压model.zip 在Terminal运行界面，执行拷贝命令。查看镜像文件拷贝成功。 cp -rf model/* /home/ma-user/infer/model/1 图4 查看镜像文件拷贝成功模型包文件样例模型包文件model.zip中需要用户自己准备

 帮助中心 > AI开发平台ModelArts > 镜像管理 > 使用自定义镜像创建AI应用（推理部署） > 无需构建直接在开发环境中调试并保存镜像用于推理
训练过程中无法找到so文件 - AI开发平台ModelArts

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64 执行如下命令，查看训练环境的cuda版本，确认当前cuda版本是否支持so文件。 os.system("cat /usr/local/cuda/version

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
训练作业自定义镜像规范 - AI开发平台ModelArts

/Ascend/driver目录。 X86 CPU架构，ARM CPU架构的自定义镜像分别只能运行于对应CPU架构的规格中。执行如下命令查看自定义镜像的CPU架构 docker inspect {自定义镜像地址} | grep Architecture ARM CPU架构的自定义镜像，上述命令回显示意如下

 帮助中心 > AI开发平台ModelArts > 镜像管理 > 使用自定义镜像训练模型（模型训练） > 准备训练镜像
ma-cli auto-completion自动补全命令 - AI开发平台ModelArts

ma-cli)" 此外，可以通过“ma-cli auto-completion Fish”或“ma-cli auto-completion Fish”命令查看“Zsh”、“Fish”中的自动补全命令。命令概览 $ ma-cli auto-completion -h Usage: ma-cli auto-completion

帮助中心 > AI开发平台ModelArts > 开发环境 > ModelArts CLI命令参考
状态码 - AI开发平台ModelArts
状态码 - AI开发平台ModelArts

因为该请求被设置为拒绝访问，建议直接修改该请求，不要重试该请求。 404 NotFound 所请求的资源不存在。建议直接修改该请求，不要重试该请求。 405 MethodNotAllowed 请求中带有该资源不支持的方法。建议直接修改该请求，不要重试该请求。 406 Not

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
安装Gallery CLI配置工具 - AI开发平台ModelArts

记录中“工具状态”为“下载完成”时表示下载完成，工具包存放在“下载位置”的目录下。如果下载失败，单击“下载”可以重新下载。登录云服务器查看工具包是否下载成功。在云服务详情页面，单击节点页签的选择“前往控制台”跳转到云服务器控制台。在云服务器控制台的节点基本信息页面，单击右

 帮助中心 > AI开发平台ModelArts > AI Gallery > AI Gallery（新版） > Gallery CLI配置工具指南
断点续训练 - AI开发平台ModelArts

/llm_train/AscendSpeed/ 修改断点续训练参数。断点续训前，需要在原有训练参数配置表1中新加“MODEL_PATH”参数，并修改“TRAIN_ITERS”参数和“RUN_TYPE”参数。表1 断点续训练修改参数参数参考值参数说明 MODEL_PATH

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型 > GLM3-6B基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
断点续训练 - AI开发平台ModelArts

ckpt的代码，使能读取前一次训练保存的预训练模型。原有训练参数配置表1断点续训练中新加MODEL_PATH参数，并修改TRAIN_ITERS参数值。表1 断点续训练修改参数参数参考值参数说明 CKPT_LOAD_DIR /home/ma-user/ws/saved_dir_

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型 > Baichuan2-13B基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
将AI应用发布到ModelArts模型管理 - AI开发平台ModelArts

会打印在terminal控制台。命令执行结束后，镜像构建的日志会在下载至工程log目录下docker-build.log文件中，可通过日志查看构建过程信息。发布和部署AI应用发布AI应用鼠标右键工程列表中当前工程，单击“Public”，输入应用名称、应用版本、请求方式以及镜

 帮助中心 > AI开发平台ModelArts > 模型封装

总条数： 1795

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

扩缩容资源池 - AI开发平台ModelArts

PyCharm手动连接Notebook - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

VS Code连接开发环境失败时，请先进行基础问题排查 - AI开发平台ModelArts

为什么资源充足还是在排队？ - AI开发平台ModelArts

Step3 注册新镜像 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

Step1 在Notebook中拷贝模型包 - AI开发平台ModelArts

训练过程中无法找到so文件 - AI开发平台ModelArts

训练作业自定义镜像规范 - AI开发平台ModelArts

ma-cli auto-completion自动补全命令 - AI开发平台ModelArts

状态码 - AI开发平台ModelArts

安装Gallery CLI配置工具 - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

将AI应用发布到ModelArts模型管理 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线