-
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts
initialize NVML: Driver/library version mismatch 处理方法 执行命令:lsmod | grep nvidia,查看内核中是否残留旧版nvidia,显示如下: nvidia_uvm 634880 8 nvidia_drm
-
扩缩容资源池 - AI开发平台ModelArts
空间大小”,修改容器引擎空间大小。 方式二:单击某个资源池操作列的“扩缩容”,修改容器引擎空间大小。 修改容器引擎空间大小仅作用在新建节点上,且会导致资源池内该规格下节点的dockerBaseSize不一致,可能会使得部分任务在不同节点的运行情况不一致。 图3 修改容器引擎空间大小(规格页签界面)
-
PyCharm手动连接Notebook - AI开发平台ModelArts
单击右侧文件夹图标,勾选上“Automatically upload”选项,以便于本地修改的文件自动上传到容器环境中。 单击“Finish”,结束配置。 可以看到本地的工程文件已经自动往云上环境上传了。后续本地的文件每修改一次,都会自动的同步到云上的环境中。 右下角可以看到当前的Interpreter为Remote
-
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts
新安装的包与镜像中带的CUDA版本不匹配。 处理方法 必现的问题,使用本地Pycharm远程连接Notebook调试安装。 先远程登录到所选的镜像,使用“nvcc -V”查看目前镜像自带的CUDA版本。 重装torch等,需要注意选择与上一步版本相匹配的版本。 建议与总结 在创建训练作业前,推荐您先使用Mode
-
预训练任务 - AI开发平台ModelArts
表示开始训练。训练过程中,训练日志会在最后的Rank节点打印。 图1 等待模型载入 更多查看训练日志和性能操作,请参考查看日志和性能章节。 如果需要使用断点续训练能力,请参考断点续训练章节修改训练脚本。 父主题: 预训练
-
VS Code连接开发环境失败时,请先进行基础问题排查 - AI开发平台ModelArts
StrictHostKeyChecking no UserKnownHostsFile /dev/null ForwardAgent yes 查看密钥文件,建议放在C:\Users\xx.ssh下,并确保密钥文件无中文字符。 如果还未解决,请参考后续章节的FAQ处理。 父主题: VS
-
为什么资源充足还是在排队? - AI开发平台ModelArts
业或实例上,判断是否使用了专属资源池。如判断相关作业或实例可停止,则可以停止,释放出更多的资源。 图1 总览 单击进入专属资源池详情页面,查看作业列表。 观察队头是否有其他作业在排队,如果已有作业在排队,则新建的作业需要继续等待。 图2 作业排队列表 如果通过排查计算,发现资源确
-
Step3 注册新镜像 - AI开发平台ModelArts
完成后即可在SWR上看到该镜像。 图1 将镜像推到SWR SWR地址,包括{局点信息}/{组织名称}/{镜像名称}:{版本名称},局点信息可以参考下图查看,组织名称在“容器镜像服务>组织管理”创建。 注册镜像 在ModelArts Console上注册镜像 登录ModelArts控制台,在左
-
训练的权重转换说明 - AI开发平台ModelArts
d_dir_for_output/llama2-13b/saved_models/pretrain_hf/目录下查看转换后的权重文件。 用户自定义执行权重转换参数修改说明 同样以 llama2 为例,用户可在Notebook直接编辑scripts/llama2/2_convert_mg_hf
-
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts
用户选择了1/2/4卡这些规格的作业,然后设置了CUDA_VISIBLE_DEVICES=‘1’这种类似固定的卡ID号,与实际选择的卡ID不匹配。 处理方法 尽量代码里不要去修改CUDA_VISIBLE_DEVICES变量,用系统默认里面自带的。 如果必须指定卡ID,需要注意一下1/2/4规格下,指定的卡ID与实际分配的卡ID不匹配的情况。
-
训练中的权重转换说明 - AI开发平台ModelArts
_dir_for_output/llama2-13b/saved_models/pretrain_hf/ 目录下查看转换后的权重文件。 用户自定义执行权重转换参数修改说明 同样以 llama2 为例,用户可直接编辑 scripts/llama2/2_convert_mg_hf.sh
-
Step1 在Notebook中拷贝模型包 - AI开发平台ModelArts
在Terminal终端中解压model.zip 在Terminal运行界面,执行拷贝命令。查看镜像文件拷贝成功。 cp -rf model/* /home/ma-user/infer/model/1 图4 查看镜像文件拷贝成功 模型包文件样例 模型包文件model.zip中需要用户自己准备
-
训练过程中无法找到so文件 - AI开发平台ModelArts
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64 执行如下命令,查看训练环境的cuda版本,确认当前cuda版本是否支持so文件。 os.system("cat /usr/local/cuda/version
-
训练作业自定义镜像规范 - AI开发平台ModelArts
/Ascend/driver目录。 X86 CPU架构,ARM CPU架构的自定义镜像分别只能运行于对应CPU架构的规格中。 执行如下命令查看自定义镜像的CPU架构 docker inspect {自定义镜像地址} | grep Architecture ARM CPU架构的自定义镜像,上述命令回显示意如下
-
ma-cli auto-completion自动补全命令 - AI开发平台ModelArts
ma-cli)" 此外,可以通过“ma-cli auto-completion Fish”或“ma-cli auto-completion Fish”命令查看“Zsh”、“Fish”中的自动补全命令。 命令概览 $ ma-cli auto-completion -h Usage: ma-cli auto-completion
-
状态码 - AI开发平台ModelArts
因为该请求被设置为拒绝访问,建议直接修改该请求,不要重试该请求。 404 NotFound 所请求的资源不存在。 建议直接修改该请求,不要重试该请求。 405 MethodNotAllowed 请求中带有该资源不支持的方法。 建议直接修改该请求,不要重试该请求。 406 Not
-
安装Gallery CLI配置工具 - AI开发平台ModelArts
记录中“工具状态”为“下载完成”时表示下载完成,工具包存放在“下载位置”的目录下。 如果下载失败,单击“下载”可以重新下载。 登录云服务器查看工具包是否下载成功。 在云服务详情页面,单击节点页签的选择“前往控制台”跳转到云服务器控制台。 在云服务器控制台的节点基本信息页面,单击右
-
断点续训练 - AI开发平台ModelArts
/llm_train/AscendSpeed/ 修改断点续训练参数。断点续训前,需要在原有训练参数配置表1中新加“MODEL_PATH”参数,并修改“TRAIN_ITERS”参数和“RUN_TYPE”参数。 表1 断点续训练修改参数 参数 参考值 参数说明 MODEL_PATH
-
断点续训练 - AI开发平台ModelArts
ckpt的代码,使能读取前一次训练保存的预训练模型。 原有训练参数配置表1断点续训练中新加MODEL_PATH参数,并修改TRAIN_ITERS参数值。 表1 断点续训练修改参数 参数 参考值 参数说明 CKPT_LOAD_DIR /home/ma-user/ws/saved_dir_
-
将AI应用发布到ModelArts模型管理 - AI开发平台ModelArts
会打印在terminal控制台。命令执行结束后,镜像构建的日志会在下载至工程log目录下docker-build.log文件中,可通过日志查看构建过程信息。 发布和部署AI应用 发布AI应用 鼠标右键工程列表中当前工程,单击“Public”,输入应用名称、应用版本、请求方式以及镜