检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
管理批量服务生命周期 启动服务 您可以对处于“运行完成”、“异常”和“停止”状态的服务进行启动操作,“部署中”状态的服务无法启动。启动服务,当服务处于“运行中”状态后,ModelArts将开始计费。您可以通过如下方式启动服务: 登录ModelArts管理控制台,在左侧菜单栏中选择
镜像在SWR上显示只有13G,安装少量的包,然后镜像保存过程会提示超过35G大小保存失败,为什么? 问题现象 我的镜像在SWR侧看,只有13G左右,在开发环境Notebook镜像管理注册,启动Notebook实例后,安装一些包后,镜像保存过程会提示超过35G大小,保存失败? 原因分析 SWR侧看到的大小是镜像压缩后的大小,解压后实际大小一般是压缩后的2
管理在线服务生命周期 启动服务 您可以对处于“运行完成”、“异常”和“停止”状态的服务进行启动操作,“部署中”状态的服务无法启动。启动服务,当服务处于“运行中”状态后,ModelArts将开始计费。您可以通过如下方式启动服务: 登录ModelArts管理控制台,在左侧菜单栏中选择
训练作业失败,返回错误码139 问题现象 训练作业运行失败,返回错误码139,如下图所示: [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f
使用自定义镜像创建训练作业时,在代码目录下载完成后,镜像的启动命令会被自动执行。启动命令的填写规范如下: 如果训练启动脚本用的是py文件,例如train.py,运行命令可以写为python ${MA_JOB_DIR}/demo-code/train.py。 如果训练启动脚本用的是sh文件,例如main.sh,运行命令可以写为bash
通过自定义镜像创建模型失败 问题现象 通过用户自定义镜像创建模型失败。 原因分析 可能原因如下: 导入模型使用的镜像地址不合法或实际镜像不存在 用户给ModelArts的委托中没有SWR相关操作权限 用户为子账号,没有主账号SWR的权限 使用的是非自己账号的镜像 使用的镜像为公开镜像
Code接入并在新界面单击打开,未弹出VS Code窗口 原因分析 未安装VS Code或者安装版本过低。 解决方法 下载并安装VS Code(Windows用户请单击“Win”,其他用户请单击“其他”下载),安装完成后单击“刷新”完成连接。 父主题: VS Code连接开发环境失败故障处理
服务部署失败,报错No Module named XXX 问题现象 服务部署失败,报错:No Module named XXX 原因分析 No Module named XXX,表示模型中没有导入对应依赖模块。 处理方法 依赖模块没有导入,需要您在模型推理代码中导入缺失依赖模块。
failed.'或者'Port forwarding is disabled.”如何解决? 问题现象 或 原因分析 Notebook实例重新启动后,公钥发生变化,OpenSSH核对公钥发出警告。 解决方法 在VS Code中使用命令方式进行远程连接时,增加参数"-o StrictHostKeyChecking=no"
创建Notebook失败,查看事件显示JupyterProcessKilled 问题现象 创建Notebook失败,查看事件显示JupyterProcessKilled。 图1 查看事件 原因分析 出现此故障是因为Jupyter进程被清理掉了,一般情况Notebook会自动重启的
JupyterLab中文件保存失败,如何解决? 问题现象 JupyterLab中保存文件时报错如下: 原因分析 浏览器安装了第三方插件proxy进行了拦截,导致无法进行保存。 在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。 网络环境原因,是否有连接网络代理。
通过OBS创建模型时,构建日志中提示pip下载包失败 问题现象 通过OBS创建模型构建失败,查看构建日志,提示pip下载包失败。如下载numpy 1.16版本失败。 原因分析 一般下载包失败时,可能有如下几个原因: pip源中不存在该包,当前默认pip源为pypi.org中的包,请在pypi
创建模型失败,提示模型镜像构建任务超时,没有构建日志 问题现象 创建模型失败,构建日志提示超时“Model image build task timed out”,没有详细构建日志。 图1 模型镜像构建任务超时 原因分析 imagePacker构建镜像有超时时间限制,默认值为30
训练作业失败,如何使用开发环境调试训练代码? 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VsCode)联接云上环境调试请参考使用本地IDE开发模型。
本文介绍三种使用训练作业来启动PyTorch DDP训练的方法及对应代码示例。 使用PyTorch预置框架功能,通过mp.spawn命令启动 使用自定义镜像功能 通过torch.distributed.launch命令启动 通过torch.distributed.run命令启动 创建训练作业
工作流运行页面:单击右上角的“启动”按钮,出现启动Workflow询问弹窗,单击“确定”。 工作流参数配置页面:单击右上角的“启动”按钮,出现启动Workflow询问弹窗,单击“确定”。 启动Workflow后,运行过程中将会按需收费,请关注实例状态,完成后的工作流请及时停止,避免产生不必要的费用。
远程连接处于retry状态如何解决? 问题现象 原因分析 之前下载VS Code server失败,有残留信息,导致本次无法下载。 解决方法 方法一(本地):打开命令面板(Windows: Ctrl+Shift+P,macOS:Cmd+Shift+P),搜索“Kill VS Code
或 VS Code连接Notebook一直提示选择证书,且提示信息除标题外,都是乱码。选择证书后,如上图所示仍然没有反应且无法进行连接。 原因分析 当前环境未装OpenSSH或者OpenSSH未安装在默认路径下,详情请参考VS Code文档。 解决方法 如果当前环境未安装OpenSSH,请下载并安装OpenSSH。
ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办? 当在训练作业的启动脚本中使用os.system('cd xxx')无法进入相应的文件夹时,建议使用如下方法: import os os.chdir('/home/work/user-job-dir/xxx')
创建训练作业时出现“实例挂卷失败”的事件 问题现象 训练作业的状态一直在“创建中”,查看训练作业的“事件”,有异常信息“实例挂卷失败”,详情为“Unable to mount volumes for pod xxx ... list of unmounted volumes=[nfs-x]”。