检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开发环境 环境配置故障 实例故障 代码运行故障 JupyterLab插件故障 VS Code连接开发环境失败故障处理 自定义镜像故障 其他故障
101] Network is unreachable’ 原因分析 出现该问题的可能原因如下: 因为安全性问题,ModelArts内部训练机器不能访问外网。 处理方法 将pretrained改成false,提前下载好预训练模型,加载下载好的预训练模型位置即可,可参考如下代码。 import
训练作业运行失败排查指导 问题现象 训练作业的“状态”出现“运行失败”的现象。 原因分析及处理方法 查看训练作业的“日志”,出现报错“MoxFileNotExistsException(resp, 'file or directory or bucket not found.')”。
设置输入路径 在输入框选择输入数据所在的路径,如图9所示。 图8 填写训练输入路径 选择挂载SFS路径时,下拉框只显示有权限的SFS路径,显示“只读”的文件夹只支持只读功能,不显示的读写均支持。可参考权限管理文档修改SFS Turbo权限。 图9 输入数据设置完成界面 设置训练输出路径:
果要通过SSH方式远程连接其他用户的Notebook实例,需要将SSH密钥对更新成自己的,否则会报错ModelArts.6786。更新密钥对具体操作请参见修改Notebook SSH远程连接配置。具体的错误信息提示:ModelArts.6789: 在ECS密钥对管理中找不到指定的
租户可见域名:指租户可访问的域名,需要格外重视安全性和合规性。 租户不可见域名:指华为云服务在内网相互调用使用的域名,外部用户无法访问到对应的权威DNS服务器;或者Internet受限访问域名,只允许华为办公网络黄&绿区华为员工及合作方或外包人员访问的域名。 华为云基础域名安全使用,避免直接为租户分配基础域名。
Tensorflow多节点作业下载数据到/cache显示No space left 问题现象 创建训练作业,Tensorflow多节点作业下载数据到/cache显示:“No space left”。 原因分析 TensorFlow多节点任务会启动parameter server(
果要通过SSH方式远程连接其他用户的Notebook实例,需要将SSH密钥对更新成自己的,否则会报错ModelArts.6786。更新密钥对具体操作请参见修改Notebook SSH远程连接配置。具体的错误信息提示:ModelArts.6789: 在ECS密钥对管理中找不到指定的
训练作业运行失败,出现NCCL报错 问题现象 训练作业的状态“运行失败”,查看训练作业的“日志”,存在NCCL的报错,例如“NCCL timeout”、“RuntimeError: NCCL communicator was aborted on rank 7”、“NCCL WARN
创建模型任务下发成功,但最终模型创建失败。需要从以下几个方面进行排查: 在模型详情页面,查看“事件”页签中的事件信息。根据事件信息分析模型失败原因,进行处理。 如果模型状态为“构建失败”,可以在模型详情页面,查看“事件”页签中的“查看构建日志”。构建日志中有对应的构建镜像失败的详细原因,根据构建失败的原因进行排查处理。
在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装NPU设备和驱动,或释放被挂载的NPU。 检查containerd是否安装。
创建模型失败,提示模型镜像构建任务超时,没有构建日志 问题现象 创建模型失败,构建日志提示超时“Model image build task timed out”,没有详细构建日志。 图1 模型镜像构建任务超时 原因分析 imagePacker构建镜像有超时时间限制,默认值为30
Step6 准备镜像 创建ECS。 参考ECS文档购买弹性云服务器。网络配置、高级配置等后续步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,并在控制台发送后续步骤中的远程命令。 注意:创建的ECS虚拟机使用ARM镜像创建。 图1 购买ECS 安装Docker。 检查docker是否安装。
py3-none-any.whl 如果导入失败,建议重新执行安装命令,或者重启kernel后再次执行安装命令。 方法二:使用本地IDE远程连接Notebook准备环境 使用本地IDE如PyCharm开发工作流,您只需专注于本地代码开发即可。PyCharm连接Notebook操作请参见配置本地IDE(PyCharm
实例故障 创建Notebook失败,查看事件显示JupyterProcessKilled 创建Notebook实例后无法打开页面,如何处理? 使用pip install时出现“没有空间”的错误 出现“save error”错误,可以运行代码,但是无法保存 出现ModelArts.6333错误,如何处理?
重要 可能是由于昇腾驱动问题或NPU掉卡 转昇腾和硬件处理 NPU卡无法正常使用 NPU: PCIe链路异常 PCIeErrorFound 重要 lspci显示npu卡处于rev ff状态 转硬件处理 NPU卡无法正常使用 NPU: lspci查询缺少设备 LspciCardNotFound
(检查方式为“HTTP请求检查”时显示)、健康检查命令(检查方式为“执行命令检查”时显示)、健康检查周期、延迟时间、超时时间、最大失败次数。 模型说明 显示创建模型时添加的模型说明文档信息。 系统运行架构 显示系统运行架构。 推理加速卡类型 显示推理加速卡类型。 表4 模型页签详情
表1。 表1 基本信息的参数描述 参数名称 说明 “名称” Notebook的名称。只能包含数字、大小写字母、下划线和中划线,长度不能大于64位且不能为空。 “描述” 对Notebook的简要描述。 “自动停止” 默认开启,且默认值为“1小时”,表示该Notebook实例将在运行
自定义镜像训练作业失败定位思路 问题现象 使用自定义镜像训练作业时,训练失败。 定位思路 确定镜像来源 确认该自定义镜像的基础镜像是否来源于ModelArts提供的基础镜像,推荐用户使用ModelArts的基础镜像构建自定义镜像,具体请参见使用ModelArts的基础镜像构建新的训练镜像。
训练作业训练失败报错:TypeError: unhashable type: ‘list’ 问题现象 使用订阅算法图像分类-EfficientNetB4进行训练报错:TypeError: unhashable type: ‘list’。 原因分析 可能由于使用了多标签分类导致(即一个图片用了1个以上的标签)。