检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
服务部署、启动、升级和修改时,资源不足如何处理? 问题现象 启动服务失败,报错:资源不足,服务调度失败。(Schedule failed due to insufficient resources. Retry later.或ModelArts.3976:No resources
Lite使用中遇到问题时,例如模型转换失败、训练后量化转换失败、模型推理失败、模型推理精度不理想、模型推理性能不理想、使用Visual Studio报错、使用Xcode构建APP报错等,您可以先查看日志信息进行定位分析。 多数场景下的问题可以通过日志报错信息直接定位。如果日志的信息不能定位问题,您可以
在标注页面的工具栏中选择合适的标注工具,本示例使用矩形框进行标注。 图6 标注工具 使用标注工具选中目标区域,在弹出的标签文本框中,直接输入新的标签名。如果已存在标签,从下拉列表中选择已有的标签。单击“添加”完成标注。 图7 添加物体检测标签 单击页面上方“返回数据标注预览”查看标注信息
关闭VS Code所有窗口后,回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。 父主题: VS Code连接开发环境失败故障处理
Code,重新从Notebook实例列表页面打开VS Code(注意:需要关闭本地vscode,否则可能会报多个安装进程正在运行中)。 父主题: VS Code连接开发环境失败故障处理
processor_task_status Integer 旋转裁剪等预处理任务状态。当前可选值如下: 0:初始化 1:运行中 2:完成 3:失败 4:停止 5:超时 6:删除失败 7:停止失败 remove_sample_usage Boolean 发布时是否清除数据集已有的usage信息。可选值如下:
source_type_header 否 String 指定导出标注文件中的OBS路径前缀,默认为“obs://”,支持指定“s3://”。由于训练无法解析以“obs”开头图片路径,需要导出manifest中的路径前缀为“s3://”。 status 否 Integer 任务状态。 task_id
GPU A系列裸金属服务器无法获取显卡如何解决 问题现象 在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下: > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__
训练过程中无法找到so文件 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致训练失败: libcudart.so.9.0 cannot open shared object file no such file or directory 原因分析 编译生成s
方式三:使用Python语言发送预测请求 下载Python SDK并在开发工具中完成SDK配置。具体操作请参见在Python环境中集成API请求签名的SDK。 创建请求体,进行预测请求。 输入为文件格式 # coding=utf-8 import requests if __name__
专属资源池关联SFS Turbo显示异常 问题现象1 专属资源池关联SFS Turbo时显示异常,关联失败。 图1 关联异常 图2 报错提示 问题现象2 网络操作解除关联SFS Turbo后状态仍显示已关联且无报错信息,而解除关联按钮置灰不可操作。同时该网络的解除关联SFS Turbo按钮置灰不可操作。
复制数据慢的可能原因如下: 直接从OBS上读数据会造成读数据变成训练的瓶颈,导致迭代缓慢。 由于环境或网络问题,读OBS时遇到读取数据失败情况,从而导致整个作业失败。 重复打印日志,该日志表示正在读取远端存在的文件,当文件列表读取完成以后,开始下载数据。如果文件比较多,那么该过程会消耗较长时间。
无法导入模块 问题现象 ModelArts训练作业导入模块时日志报错: Traceback (most recent call last):File "project_dir/main.py", line 1, in <module>from module_dir import module_file
“/桶名称/文件路径”,例如“/obs-bucket/flower/rose/”(使用目录作为路径)。 不能直接使用桶作为路径。 输出位置不能与输入位置相同或者是输入位置的子目录。 长度限制:不少于3字符,不能超过700个字符。 字符限制:不允许出现的特殊字符有换行符(\n)、回车符(\r)、制表符(\t)。
processor_task_status Integer 旋转裁剪等预处理任务状态。当前可选值如下: 0:初始化 1:运行中 2:完成 3:失败 4:停止 5:超时 6:删除失败 7:停止失败 remove_sample_usage Boolean 发布时是否清除数据集已有的usage信息。可选值如下:
险。其中: 租户可见域名:指租户可访问的域名,需要格外重视安全性和合规性。 租户不可见域名:指华为云服务在内网相互调用使用的域名,外部用户无法访问到对应的权威DNS服务器;或者Internet受限访问域名,只允许华为办公网络黄&绿区华为员工及合作方或外包人员访问的域名。 华为云基
FailureAnalysisNotPossible 无法对未失败的作业进行失败分析 请对运行失败的训练作业进行失败分析 400 ModelArts.2828 FailureAnalysisFailed 训练作业失败原因获取失败 未知失败,请联系技术支持 400 ModelArts.2829
Cann软件与Ascend驱动版本不匹配 问题现象 训练失败并提示“Cann软件与Ascend驱动版本不匹配”。 原因分析 当昇腾规格的训练作业在ModelArts训练平台上运行时,会自动对Cann软件与Ascend驱动的版本匹配情况进行检查。如果平台发现版本不匹配,则会立即训练失败,避免后续无意义的运行时长。
在ModelArts的算法管理中已准备好待发布的算法。创建算法的相关操作请参见创建算法。 创建算法时,算法代码存储的OBS桶内不能存在文件和文件夹重名的情况,这样算法可能会发布失败。如果算法发布成功,则代码开放会失败。 发布算法 进入AI Gallery首页,选择“资产集市 > 算法”,进入算法页面。 单击“发
启动弹性节点Server:单击“启动”。只有处于“已停止/停止失败/启动失败”状态的弹性节点Server可以执行启动操作。 停止弹性节点Server:单击“停止”,在弹出的确认对话框中,确认信息无误,然后单击“确定”。只有处于“运行中/停止失败”状态的弹性节点Server可以执行停止操作。 停