检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
否 String 模型状态,可根据模型的“publishing”、“published”、“failed”三种状态执行查询。 description 否 String 描述信息,可支持模糊匹配。 offset 否 Integer 指定要查询页的索引,默认为“0”。 limit 否 Integer
需要更多的图片。用于训练的图片,至少有1种以上的分类,每种分类的图片数不少50张。 标注时,类内方差尽量要小。即相同类别的标注,尽量近似;不同类别的标注,尽量保持差距较大。 标记的每个标签尽量和背景有较大的区分度。 物体检测标注,需要保证目标框内物体的完整性;针对图片中存在多个物体的情形,做到不重标、不漏标。
提示找不到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命令的启动文件目录是否正确,具体操作如下: 在ModelArts管理控制台,使用训练的自定义镜像创建训
String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 get_job_log请求参数说明 参数 是否必选 参数类型 描述 task_id 否 String 要查看哪个工作节点的日志,默认
在ModelArts训练代码中,如何获取依赖文件所在的路径? 由于用户本地开发的代码需要上传至ModelArts后台,训练代码中涉及到依赖文件的路径时,用户设置有误的场景较多。因此推荐通用的解决方案:使用os接口得到依赖文件的绝对路径,避免报错。 以下示例展示如何通过os接口获得其他文件夹下的依赖文件路径。 文件目录结构:
kernel,并导致实例崩溃 如何解决训练过程中出现的cudaCheckError错误? 如何处理使用opencv.imshow造成的内核崩溃? 使用Windows下生成的文本文件时报错找不到路径? 创建Notebook文件后,右上角的Kernel状态为“No Kernel”如何处理?
为数据集创建新的版本。 dataset.create_version(name=None, version_format=None, label_task_type=None, label_task_id=None, **kwargs) 示例代码 示例一:为数据集创建新的版本 from
ModelArts预置镜像更新说明 本章节提供了ModelArts预置镜像的变更说明 ,比如依赖包的变化,方便用户感知镜像能力的差异,减少镜像使用问题。 统一镜像更新说明 表1 统一镜像更新说明 镜像名称 更新时间 更新说明 mindspore_2.3.0-cann_8.0.rc1-py_3
String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 无成功响应参数。 表2 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。
根据部署在线服务生成的服务对象删除服务。 根据查询服务对象列表返回的服务对象删除服务。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据部署在线服务生成的服务对象删除服务 1
description 是 String 需要更改的训练作业的描述信息。 无成功响应参数 表3 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码,调用成功时无此字段。
[type=int_from_float, input_value=15099494.4, input_type=float] 将deepspeed配置文件的 stage3_prefetch_bucket_size 参数值从 auto 改成 整数15099494 父主题: 常见错误原因和解决方法
from daemon: Cannot pause container xxx”。 原因分析 执行镜像保存时,Notebook中存在状态为D的进程,会导致镜像保存失败。 解决方案 在Terminal里执行ps -aux命令检查进程。 执行kill -9 <pid>命令将相关进程结束后,再次执行镜像保存即可。
删除数据集版本 删除数据集的指定版本。 dataset.delete_version(version_id) 示例代码 删除数据集指定版本 from modelarts.session import Session from modelarts.dataset import Dataset
pbtxt。 原因分析 算法要求标注框为矩形标注框,提供的数据标注为非矩形,因此导致该错误发生。 处理方法 请您将数据的标注改为矩形的标注框。 建议与总结 在训练作业前,推荐您检查数据的标注是否符合算法要求(如物体检测类算法的标注框为矩形标注框)。 父主题: 预置算法运行故障
原因分析 当昇腾规格的训练作业在ModelArts训练平台上运行时,会自动对Cann软件与Ascend驱动的版本匹配情况进行检查。如果平台发现版本不匹配,则会立即训练失败,避免后续无意义的运行时长。 解决方案 专属资源池的Ascend驱动版本需与训练基础镜像中的Cann软件版本版本匹配。
复制有效。 表2 失败相应说明 参数 参数类型 描述 error_code String 调用失败时的错误码。调用成功时无此字段。 error_msg String 调用失败时的错误信息。调用成功时无此字段。 父主题: OBS管理
[type=int_from_float, input_value=15099494.4, input_type=float] 将deepspeed配置文件的 stage3_prefetch_bucket_size 参数值从 auto 改成 整数15099494 父主题: 常见错误原因和解决方法
、物体检测等等。不同的项目对数据的要求,使用的AI开发手段也是不一样的。 准备数据 数据准备主要是指收集和预处理数据的过程。 按照确定的分析目的,有目的性的收集、整合相关数据,数据准备是AI开发的一个基础。此时最重要的是保证获取数据的真实可靠性。而事实上,不能一次性将所有数据都采
请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业,实际可用的卡ID为0、1、2、3,但是您在进行cuda相关的运算时,例如"tensor.to(device="cuda:7")",将张量搬到了7号GPU卡上,超过了实际可用的ID号。 如果cuda相关运