检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
requires_grad=True)", "ae544174", "2", "0.0625" ] ] } 状态码 状态码 描述 200 ok 错误码 请参见错误码。 父主题: 训练管理
200 OK 400 Bad Request 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 授权管理
自定义算子、主动申请GPU显存等操作,则需要额外进行手动迁移适配。 手动迁移解决报错问题。 在完成代码自动迁移后,如果训练代码运行时还出现错误,则代表需要手动迁移适配。针对代码报错处,需要用户分析定位后将自动迁移未能迁移的GPU相关的代码调用修改为NPU对应的接口,请参考昇腾手工迁移文档进行操作。
输出配置。 表9 WorkflowErrorInfo 参数 参数类型 描述 error_code String 错误码。 error_message String 错误信息。 表10 WorkflowStepExecutionPolicy 参数 参数类型 描述 execution_policy
Notebook无法执行代码,如何处理? 运行训练代码,出现dead kernel,并导致实例崩溃 如何解决训练过程中出现的cudaCheckError错误? 如何处理使用opencv.imshow造成的内核崩溃? 使用Windows下生成的文本文件时报错找不到路径? 创建Notebook文件后,右上角的Kernel状态为“No
状态码: 400 表15 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 删除节点池。 DELETE https://{endpoint}/v2/{project_id}
"events" : [ "*:failed,completed", "job_step:stop" ] } 状态码 状态码 描述 201 OK 错误码 请参见错误码。 父主题: Workflow工作流管理
"GB" } } } } } } 状态码 状态码 描述 200 ok 错误码 请参见错误码。 父主题: 训练管理
脚本为: cd /cache/code/ python start_train.py 如果训练流程不符合预期,可以在容器实例中查看日志、错误等,并进行代码、环境变量的修正。 预置脚本测试整体流程 一般使用run.sh封装训练外的文件复制工作(数据、代码:OBS-->容器,输出结果:容器-->OBS),run
ModelArts.4371 数据集版本已存在 出现此错误码时,表示数据集版本已存在,请重新发布数据集版本。 ModelArts.4712 数据集正在执行导入或同步等其他任务 如果自动学习中使用的数据集,正在执行导入或同步数据的任务时,此时进行训练将出现此错误。建议等待其他任务完成后,再启动自动学习的训练任务。
状态码: 400 表19 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 创建网络。设置资源类型为“Network”,用户指定的network名称为“network-7a03”,网络的cidr为“192
表6 WorkflowErrorInfo 参数 是否必选 参数类型 描述 error_code 否 String 错误码。 error_message 否 String 错误信息。 表7 WorkflowStepExecutionPolicy 参数 是否必选 参数类型 描述 execution_policy
"75540c679ab44074bc100022d8a4b204", "enable" : true } 状态码 状态码 描述 200 工作流调度信息 错误码 请参见错误码。 父主题: Workflow工作流管理
描述 200 OK 201 Created 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 开发环境管理
VSCode远程连接Notebook时,单击“VS Code接入”跳转至连接界面时一直卡顿,或Python调试插件无法使用。 图1 Python调试插件错误 原因分析 该问题通常由VS Code安装了第三方中文插件引起。 解决方案 卸载中文插件:如果安装了中文插件,建议先卸载。 如果问题仍未解决,可以在VS
方法二:设置远端默认安装的插件 按照VS Code中设置远端默认安装的插件配置,即会在连接远端时自动安装,减少等待时间。 方法三:VS Code官网排查方式https://code.visualstudio.com/docs/remote/troubleshooting 小技巧(按需调整远端连接的相关参数):
数据集版本不合格 出现此问题时,表示数据集版本发布成功,但是不满足自动学习训练作业要求,因此出现数据集版本不合格的错误提示。 标注信息不满足训练要求 针对不同类型的自动学习项目,训练作业对数据集的要求如下。 图像分类:用于训练的图片,至少有2种以上的分类(即2种以上的标签),每种分类的图片数不少于5张。
自动学习项目中,如何进行增量训练? 自动学习训练后的模型是否可以下载? 自动学习为什么训练失败? 自动学习模型训练图片异常? 自动学习使用子账号单击开始训练出现错误Modelarts.0010 自动学习中偏好设置的各参数训练速度大概是多少 自动学习声音分类预测报错ERROR:input key sound
"75540c679ab44074bc100022d8a4b204", "enable" : true } 状态码 状态码 描述 200 返回调度信息。 错误码 请参见错误码。 父主题: Workflow工作流管理
x_out_len建议设置小一些,比如16。在运行human_eval等生成式回答(生成式回答是对整体进行评测,少一个字符就可能会导致判断错误)时,max_out_len设置建议长一些,比如512,至少包含第一个回答的全部字段。 batch_size:输入的batch_size大小,不影响精度,只影响得到结果速度。