检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开发环境(旧版) 创建开发环境实例 查询开发环境实例列表 查询开发环境实例详情 更新开发环境实例信息 删除开发环境实例 管理开发环境实例 父主题: 历史API
父主题: 专属资源池创建训练作业
将模型部署为一个Web Service,并且提供在线的测试UI与监控能力。
自定义镜像训练作业失败定位思路 问题现象 使用自定义镜像训练作业时,训练失败。
如果您有自己的算法,想改造适配后迁移到ModelArts Standard平台上进行训练和推理,您可以参考使用自定义算法构建模型(手写数字识别)。 更多入门实践,请参考《ModelArts入门实践》章节。如果您有其他疑问,您也可以通过华为云社区问答频道来与我们联系探讨。
资源池监控 功能介绍 获取资源池的监控信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
复制数据至容器中空间不足 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致数据无法复制至容器中。 OSError:[Errno 28] No space left on device 原因分析 数据下载至容器的位置空间不足。
tensorboard显示502 bad gateway 问题现象 启动tensorboard后,打开tensorboard提示502 bad gateway,或者偶现502 bad gateway。 原因分析 出现该问题的可能原因如下: 启动tensorboard对应的summary
训练作业参数配置 创建训练作业参数 查询训练作业参数列表 更新训练作业参数 删除训练作业参数 查询训练作业参数详情 父主题: 训练管理(旧版)
获取自动化搜索作业yaml模板的信息 功能介绍 获取自动化搜索作业yaml模板的信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
表4 jobs属性列表 参数 参数类型 说明 job_id Long 训练作业的ID。 job_name String 训练作业的名称。 version_id Long 训练作业的版本ID。 status Int 训练作业的运行状态,详细作业状态列表请参见作业状态参考。
model_metric_list String 训练作业的模型评测参数。具体请参见表7。 system_metric_list String 训练作业的系统监控指标。具体请参见表8。 user_image_url String 自定义镜像训练作业的自定义镜像的SWR-URL。
管理批量推理作业 查看批量服务详情 查看批量服务的事件 管理批量服务生命周期 修改批量服务配置 父主题: 使用ModelArts Standard部署模型并推理预测
如用户使用多卡的作业,那么可能每张卡都会有同样的读写数据的代码,可参考如下代码修改。
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。
调用查询训练作业详情接口使用刚创建的训练作业返回的id查询训练作业状态。 调用查询训练作业指定任务的日志(OBS链接)接口获取训练作业日志的对应的obs路径。 调用查询训练作业指定任务的运行指标接口查看训练作业的运行指标详情。
原因分析 出现该问题的可能原因如下: 对应python包使用错误,该python包确实没有对应的变量或者方法 第三方pip源中的python包版本更新,导致在训练作业中安装的python包的版本可能也会发生变化。如训练作业之前无此问题,后面一直有此问题,则考虑是此原因。
ModelArts平台日志 ModelArts平台产生的系统日志,主要用于运维人员定位平台问题。 普通日志的文件格式如下,其中task id为训练作业中的节点id。
获取训练作业事件列表 功能介绍 获取训练作业事件列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
训练作业训练失败报错:TypeError: unhashable type: ‘list’ 问题现象 使用订阅算法图像分类-EfficientNetB4进行训练报错:TypeError: unhashable type: ‘list’。