检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
model_id Long 训练作业的模型ID。 model_metric_list String 训练作业的模型评测参数。具体请参见表5。 system_metric_list Object 训练作业的系统监控指标。具体请参见表6。
训练作业运行失败排查指导 问题现象 训练作业的“状态”出现“运行失败”的现象。
查询训练作业标签 功能介绍 查询训练作业标签。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
-2:1141:1191 [4] NCCL INFO Channel 00 : 20[b5000] -> 22[e1000] via P2P/IPC 解决方案2 在程序开头设置“os.environ["NCCL_NET_GDR_LEVEL"] = '0'”关闭使用GDR,或者寻找运维人员将机器添加
查询训练作业的运行指标 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式一:根据指定的job_id查询。
再次运行作业,判断出问题的代码段。 父主题: 业务代码问题
删除训练作业 功能介绍 删除训练作业。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI DELETE /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。
删除训练作业版本 功能介绍 删除训练作业一个版本。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。
父主题: 训练作业
与智能边缘平台的关系 ModelArts可将模型部署至智能边缘平台(Intelligent EdgeFabric,简称IEF)纳管的边缘节点。IEF的更多信息请参见《智能边缘平台用户指南》。
训练作业权限 表1 训练作业(新版)细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 创建训练作业 POST /v2/{project_id}/training-jobs modelarts:trainJob:create swr:repository
install_sys_packages Boolean 是否需要安装训练平台指定的 moxing 版本。true为需要。只有填写了engine_name,engine_version,image_url参数时支持该设置。
查询训练日志 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式一:根据指定的job_id查询。
model_metric_list String 训练作业的模型评测参数。具体请参见表7。 system_metric_list String 训练作业的系统监控指标。具体请参见表8。 user_image_url String 自定义镜像训练作业的自定义镜像的SWR-URL。
OBS操作相关故障 读取文件报错,如何正确读取文件 TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止 保存模型时出现Unable to connect to endpoint错误 OBS复制过程中提示
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。
创建训练作业标签 功能介绍 创建训练作业标签,支持批量添加,当添加的标签key已存在,则覆盖该标签的value。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
查询资源规格列表 查询专属资源池作业列表 查询专属资源池作业统计信息
自动学习、Workflow、开发环境、模型训练、在线服务、专属资源池涉及到需要停止的计费项如下: 自动学习:停止因运行自动学习作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 Workflow:停止因运行Workflow作业而创建的训练作业和在线服务。
云上迁移适配故障 无法导入模块 训练作业日志中提示“No module named .*” 如何安装第三方包,安装报错的处理方法 下载代码目录失败 训练作业日志中提示“No such file or directory” 训练过程中无法找到so文件 ModelArts训练作业无法解析参数