检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
job_id Long 训练作业的ID。 job_name String 训练作业的名称。 version_id Long 训练作业的版本ID。 status Int 训练作业的运行状态,详细作业状态列表请参见作业状态参考。 create_time Long 训练作业的创建时间,时间戳格式。
部署物体检测服务 模型部署 模型部署操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行节点”页面中,待服务部署节点的状态变为“等待输入”时,双击“服务部署”进入配置详情页,完成资源的参数配置操作。
部署文本分类服务 模型部署 模型部署操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行总览”页面中,待服务部署节点的状态变为“等待输入”,双击“服务部署”节点,进入配置详情页,完成资源的参数配置操作。
部署图像分类服务 模型部署 模型部署操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行节点”页面中,待服务部署节点的状态变为“等待输入”时,双击“服务部署”进入配置详情页,完成资源的参数配置操作。
部署预测分析服务 模型部署 模型部署操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行节点”页面中,待训练状态变为“等待输入”,双击“服务部署”节点,完成相关参数配置。
部署声音分类服务 模型部署 模型部署操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行总览”页面中,待服务部署节点的状态变为“等待输入”时,双击“服务部署”进入配置详情页,完成资源的参数配置操作。
可视化作业的名称。 status Integer 可视化作业的运行状态,详细作业状态列表请参见作业状态参考。 create_time Long 可视化作业的创建时间。 duration Long 可视化作业的运行时长,单位为毫秒。 job_desc String 可视化作业的具体描述。
如果使用“我的算法”创建训练作业,则在创建算法时,可以把相关文件放置在配置的“代码目录”下,算法的“启动方式”必须选择“预置框架”。 如果使用“自定义算法”创建训练作业,则可以把相关文件放置在配置的“代码目录”下,“启动方式”必须选择“预置框架”。 需要在创建训练作业前将相关文件上传至O
训练环境中不同规格资源“/cache”目录的大小 在创建训练作业时可以根据训练作业的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源,不同资源规格有不同的容量。 k8s磁盘的驱逐策略是90%,
CES云监控 授予子用户使用CES云监控服务的权限。通过CES云监控可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况,并设置监控告警。 CES FullAccess 可选 SMN消息服务 授予子用户使用SMN消息服务的权限。SMN消息通知服务配合CES监控告警功能一起使用。
ModelArts训练作业无法解析参数,日志报错 问题现象 ModelArts训练作业无法解析参数,遇到如下报错,导致无法正常运行: error: unrecognized arguments: --data_url=xxx://xxx/xxx error: unrecognized
查看训练作业详情 登录ModelArts管理控制台。 在左侧导航栏中,选择“模型训练 > 训练作业”,进入“训练作业”列表。 在“训练作业”列表中,单击作业名称,进入训练作业详情页。 在训练作业详情页的左侧,可以查看训练作业的基本信息和算法配置的相关信息。 训练作业基本信息 表1
训练作业创建失败报错: 准备阶段超时。可能原因是跨区域算法同步或者创建共享存储超时 训练作业已排队,正在等待资源分配 训练作业排队失败 训练作业开始运行 训练作业运行成功 训练作业运行失败 训练作业被抢占 系统检测到您的作业疑似卡死,请及时前往作业详情界面查看并处理 训练作业已重启
对应python包使用错误,该python包确实没有对应的变量或者方法 第三方pip源中的python包版本更新,导致在训练作业中安装的python包的版本可能也会发生变化。如训练作业之前无此问题,后面一直有此问题,则考虑是此原因。 处理方法 通过Notebook调试。 安装时指定版本。如:pip
Tensorflow多节点作业下载数据到/cache显示No space left 问题现象 创建训练作业,Tensorflow多节点作业下载数据到/cache显示:“No space left”。 原因分析 TensorFlow多节点任务会启动parameter server(
修改训练作业优先级 使用专属资源池训练作业时,支持在创建训练作业时设置任务优先级,也支持作业在长时间处于“等待中”的状态时调整优先级。如通过调整作业优先级可以减少作业的排队时长。 什么是训练作业优先级 在用户运行训练作业过程中,有需要对训练任务(也叫训练作业)做优先级划分。比如有
训练作业访问OBS时,日志提示“stat:403 reason:Forbidden” 问题现象 训练作业访问OBS时,出现如下报错: ERROR:root:Failed to call: func= <bound method ObsClient.getObjectMetadata
Array<Object> 训练作业的运行参数,为“label-value”格式;当为自定义镜像训练作业的时候,此参数为容器环境变量。该样例请参考表4。 spec_id 是 Long 训练作业选择的资源规格ID。请从查询作业资源规格接口获取资源规格ID。 data_url 否 String 训练作业需要的数据集OBS
删除训练作业参数 功能介绍 删除训练作业参数。 URI DELETE /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String
训练作业失败,如何使用开发环境调试训练代码? 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VsCode)联接云上环境调试请参考使用本地IDE开发模型。