检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
TensorFlow-1.8作业连接OBS时反复出现提示错误 问题现象 基于TensorFlow-1.8启动训练作业,并在代码中使用“tf.gfile”模块连接OBS,启动训练作业后会频繁打印如下日志信息: Connection has been released. Continuing
否 Array<Object> 训练作业的运行参数,为“label-value”格式,该样例请参考请求示例;当为自定义镜像训练作业的时候,此参数为容器环境变量。详细请参见表4 spec_id 是 Long 训练作业选择的资源规格ID。请从查询作业资源规格接口获取资源规格ID。 data_url
创建多机多卡训练作业 登录ModelArts管理控制台,检查当前账号是否已完成访问授权的配置。如未完成,请参考使用委托授权。针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。 在左侧导航栏中选择“模型训练 > 训练作业”,默认进入“训练作业”列表。 在“创建训练作业”页面,填写相关参数信息,然后单击“提交”。
训练作业访问OBS时,日志提示“stat:403 reason:Forbidden” 问题现象 训练作业访问OBS时,出现如下报错: ERROR:root:Failed to call: func= <bound method ObsClient.getObjectMetadata
Array<Object> 训练作业的运行参数,为“label-value”格式;当为自定义镜像训练作业的时候,此参数为容器环境变量。该样例请参考表4。 spec_id 是 Long 训练作业选择的资源规格ID。请从查询作业资源规格接口获取资源规格ID。 data_url 否 String 训练作业需要的数据集OBS
删除训练作业参数 功能介绍 删除训练作业参数。 URI DELETE /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String
在训练作业详情页的左侧,可以查看此次训练作业的基本信息和算法配置的相关信息。 训练作业基本信息 表1 训练作业基本信息 参数 说明 “作业ID” 训练作业唯一标识。 “作业状态” 训练作业状态。 说明: 如果昇腾以及MindSpore框架的训练作业运行失败,您可以在作业状态的提
训练作业创建失败报错: 准备阶段超时。可能原因是跨区域算法同步或者创建共享存储超时 训练作业已排队,正在等待资源分配 训练作业排队失败 训练作业开始运行 训练作业运行成功 训练作业运行失败 训练作业被抢占 系统检测到您的作业疑似卡死,请及时前往作业详情界面查看并处理 训练作业已重启
例如:使用了C83版本。 - 性能指标与预期 例1: 模型:YOLOv5 运行环境:Vnt1 单卡 性能指标:QPS 100/s (两进程) 性能约束:单次请求最大可以接受时延需小于100ms 性能预期:QPS 130/s 例2: 模型:OCR 运行环境:6348(单核48U超线程) 性能指标:QPS 10/s(四进程)
MetricsItem objects 指标列表。 表3 MetricsItem 参数 参数类型 描述 table table object 资源列表。 metadata ResourceMetricsMetadata object 资源指标的元信息。 表4 table 参数 参数类型
训练作业的日志出现detect failed(昇腾预检失败) 问题现象 训练启动的日志出现如下相关错误: time="2023-05-27T07:07:08Z" level=error msg="detect failed, error: dsmi-checker detect failed
String 训练作业参数的名称。 config_desc String 训练作业参数的描述信息。 worker_server_num Integer 训练作业worker的个数。 app_url String 训练作业的代码目录。 boot_file_url String 训练作业的代码启动文件。
评估结果说明 根据训练数据类的不同评估结果会包含不同的指标。 离散值评估结果 包含评估指标为召回率(Recall)、精确率(Precision)、准确率(Accuracy)与F1值(F1 Score)。下表为具体说明: 表1 离散值评估结果包含指标说明 参数 说明 recall:召回率 被用
修改训练作业优先级 使用专属资源池训练作业时,支持在创建训练作业时设置任务优先级,也支持作业在长时间处于“等待中”的状态时调整优先级。如通过调整作业优先级可以减少作业的排队时长。 什么是训练作业优先级 在用户运行训练作业过程中,需要对训练作业做优先级划分。比如有一些任务是低优先级
训练作业 创建训练作业 查询训练作业列表 查询训练作业版本详情 删除训练作业版本 查询训练作业版本列表 创建训练作业版本 停止训练作业版本 更新训练作业描述 删除训练作业 获取训练作业日志的文件名 查询预置算法 查询训练作业日志 父主题: 训练管理(旧版)
当对创建的训练作业不满意时,您可以单击操作列的复制,重新创建训练作业。在重创训练作业页面,会自动填入上一次训练作业设置的参数,您仅需在原来的基础上进行修改即可重新创建训练作业。 停止训练作业 在训练作业列表中,针对“创建中”、“等待中”、“运行中”的训练作业,您可以单击“操作”列的“终止”,停止正在运行中的训练作业。
进入“ModelArts>模型训练>训练作业”页面,检查是否有“运行中”的训练作业。如果有,单击该作业列表右方操作下的“停止”即可停止计费。 进入“ModelArts>模型部署>在线服务”页面,检查是否有“运行中”的推理作业。如果有,单击该作业列表右方操作下的“停止”即可停止计费。
训练作业训练失败报错:TypeError: unhashable type: ‘list’ 问题现象 使用订阅算法图像分类-EfficientNetB4进行训练报错:TypeError: unhashable type: ‘list’。 原因分析 可能由于使用了多标签分类导致(即一个图片用了1个以上的标签)。
单击右上角“创建训练作业”进入创建训练作业页面,在“环境变量”中设置“MA_MOXING_FWVER=2.2.8.0aa484aa”以安装最新moxing framework版本,其他参数填写请参见创建训练作业。 配置完成后,可以在训练作业脚本中使用“moxing.file.co
训练作业 OBS操作相关故障 云上迁移适配故障 硬盘限制故障 外网访问限制 权限问题 GPU相关问题 业务代码问题 预置算法运行故障 训练作业运行失败 专属资源池创建训练作业 训练作业性能问题 Ascend相关问题