检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练中途卡死 问题现象1 检测每个节点日志是否有报错信息,某个节点报错但作业未退出导致整个训练作业卡死。 解决方案1 查看报错原因,解决报错。 问题现象2 作业卡在sync-batch-norm中或者训练速度变慢。pytorch如果开了sync-batch-norm,多机会慢,因
云端推理框架 推理服务 异步推理 模型仓库 模板管理 父主题: 用户指南
插件管理,可以搜索需要的插件并安装,也可以对已安装的插件进行管理,比如卸载、停用等。 :训练任务列表展示,展开训练任务可查看任务下的文件、日志等。 4 代码编辑区。当前联邦学习工程的主算法文件可直接用于训练任务的训练,无需进行导入数据,及加入训练时的数据集配置操作。如果需要定制,可自行修改代码。 5 面板区
模型效果较好。 同一个自动学习项目可以训练多次,每次训练会注册一个新的AI应用版本。如第一次训练版本号为“0.0.1”,下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行模型部署的操作。 父主题: 使用自动学习实现图像分类
模板管理 云端推理框架新增模板能力,用户在云端推理框架发布推理服务时,可以使用系统预置的模板,将模型包发布成推理服务。 背景信息 在模型训练服务“模型管理”界面发布的推理服务,仅封装了Tensorflow类型的模型。对模型包格式上限制导致定制会比较多。或者使用特殊环境的Case难
Object 会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 get_job_log请求参数说明 参数 是否必选 参数类型
如何在训练中加载部分训练好的参数? 在训练作业时,需要从预训练的模型中加载部分参数,初始化当前模型。请您通过如下方式加载: 通过如下代码,您可以查看所有的参数。 from moxing.tensorflow.utils.hyper_param_flags import mox_flags
推理代码,在训练代码文件中编辑训练代码等操作。 使用默认配置,单击“开始训练”。 训练结束,训练任务状态变为“FINISHED”后,单击训练任务对应的“”,查看优化报告。 单击“详情”页签,该页面按照评估值从大到小展示迭代训练结果,单击其中一个结果,如第一行最优训练结果对应的“”,再次加入训练。
job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 get_job_info返回参数说明 参数 参数类型 描述 kind String 训练作业类型。默认使用job。
持通过“Ctrl+F”方式搜索日志。 :将当前训练工程加入训练。 :返回到当前训练工程所在的“模型训练”页面。 训练任务:查看训练任务的运行状态。可以查看训练任务的运行日志以及训练报告,删除训练任务。也可以在任务执行过程中单击暂停训练任务。 3 代码目录:包含日志文件夹、模型文件
训练作业性能降低 问题现象 使用ModelArts平台训练算法训练耗时增加。 原因分析 可能存在如下原因: 平台上的代码经过修改优化、训练参数有过变更。 训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。 检查资源分配情况(
自动学习声音分类预测报错ERROR:input key sound is not in model 根据在线服务预测报错日志ERROR:input key sound is not in model inputs可知,预测的音频文件是空。预测的音频文件太小,换大的音频文件预测。 父主题:
是否使用增量学习 训练时是否使用增量学习,默认关闭。 是否进行集成学习 训练时是否进行集成学习,默认开启。开启后训练结果增加模型集成节点,训练结果中生成两个stacking类型的模型包。 单击图标,运行AutoML代码框内容。运行结果如图5所示。 AutoML模型训练过程中,会展
步之间,又会发生什么呢? 如果我们继续用更多的训练步数(epochs)来训练,神经网络的预测会变得更精确吗?当训练步数在 1000 到 2000 之间时,神经网络的准确率会继续提高,但提高的幅度在下降。如果用更多的训练步数(epochs)进行训练,神经网络的精准度可能还会略有改善,但在目前的网络架构下,它不会达到
code_dir+boot_file取训练作业的代码目录和启动文件。 tasks Array of TaskResponse objects 异构训练作业的任务列表。 spec spec object 训练作业规格参数。 表5 JobMetadata 参数 参数类型 描述 id String 训练作业ID,
删除训练作业 功能介绍 删除训练作业。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI DELETE /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 无 响应参数 无 请求示例 如下以删除uuid为3faf5c03-aaa1-4cbe-879d-24b05d997347的训练作业为例。 DELETE https://end
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 action_type 是 String 对训练作业的操作请求。参数值设置为terminate时,表示终止训练作业操作。 响应参数 状态码:
哪怕你是经验无比丰富也要慢慢调参。 所以深度学习模型的构建其实一个高度的反复迭代的过程。 训练集,开发集,测试集 train 训练集,用于训练模型 dev 开发集(交叉训练集),用于测试模型 test 测试集,用于评估模型 上个时代的机器学习 上个时代的机器学习,由于数据量不多,所以对三个集的数据划分一般是:
Object 会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 update_job_configs请求参数说明 参数