检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架: DeepSpeed和Accelerate都是针对深度学习训练加速的工具,但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架,主要针对大规模模型和大规模数据集的训练。De
自动学习训练作业失败 自动学习训练作业创建失败,一般是因为后台服务故障导致的,建议稍等片刻,然后重新创建训练作业。如果重试超过3次仍无法解决,请联系华为云技术支持。 自动学习训练作业创建成功,但是在运行过程中,由于一些故障导致作业运行失败,排查方式如下: 首次出现请检查您的账户是
模型训练 自动学习训练作业失败 父主题: 自动学习
超过最大递归深度导致训练作业失败 问题现象 ModelArts训练作业报错: RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析 递归深度超过了Python默认的递归深度,导致训练失败。 处理方法
如果OBS路径符合要求,请您按照服务具体情况执行3。 自动学习项目不同导致的失败原因可能不同。 图像识别训练失败请检查是否存在损坏图片,如有请进行替换或删除。 物体检测训练失败请检查数据集标注的方式是否正确,目前自动学习仅支持矩形标注。 预测分析训练失败请检查标签列的选取。标签列目前支持离散和连续型数据,只能选择一列。
模型训练 创建图像分类自动学习项目并完成图片标注,训练按钮显示灰色,无法开始训练? 自动学习项目中,如何进行增量训练? 自动学习训练后的模型是否可以下载? 自动学习为什么训练失败? 自动学习模型训练图片异常? 自动学习使用子账号单击开始训练出现错误Modelarts.0010 自
自动学习模型训练图片异常? 使用自动学习的图像分类或物体检测算法时,标注完成的数据在进行模型训练后,训练结果为图片异常。针对不同的异常情况说明及解决方案参见表1。 表1 自动学习训练中图片异常情况说明(图像分类和物体检测) 序号 图片异常显示字段 图片异常说明 解决方案字段 解决方案说明
力,保障用户训练作业的长稳运行 提供训练作业断点续训与增量训练能力,即使训练因某些原因中断,也可以基于checkpoint接续训练,保障需要长时间训练的模型的稳定性和可靠性,避免重头训练耗费的时间与计算成本 支持训练数据使用SFS Turbo文件系统进行数据挂载,训练作业产生的中间和结果等数据可以直接高速写入到SFS
自动学习项目中,如何进行增量训练? 在自动学习项目中,每训练一次,将自动产生一个训练版本。当前一次的训练结果不满意时(如对训练精度不满意),您可以适当增加高质量的数据,或者增减标签,然后再次进行训练。 增量训练目前仅支持“图像分类”、“物体检测”、“声音分类”类型的自动学习项目。
自动学习训练后的模型是否可以下载? 不可以下载。但是您可以在AI应用管理页面查看,或者将此模型部署为在线服务。 父主题: 模型训练
创建图像分类自动学习项目并完成图片标注,训练按钮显示灰色,无法开始训练? 图像分类项目,图片标注至少需要两个类别,且每个类别至少5张图片,才可以开始自动训练。 父主题: 模型训练
自动学习中偏好设置的各参数训练速度大概是多少 偏好设置中: performance_first:性能优先,训练时间较短,模型较小。对于TXT、图片类训练速度为10毫秒。 balance:平衡 。对于TXT、图片类训练速度为14毫秒 。 accuracy_first:精度优先,训练时
Object 会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 get_job_log请求参数说明 参数 是否必选 参数类型
String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 返回参数说明 参数 参数类型 描述 kind String 训练作业类型。默认使用job。 枚举值: job:训练作业 hetero_job:异构作业
自动学习使用子账号单击开始训练出现错误Modelarts.0010 用主账号给子账号配置ModelArts所使用的OBS桶的ACL权限即可。 父主题: 模型训练
训练管理 训练作业 资源和引擎规格接口
训练管理(旧版) 训练作业 训练作业参数配置 可视化作业 资源和引擎规格接口 作业状态参考 父主题: 历史API
同一个自动学习项目可以训练多次,每次训练会注册一个新的模型一个版本。如第一次训练版本号为“0.0.1”,下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行模型部署的操作。 评估结果说明 根据训练数据类的不同评估结果会包含不同的指标。 离散值评估结果 包含
数据缺失。 标签列指的是在训练任务中被指定为训练目标的列,即最终通过该数据集训练得到模型时的输出(预测项)。 除标签列外数据集中至少还应包含两个有效特征列(列的取值至少有两个且数据缺失比例低于10%)。 训练数据的csv文件不能包含表头,否则会导致训练失败。 父主题: 准备数据
参数类型 描述 kind 是 String 训练作业类型。默认使用job,表示训练作业。 metadata 是 JobMetadata object 训练作业元信息。 algorithm 否 JobAlgorithm object 训练作业算法。目前支持三种形式: id:只取算法的id;