检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架: DeepSpeed和Accelerate都是针对深度学习训练加速的工具,但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架,主要针对大规模模型和大规模数据集的训练。De
自动学习训练作业失败 自动学习训练作业创建失败,一般是因为后台服务故障导致的,建议稍等片刻,然后重新创建训练作业。如果重试超过3次仍无法解决,请联系华为云技术支持。 自动学习训练作业创建成功,但是在运行过程中,由于一些故障导致作业运行失败,排查方式如下: 首次出现请检查您的账户是
如果OBS路径符合要求,请您按照服务具体情况执行3。 自动学习项目不同导致的失败原因可能不同。 图像识别训练失败请检查是否存在损坏图片,如有请进行替换或删除。 物体检测训练失败请检查数据集标注的方式是否正确,目前自动学习仅支持矩形标注。 预测分析训练失败请检查标签列的选取。标签列目前支持离散和连续型数据,只能选择一列。
模型训练 自动学习训练作业失败 父主题: 自动学习
超过最大递归深度导致训练作业失败 问题现象 ModelArts训练作业报错: RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析 递归深度超过了Python默认的递归深度,导致训练失败。 处理方法
自动学习模型训练图片异常? 使用自动学习的图像分类或物体检测算法时,标注完成的数据在进行模型训练后,训练结果为图片异常。针对不同的异常情况说明及解决方案参见表1。 表1 自动学习训练中图片异常情况说明(图像分类和物体检测) 序号 图片异常显示字段 图片异常说明 解决方案字段 解决方案说明
模型训练 创建图像分类自动学习项目并完成图片标注,训练按钮显示灰色,无法开始训练? 自动学习项目中,如何进行增量训练? 自动学习训练后的模型是否可以下载? 自动学习为什么训练失败? 自动学习模型训练图片异常? 自动学习使用子账号单击开始训练出现错误Modelarts.0010 自
自动学习项目中,如何进行增量训练? 在自动学习项目中,每训练一次,将自动产生一个训练版本。当前一次的训练结果不满意时(如对训练精度不满意),您可以适当增加高质量的数据,或者增减标签,然后再次进行训练。 增量训练目前仅支持“图像分类”、“物体检测”、“声音分类”类型的自动学习项目。
力,保障用户训练作业的长稳运行 提供训练作业断点续训与增量训练能力,即使训练因某些原因中断,也可以基于checkpoint接续训练,保障需要长时间训练的模型的稳定性和可靠性,避免重头训练耗费的时间与计算成本 支持训练数据使用SFS Turbo文件系统进行数据挂载,训练作业产生的中间和结果等数据可以直接高速写入到SFS
epochs=10) 父主题: 基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型
自动学习训练后的模型是否可以下载? 不可以下载。但是您可以在AI应用管理页面查看,或者将此模型部署为在线服务。 父主题: 模型训练
创建图像分类自动学习项目并完成图片标注,训练按钮显示灰色,无法开始训练? 图像分类项目,图片标注至少需要两个类别,且每个类别至少5张图片,才可以开始自动训练。 父主题: 模型训练
自动学习中偏好设置的各参数训练速度大概是多少 偏好设置中: performance_first:性能优先,训练时间较短,模型较小。对于TXT、图片类训练速度为10毫秒。 balance:平衡 。对于TXT、图片类训练速度为14毫秒 。 accuracy_first:精度优先,训练时
Object 会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 get_job_log请求参数说明 参数 是否必选 参数类型
自动学习使用子账号单击开始训练出现错误Modelarts.0010 用主账号给子账号配置ModelArts所使用的OBS桶的ACL权限即可。 父主题: 模型训练
String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 返回参数说明 参数 参数类型 描述 kind String 训练作业类型。默认使用job。 枚举值: job:训练作业 hetero_job:异构作业
训练管理 训练作业 资源和引擎规格接口
模型训练 使用特征工程处理后生成的训练集进行模型训练。 创建联邦学习训练任务(简易编辑器) 单击简易编辑器界面右上角的“训练”。 进入“训练任务配置”界面,如图1所示。 图1 训练任务配置 参数说明,如表1所示。 表1 参数配置 区域 参数名称 参数描述 任务说明 任务名称 训练任务的名称。
迁移学习 如果当前数据集的特征数据不够理想,而此数据集的数据类别和一份理想的数据集部分重合或者相差不大的时候,可以使用特征迁移功能,将理想数据集的特征数据迁移到当前数据集中。 进行特征迁移前,请先完成如下操作: 将源数据集和目标数据集导入系统,详细操作请参见数据集。 创建迁移数据
训练管理(旧版) 训练作业 训练作业参数配置 可视化作业 资源和引擎规格接口 作业状态参考 父主题: 历史API