检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
重建、停止或删除训练作业 另存为算法 当您需要修改训练作业的算法时,可以在训练作业详情页面右上角,单击“另存为算法”。 在“创建算法”页面中,会自动填充上一次训练作业的算法参数配置,您可以根据业务需求在原来算法配置基础上进行修改。 订阅算法不支持另存为算法。
查询训练作业详情 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式一:根据指定的job_id查询。
训练作业性能降低 问题现象 使用ModelArts平台训练算法训练耗时增加。 原因分析 可能存在如下原因: 平台上的代码经过修改优化、训练参数有过变更。 训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。
ModelArts Standard平台提供了模型训练常用的预置框架,可以直接使用。 当预置框架不满足训练要求时,支持用户构建自定义镜像用于训练。 准备训练数据 训练数据除了训练数据集,也可以是预测模型。在创建训练作业前,需要先准备好训练数据。
训练网络迁移总结 确保算法在GPU训练时,持续稳定可收敛。避免在迁移过程中排查可能的算法问题,并且要有好的对比标杆。如果是NPU上全新开发的网络,请参考PyTorch迁移精度调优排查溢出和精度问题。
算法文件说明 上传到Octopus平台的本地算法文件包需要满足Octopus平台要求,本章节介绍算法文件基本要求及相关环境变量说明。 算法文件基本要求 算法文件目录结构可参考如下,需要包括启动文件“xxx.py”(启动文件名可自定义),以及一些必要的训练文件。
删除训练作业 功能介绍 删除训练作业。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI DELETE /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。
开发用于预置框架训练的代码 当您使用ModelArts Standard提供的预置框架创建算法时,您需要提前完成算法的代码开发。本章详细介绍如何改造本地代码以适配ModelArts上的训练。
对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型,还需要手动修改训练参数和tokenizer文件,具体请参见训练tokenizer文件说明。 Step2 创建预训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。
使用已有算法创建训练作业:选择创建方式(使用我的算法) 使用订阅算法创建训练作业:选择创建方式(使用订阅算法) 使用预置镜像创建训练作业:选择创建方式(自定义算法) 使用自定义镜像创建训练作:选择创建方式(使用自定义镜像) 配置训练参数:配置训练作业的输入、输出、超参、环境变量等参数
训练作业调测 使用SDK调测单机训练作业 使用SDK调测多机分布式训练作业 父主题: 训练作业
电信经验嵌入降低模型开发门槛 集成50+电信领域AI算子&项目模板提升训练效率,降低AI开发门槛,让开发者快速完成模型开发和训练 AutoML自动完成特征选择、超参选择及算法选择,提升模型开发效率 高效开发工具JupyterLab和WebIDE:交互式编码体验、0编码数据探索及云端编码及调试
Job Description 训练作业的简要描述。 Algorithm Source 训练算法来源,分为“常用框架”和“自定义镜像”两种,二者选一项即可。
单击“创建训练作业”进入创建训练作业页面。 在“创建训练作业”页面,填写相关参数信息,然后单击“提交”。 创建方式:选择“自定义算法”。 启动方式:选择“自定义”。 镜像:选择上传的自定义镜像。
对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型,还需要手动修改训练参数和tokenizer文件,具体请参见训练tokenizer文件说明。 Step2 创建预训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。
对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型,还需要手动修改训练参数和tokenizer文件,具体请参见训练tokenizer文件说明。 Step2 创建预训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。
对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型,还需要手动修改训练参数和tokenizer文件,具体请参见训练tokenizer文件说明。 Step2 创建预训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。
训练作业 OBS操作相关故障 云上迁移适配故障 硬盘限制故障 外网访问限制 权限问题 GPU相关问题 业务代码问题 预置算法运行故障 训练作业运行失败 专属资源池创建训练作业 训练作业性能问题 Ascend相关问题
停止训练作业版本 功能介绍 停止训练作业。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。
训练作业 创建训练作业 训练作业调测 查询训练作业列表 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练日志 查询训练作业的运行指标 父主题: 训练管理