检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可能原因是跨区域算法同步或者创建共享存储超时 训练作业已排队,正在等待资源分配 训练作业排队失败 训练作业开始运行 训练作业运行成功 训练作业运行失败 训练作业被抢占 系统检测到您的作业疑似卡死,请及时前往作业详情界面查看并处理 训练作业已重启 训练作业已被手动终止 训练作业已被终止
训练作业调测 使用SDK调测单机训练作业 使用SDK调测多机分布式训练作业 父主题: 训练作业
对于ChatGLMv3-6B和Qwen系列模型,还需要手动修改tokenizer文件,具体请参见训练tokenizer文件说明。 Step2 创建预训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。
训练作业的启动文件如何获取训练作业中的参数? 训练作业参数有两种来源,包括后台自动生成的参数和用户手动输入的参数。
删除训练作业 功能介绍 删除训练作业。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI DELETE /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。
调用获取训练作业支持的公共规格接口获取训练作业支持的资源规格。 调用获取训练作业支持的AI预置框架接口查看训练作业支持的引擎类型和版本。 调用创建算法接口创建一个算法,记录算法id。 调用创建训练作业接口使用刚创建的算法返回的uuid创建一个训练作业,记录训练作业id。
平台介绍 一站式开发平台,包括训练云、调试云和应用云(即好望商城),帮助开发者进行算法开发和调试,加快算法上线。 训练云:即ModelArts平台,提供全自动和半自动的算法训练和模型开发。 调试云:包含模型转换、打包和调试,供开发者进行算法APP基本功能验证。
在左侧导航栏中选择“模型训练 > 训练作业”,默认进入“训练作业”列表。单击“创建训练作业”进入创建训练作业页面。 在“创建训练作业”页面,填写相关参数信息,然后单击“提交”。 创建方式:选择“自定义算法”。 启动方式:选择“自定义”。 镜像:选择上传的自定义镜像。
如果选择的算法是使用旧版镜像创建的,那么创建训练作业时输入输出参数的超参目录就是/work。 图3 创建算法 如果选择的算法不是使用旧版镜像创建的,那么创建训练作业时输入输出参数的超参目录就是/ma-user。 父主题: 创建训练作业
训练作业常用文件路径是什么? 训练环境的当前目录以及代码目录在容器的位置一般通过环境变量${MA_JOB_DIR}读取,${MA_JOB_DIR}变量对应的实际值是/home/ma-user/modelarts/user-job-dir。 父主题: 编写训练代码
仅在本地单机调试时不需要该参数,提交远程训练时必选,会将训练脚本压缩并上传到该路径。 准备训练输出,如果用户不需要将训练输出上传到OBS,可以省略这一步。
“MA_JOB_DIR=/home/ma-user/modelarts/user-job-dir” MA_MOUNT_PATH ModelArts挂载至训练容器内的路径,用于临时存放训练算法、算法输入、算法输出、日志等文件。
删除训练作业版本 功能介绍 删除训练作业一个版本。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。
训练作业 创建训练作业 训练作业调测 查询训练作业列表 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练日志 查询训练作业的运行指标 父主题: 训练管理
停止训练作业版本 功能介绍 停止训练作业。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。
常见案例 训练作业卡死常见现象的案例和解决方案如下: 复制数据卡死 训练前卡死 训练中途卡死 训练最后一个epoch卡死 父主题: 训练作业卡死
父主题: 训练作业
训练最后一个epoch卡死 问题现象 通过日志查看数据切分是否对齐,若未对齐,容易导致部分进程完成训练退出,而部分训练进程因未收到其他进程反馈卡死,如下图同一时间有的进程在epoch48,而有的进程在epoch49。 解决方案 对齐数据。 父主题: 训练作业卡死
训练作业的“/cache”目录是否安全? ModelArts训练作业的程序运行在容器中,容器挂载的目录地址是唯一的,只有运行时的容器能访问到。因此训练作业的“/cache”是安全的。 父主题: 创建训练作业
父主题: 训练作业