正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备模型训练代码 预置框架启动文件的启动流程说明 开发用于预置框架训练的代码 开发用于自定义镜像训练的代码 父主题: 使用ModelArts Standard训练模型
训练作业创建失败报错: 准备阶段超时。可能原因是跨区域算法同步或者创建共享存储超时 训练作业已排队,正在等待资源分配 训练作业排队失败 训练作业开始运行 训练作业运行成功 训练作业运行失败 训练作业被抢占 系统检测到您的作业疑似卡死,请及时前往作业详情界面查看并处理 训练作业已重启
Standard模型训练 使用ModelArts Standard自定义算法实现手写数字识别 基于ModelArts Standard专属资源池训练模型
当您使用自定义脚本创建算法的时候,如果您的模型引用了其他依赖,您需要在“算法管理 > 创建算法”的“代码目录”下放置相应的文件或安装包。 安装python依赖包请参考模型中引用依赖包时,如何创建训练作业? 安装C++的依赖库请参考如何安装C++的依赖库? 在预训练模型中加载参数请参考如何在训练中加载部分训练好的参数?
选择“NAIE Package”。 返回模型管理界面,单击模型包所在行,对应“操作”列图标,弹出“发布推理服务”对话框。 请根据实际情况设置“版本”、“计算节点规格”等信息,或保持默认值也可以,单击“确定”。 等待系统发布推理服务,大约需要10分钟。发布成功后,模型包所在行的图标更新为。
预训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中,具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置 以llama2-13b预训练为例,执行脚本0_pl_pretrain_13b
片。 单击“创建”,完成项目创建,并进入项目概览页面。 如果用户当前不在模型训练服务首页,想要回到首页,请单击界面左上角的“模型训练”,从下拉框中选择“模型训练”。 父主题: 使用模型训练服务快速训练算法模型
ckpt的代码,使能读取前一次训练保存的预训练模型。 ModelArts Standard中如何实现断点续训练 在ModelArts Standard训练中实现断点续训练或增量训练,建议使用“训练输出”功能。 在创建训练作业时,设置训练“输出”参数为“train_url”,在指定的训练输出的数据存
查看模型评估结果 训练作业运行结束后,ModelArts可为您的模型进行评估,并且给出调优诊断和建议。 针对使用预置算法创建训练作业,无需任何配置,即可查看此评估结果(由于每个模型情况不同,系统将自动根据您的模型指标情况,给出一些调优建议,请仔细阅读界面中的建议和指导,对您的模型进行进一步的调优)。
装的Ascend RUN包,或者设置一些训练运行时额外需要的全局环境变量。 如何查看训练作业日志 在训练作业详情页,训练日志窗口提供日志预览、日志下载、日志中搜索关键字、系统日志过滤能力。 预览 系统日志窗口提供训练日志预览功能,如果训练作业有多个节点,则支持查看不同计算节点的日
各个模型训练前文件替换 在训练开始前,因模型权重文件可能与训练框架不匹配或有优化,因此需要针对模型的tokenizer文件进行修改或替换,不同模型的tokenizer文件修改内容如下。 falcon-11B模型 在训练开始前,针对falcon-11B模型中的tokenizer文件
各个模型训练前文件替换 在训练开始前,因模型权重文件可能与训练框架不匹配或有优化,因此需要针对模型的tokenizer文件进行修改或替换,不同模型的tokenizer文件修改内容如下。 falcon-11B模型 在训练开始前,针对falcon-11B模型中的tokenizer文件
作业日志选择OBS中的路径,训练作业的日志信息则保存该路径下。 最后,提交训练作业,训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905)
ModelArts训练好后的模型如何获取? 使用自动学习产生的模型只能在ModelArts上部署上线,无法下载至本地使用。 使用自定义算法或者订阅算法训练生成的模型,会存储至用户指定的OBS路径中,供用户下载。 父主题: 功能咨询
管理模型训练作业 查看训练作业详情 查看训练作业资源占用情况 查看模型评估结果 查看训练作业事件 查看训练作业日志 修改训练作业优先级 使用Cloud Shell调试生产训练作业 重建、停止或删除训练作业 管理训练容器环境变量 查看训练作业标签 父主题: 使用ModelArts Standard训练模型
分布式模型训练 分布式训练功能介绍 创建单机多卡的分布式训练(DataParallel) 创建多机多卡的分布式训练(DistributedDataParallel) 示例:创建DDP分布式训练(PyTorch+GPU) 示例:创建DDP分布式训练(PyTorch+NPU) 父主题:
创建Tensorboard方式: 创建训练任务的时候同步创建Tensorboard 在模型训练工程代码编辑界面控制台的Tensorboard页签中创建Tensorboard 新建模型训练工程,创建训练任务后,在任务详情的Tensorboard页签中创建Tensorboard 配置训练任务时,AI引擎选择Py
推荐开启预检,预检可提前发现节点故障、驱动故障。 “1” 如何查看训练环境变量 在创建训练作业时,“启动命令”输入为“env”,其他参数保持不变。 当训练任务执行完成后,在训练作业详情页面中查看“日志”。日志中即为所有的环境变量信息。 图1 查看日志 父主题: 管理模型训练作业
模型训练服务首页 如何回到模型训练服务首页? 创建项目公开至组的参数是什么含义? 父主题: 常见问题