检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
object 数据实际输入信息,异构作业只支持OBS。 表28 remote 参数 参数类型 描述 obs obs object 数据输入输出信息为OBS方式。 表29 obs 参数 参数类型 描述 obs_url String 训练作业需要的数据集OBS路径URL。如:“/usr/data/”。
0105,报错日志:“TypeError:‘float’object is not subscriptable”。 原因分析 根据报错日志分析,是因为一个float数据被当做对象下标访问了。 处理方法 将模型推理代码中的x[0][i]修改为x[i],重新部署服务进行预测。 父主题: 服务预测
按需配置。 OBS obs:bucket:ListAllMybuckets obs:bucket:HeadBucket obs:bucket:ListBucket obs:bucket:GetBucketLocation obs:object:GetObject obs:object:GetObjectVersion
lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。 图2 查看日志和性能 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907)
Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志和性能章节查看LoRA微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch
Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志和性能章节查看LoRA微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch
lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。 图2 查看日志和性能 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.909)
会下载历史版本占用磁盘空间。 在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。 参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创建的文件夹目录下。得到OBS下数据集结
从自定义镜像导入。 从OBS导入时使用自定义引擎。 按需配置。 OBS obs:bucket:ListAllMybuckets obs:bucket:HeadBucket obs:bucket:ListBucket obs:bucket:GetBucketLocation obs:object:GetObject
导入路径 选择需要导入数据的OBS路径,此位置会作为数据集的数据存储路径。 说明: “导入路径”不支持OBS并行文件系统下的路径,请选择OBS对象桶。 创建数据集时,此OBS路径下的数据会导入数据集,后续如果直接在OBS中修改数据,会造成数据集的数据与OBS的数据不一致,可能导致部分
400 ModelArts.4314 Obs error 访问OBS时由于用户鉴权或者路径无效等导致的OBS访问错误 请检查用户访问OBS的权限或者OBS路径相关的参数。 400 ModelArts.4315 Invalid OBS path. OBS路径无效 数据url不应包含// 400
object 数据实际输入信息,异构作业只支持OBS。 表28 remote 参数 参数类型 描述 obs obs object 数据输入输出信息为OBS方式。 表29 obs 参数 参数类型 描述 obs_url String 训练作业需要的数据集OBS路径URL。如:“/usr/data/”。
时间。 处理方法 在创建训练作业时,数据可以保存到OBS上。不建议使用TensorFlow、MXNet、PyTorch的OBS接口直接从OBS上读取数据。 如果文件较小,可以将OBS上的数据保存成“.tar”包。训练开始时从OBS上下载到“/cache”目录,解压以后使用。 如果文件较大,可以保存成多个“
在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。 参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创建的文件夹目录下。得到OBS下数据集结
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.908-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
mox #obs存放数据路径 obs_code_dir= "obs://<bucket_name>/llm_train" obs_data_dir= "obs://<bucket_name>/training_data" obs_model_dir= "obs://<bucket_name>/model"
SFT全参微调训练 前提条件 已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS。 Step1 创建训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendSpeed代码目录。
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite Cluster上的训练方案。训练框架使用的是ModelLink。 本方案目前仅适用于企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
当提示空间不足时,推荐使用EVS类型的Notebook实例。 参考如何在Notebook中上传下载OBS文件?操作指导,针对原有的Notebook,首先将代码和数据上传至OBS桶中。然后创建一个EVS类型的Notebook,将此OBS中的文件下载至Notebook本地(指新建的EVS类型Notebook)。
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的预训练和全量微调方案。训练框架使用的是ModelLink。 本方案目前仅适用于部分企业客户,完成