检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
NODE_RANK=0 NPUS_PER_NODE=4 sh scripts/llama2/0_pl_lora_7b.sh 最后,请参考查看日志和性能章节查看LoRA微调的日志和性能。 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6
4字符)。同一个Step的输入名称不能重复。 是 str data 数据集导入节点的输入数据对象。 是 数据集、OBS或标注任务相关对象,当前仅支持Dataset,DatasetConsumption,DatasetPlaceholder,OBSPath,OBSConsumpti
执行训练启动命令后,等待模型载入,当出现“training”关键字时,表示开始训练。训练过程中,训练日志会在最后的Rank节点打印。 图1 等待模型载入 最后,请参考查看日志和性能章节查看预训练的日志和性能。 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6
执行训练启动命令后,等待模型载入,当出现“training”关键字时,表示开始训练。训练过程中,训练日志会在最后的Rank节点打印。 图1 等待模型载入 最后,请参考查看日志和性能章节查看预训练的日志和性能。 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6
PyTorch模型获取模型shape,主要有如下两种方式获取: 方式一:通过stable diffusion的PyTorch模型获取模型shape。 方式二:通过查看ModelArts-Ascend代码仓库,根据每个模型的configs文件获取已知的shape大小。 下文主要介绍如何通过方式一获取模型shape。
修改容器引擎空间大小 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“Standard资源池”页签,查看资源池列表。 在旧版资源池迁移到新版资源池的过程中,资源池状态显示为“受限”。此时,资源池无法进行扩缩容和退订。 单击某个资源池操作列右侧
app名称。 app_remark 否 String app备注。 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 响应参数 状态码:200 表4 响应Body参数
是否必选 参数类型 描述 default_value 否 String 标签属性默认值。 id 否 String 标签属性ID。可通过调用标签列表查询。 name 否 String 标签属性名称。不能超过64个字符,不能包含字符!<>=&"'。 type 否 String 标签属性类型。可选值如下:
denied。请依次排查: 请确保读取的OBS桶和Notebook处于同一站点区域,例如:都在华北-北京四站点。不支持跨站点访问OBS桶。具体请参见查看OBS桶与ModelArts是否在同一个区域。 请确认操作Notebook的账号有权限读取OBS桶中的数据。如没有权限,请参见在Model
ne-parallel-size,默认为1。 注意:权重转换完成后,需要将转换后的文件与原始Hugging Face模型中的文件进行对比,查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json等to
执行训练启动命令后,等待模型载入,当出现“training”关键字时,表示开始训练。训练过程中,训练日志会在最后的Rank节点打印。 图1 等待模型载入 最后,请参考查看日志和性能章节查看预训练的日志和性能。 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6
执行训练启动命令后,等待模型载入,当出现“training”关键字时,表示开始训练。训练过程中,训练日志会在最后的Rank节点打印。 图1 等待模型载入 最后,请参考查看日志和性能章节查看预训练的日志和性能。 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6
app名称。 app_remark 否 String app备注。 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 响应参数 状态码:200 表4 响应Body参数
on、MetricInfo 表3 MetricInfo 属性 描述 是否必填 数据类型 input_data metric文件的存储对象,当前仅支持JobStep节点的输出 是 JobStep的输出 json_key 需要获取的metric信息对应的key值 是 str 结构内容详解:
String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 表2 Query参数 参数 是否必选 参数类型 描述 offset 否 Integer 数据条目偏移量。 limit 否 Integer
max_length:模型的max_length。 dtype:为模型dtype,默认为bfloat16。 执行完成后,记得unset环境变量,否则会导致后续推理服务启动出错。 unset EAGLE_TARIN_MODE 执行完成后,如果used_npus>1,则需要将训练生成data数据重新分配为8
max_length:模型的max_length。 dtype:为模型dtype,默认为bfloat16。 执行完成后,记得unset环境变量,否则会导致后续推理服务启动出错。 unset EAGLE_TARIN_MODE 执行完成后,如果used_npus>1,则需要将训练生成data数据重新分配为8
max_length:模型的max_length。 dtype:为模型dtype,默认为bfloat16。 执行完成后,记得unset环境变量,否则会导致后续推理服务启动出错。 unset EAGLE_TARIN_MODE 执行完成后,如果used_npus>1,则需要将训练生成data数据重新分配为8
$(readlink -f "$0")) 表示执行脚本时的路径。 MODEL_NAME llama2-13b 对应模型名称。 STAGE pt 表示当前的训练阶段。可选择值:【pt、sft】 sft:代表监督微调; pt:代表预训练; FINETUNING_TYPE full 表示训练策略。可选择值【full、lora】:
会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 返回参数说明 参数 参数类型 描述 kind String 训练作业类型。默认使用job。