检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
--tokenizer-type:tokenizer的类型,可选项有['BertWordPieceLowerCase','BertWordPieceCase','GPT2BPETokenizer','PretrainedFromHF'],一般为PretrainedFromHF。
--tokenizer-type:tokenizer的类型,可选项有['BertWordPieceLowerCase','BertWordPieceCase','GPT2BPETokenizer','PretrainedFromHF'],一般为PretrainedFromHF。
RUN_TYPE pretrain 表示训练类型。可选择值:[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler] 示例值需要根据数据集的不同,选择其一。
--tokenizer-type:tokenizer的类型,可选项有['BertWordPieceLowerCase','BertWordPieceCase','GPT2BPETokenizer','PretrainedFromHF'],一般为PretrainedFromHF。
--tokenizer-type:tokenizer的类型,可选项有['BertWordPieceLowerCase','BertWordPieceCase','GPT2BPETokenizer','PretrainedFromHF'],一般为PretrainedFromHF。
表2 计费公式 资源类型 计费公式 资源单价 计算资源(vCPU) 规格单价 * 计算节点个数 * 计费时长 请参见ModelArts价格详情中的“规格价格”。
表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具(Deepspeed) 规格与节点数 llama2 llama2 7B lora 4096/8192 gradient_accumulation_steps
修改详细步骤如下所示: 选择指令微调类型 sft,复制sft_yaml样例模板内容覆盖demo.yaml文件内容。 lora,复制lora_yaml样例模板内容覆盖demo.yaml文件内容。
--tokenizer-type:tokenizer的类型,可选项有['BertWordPieceLowerCase','BertWordPieceCase','GPT2BPETokenizer','PretrainedFromHF'],一般为PretrainedFromHF。
数据类型:图片。 数据集输入位置:用来存放源数据集信息,例如本案例中从Gallery下载的数据集。单击图标选择您的OBS桶下的任意一处目录,但不能与输出位置为同一目录。 数据集输出位置:用来存放输出的数据标注的相关信息,或版本发布生成的Manifest文件等。
-hf-num-gpus 1 --batch-size 4 \ -w {output_path} --debug 参数说明如下: --datasets, 评测的数据集及评测方法,其中 mmlu 是数据集,ppl 是评测方法 --hf-type, HuggingFace模型权重类型
--hf-type:HuggingFace模型权重类型(base,chat), 默认为chat, 依据实际的模型选择。 --hf-path:本地 HuggingFace 权重的路径,比如/home/ma-user/nfs/model/Meta-Llama-3-8B。
选择训练策略类型。 sft,复制sft_yaml样例模板内容覆盖demo.yaml文件内容。 lora,复制lora_yaml样例模板内容覆盖demo.yaml文件内容。 dpo,复制dpo_yaml样例模板内容覆盖demo.yaml文件内容。
--hf-type:HuggingFace模型权重类型(base,chat),默认为chat,依据实际的模型选择。 --hf-path:本地 HuggingFace 权重的路径,比如/home/ma-user/nfs/model/Meta-Llama-3-8B。
--hf-type:HuggingFace模型权重类型(base,chat), 默认为chat, 依据实际的模型选择。 --hf-path:本地 HuggingFace 权重的路径,比如/home/ma-user/nfs/model/Meta-Llama-3-8B。
属性 描述 是否必填 数据类型 name 名称。 是 str title 不填默认使用name的值。 否 str description 描述信息。 否 str create_dir 表示是否自动创建目录,默认为“False”。
value=wf.Placeholder(name="data_format", placeholder_type=wf.PlaceholderType.ENUM, default="NCHW", enum_list=["NCHW", "NHWC"], description="输入数据类型
RUN_TYPE pretrain 表示训练类型。可选择值:[pretrain, sft, lora]。
AlpacaStyleInstructionHandler:使用LLama-Factory模板Alpaca数据集 SharegptStyleInstructionHandler:使用LLama-Factory模板Sharegpt数据集 其他参数设置,详解如下: 参数 示例值 参数说明 stage pt 表示训练类型
RUN_TYPE pretrain 表示训练类型。可选择值:[pretrain, sft, lora]。