检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
in/alpaca_data.json 使用generate_datasets.py脚本生成数据集方法: generate_datasets.py脚本通过指定输入输出长度的均值和标准差,生成一定数量的正态分布的数据。具体操作命令如下,可以根据参数说明修改参数。 cd benchmark_tools
“数据集输入位置”即原始数据存储的OBS路径。 “数据集输出位置”,指在ModelArts完成数据标注后,执行数据集发布操作后,在此指定路径下,按数据集版本,生成相关目录。包含ModelArts中使用的Manifest文件(包含数据及标注信息)。详细文件说明可参见数据集发布后,相关文件的目录结构说明。
ifest文件。 Manifest文件中定义了标注对象和标注内容的对应关系。Manifest文件中也可以只有原始文件信息,没有标注信息,如生成的未标注的数据集。 Manifest文件使用UTF-8编码,Manifest处理程序需具备UTF-8处理能力。 Manifest文件中文本
各模型训练需要的启动脚本,训练脚本以分类的方式集中在scripts文件夹中。 # 自动生成数据目录结构 |── processed_for_input #目录结构会自动生成,无需用户创建 |── ${model_name}
|──scripts/ # 训练需要的启动脚本 # 自动生成数据目录结构 |── processed_for_input #目录结构会自动生成,无需用户创建 |── ${model_name}
在创建训练作业页面配置环境变量“ROUTE_PLAN”,取值为“true”,具体操作请参见管理训练容器环境变量。 代码示例 训练作业的启动脚本示例如下。 启动脚本中设置plog生成后存放在“/home/ma-user/modelarts/log/modelarts-job-{id}/worker-{index}/”目
0表示贪婪采样。 stop 否 None None/Str/List 用于停止生成的字符串列表。返回的输出将不包含停止字符串。 例如:["你","好"],生成文本时遇到"你"或者"好"将停止文本生成。 stream 否 False Bool 是否开启流式推理。默认为False,表示不开启流式推理。
数值较高,输出结果更加随机。 数值较低,输出结果更加集中和确定。 取值范围:0~2 默认值:1 核采样/top_p 设置推理核采样。调整输出文本的多样性,数值越大,生成文本的多样性就越高。 取值范围:0.1~1 默认值:1 top_k 选择在模型的输出结果中选择概率最高的前K个结果。 取值范围:1~1000
Step1 创建用户组并加入用户 主用户账号下面可以创建多个子账号,并对子账号的权限进行分组管理。此步骤介绍如何创建用户组、子账号、并将子账号加入用户组中。 主用户登录管理控制台,单击右上角用户名,在下拉框中选择“统一身份认证”,进入IAM服务。 图1 统一身份认证 创建用户组。
ain/alpaca_data.json 使用generate_dataset.py脚本生成数据集方法: generate_datasets.py脚本通过指定输入输出长度的均值和标准差,生成一定数量的正态分布的数据。具体操作命令如下,可以根据参数说明修改参数。 cd benchmark_tools
|──scripts/ # 训练需要的启动脚本 # 自动生成数据目录结构 |── processed_for_input # 目录结构会自动生成,无需用户创建 |── ${model_name}
|──scripts/ # 训练需要的启动脚本 # 自动生成数据目录结构 |── processed_for_input # 目录结构会自动生成,无需用户创建 |── ${model_name}
|──scripts/ # 训练需要的启动脚本 # 自动生成数据目录结构 |── processed_for_input # 目录结构会自动生成,无需用户创建 |── ${model_name}
|──scripts/ # 训练需要的启动脚本 # 自动生成数据目录结构 |── processed_for_input # 目录结构会自动生成,无需用户创建 |── ${model_name}
SAVE_INTERVAL 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。 模型版本保存次数=TRAI
|──scripts/ # 训练需要的启动脚本 # 自动生成数据目录结构 |── processed_for_input #目录结构会自动生成,无需用户创建 |── ${model_name}
endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中,默认生成在“processed_for_input”文件夹下。如果用户需要修改,可添加并自定义该变量。 OUTPUT_SAVE_DIR /home
endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中,默认生成在“processed_for_input”文件夹下。如果用户需要修改,可添加并自定义该变量。 OUTPUT_SAVE_DIR /home
各模型训练需要的启动脚本,训练脚本以分类的方式集中在scripts文件夹中。 # 自动生成数据目录结构 |── processed_for_input #目录结构会自动生成,无需用户创建 |── ${model_name}
SAVE_INTERVAL 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。 模型版本保存次数=TRAI