检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
# 训练需要的启动脚本 # 以下目录结构,用户自己创建 |── training_data #原始数据目录,需要用户手动创建并上传,后续操作步骤中会提示 |── tr
# 训练需要的启动脚本 # 以下目录结构,用户自己创建 |── training_data #原始数据目录,需要用户手动创建并上传,后续操作步骤中会提示 |── tr
--tokenizer-model : tokenizer路径。 Megatron转HuggingFace参数说明 如果用户需要自动转换,则在训练作业中,添加变量CONVERT_MG2HF并赋值True。如果用户后续不需要自动转换,则在环境变量中必须删除CONVERT_MG2HF变量。 Megatron转
ModelArts支持训练模型过程中安装第三方依赖包。在训练代码目录下放置“pip-requirements.txt”文件后,在训练启动文件被执行前系统会执行如下命令,以安装用户指定的Python Packages。 pip install -r pip-requirements.txt 仅使用预置框架创建的训练作业支持在训练模型时引用依赖包。
ModelArts训练中不同规格资源“/cache”目录的大小是多少? 在创建训练作业时可以根据训练作业的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源,不同资源规格有不同的容量。 k8s磁盘的驱逐策略是90%,所以可以正常使用的磁盘大小应该是“cache目录容量
_id}/versions 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。 请求消息 请求参数如表2所示。 表2 请求参数
jobs/{job_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 String 可视化作业ID。 请求消息 无请求参数。 响应消息 响应参数如表2所示。
obs/{job_id} 参数说明如表1所示。 表1 参数说明 参数 是否为必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 String 可视化作业ID。 请求消息 请求参数如表2所示。 表2 请求参数
_id}/restart 参数说明如表1所示。 表1 参数说明 参数 是否为必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 String 可视化作业ID。 请求消息 无请求参数。 响应消息 响应参数如表2所示。
PyTorch大模型训练的精度问题的分析、定位可以参考如下思路: 大模型训练通常使用多机训练,鉴于多机训练复现问题的成本较高,且影响因子较多,建议用户先减少模型层数,使模型能够单机训练,确认单机训练是否也存在精度问题,若存在,则使用下述手段定位精度问题,使得单机精度达标,然后再恢复层数拉起多机训练。
准备权重 获取对应模型的权重文件,获取链接参考支持的模型列表和权重文件。 在创建的OBS桶下创建文件夹用以存放权重文件,例如在桶中创建文件夹。将下载的权重文件上传至OBS中,得到OBS下数据集结构。此处以qwen-14b举例。 obs://${bucket_name}/${folder-name}/
准备权重 获取对应模型的权重文件,获取链接参考支持的模型列表和权重文件。 在创建的OBS桶下创建文件夹用以存放权重文件,例如在桶中创建文件夹。将下载的权重文件上传至OBS中,得到OBS下数据集结构。此处以qwen-14b举例。 obs://${bucket_name}/${folder-name}/
准备权重 获取对应模型的权重文件,获取链接参考支持的模型列表和权重文件。 在创建的OBS桶下创建文件夹用以存放权重文件,例如在桶中创建文件夹。将下载的权重文件上传至OBS中,得到OBS下数据集结构。此处以qwen-14b举例。 obs://${bucket_name}/${folder-name}/
'c:\python39\Scripts\ephemeral-port-reserve.exe.deleteme ”。 原因分析 用户使用权限问题导致。 处理方法 用户电脑切换到管理员角色,键盘快捷键(Windows+R模式)并输入cmd,进入黑色窗口,执行如下命令: python -m pip
0:打标者 1:审核者 2:团队管理者 3:数据集拥有者 status Integer 标注成员的当前登录状态。可选值如下: 0:未发送邀请邮件 1:已发送邀请邮件但未登录 2:已登录 3:标注成员已删除 update_time Long 更新时间。 worker_id String
/scripts/llama2/0_pl_sft_13b.sh 选择用户自己的专属资源池,以及规格与节点数。防止训练过程中出现内存溢出的情况,用户可参考表2进行配置。 图2 选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径
中,否则不能直接用于推理。 用户自定义执行权重转换参数修改说明 同样以 llama2 为例,用户可直接编辑 scripts/llama2/2_convert_mg_hf.sh 脚本,自定义环境变量的值,并运行该脚本。其中环境变量详细介绍如下: 如果用户要自定义数据处理脚本并且单独执行,同样以
中,否则不能直接用于推理。 用户自定义执行权重转换参数修改说明 同样以 llama2 为例,用户可直接编辑 scripts/llama2/2_convert_mg_hf.sh 脚本,自定义环境变量的值,并运行该脚本。其中环境变量详细介绍如下: 若用户要自定义数据处理脚本并且单独执行,同样以
中,否则不能直接用于推理。 用户自定义执行权重转换参数修改说明 同样以 llama2 为例,用户可直接编辑 scripts/llama2/2_convert_mg_hf.sh 脚本,自定义环境变量的值,并运行该脚本。其中环境变量详细介绍如下: 如果用户要自定义数据处理脚本并且单独执行,同样以
中,否则不能直接用于推理。 用户自定义执行权重转换参数修改说明 同样以 llama2 为例,用户可直接编辑 scripts/llama2/2_convert_mg_hf.sh 脚本,自定义环境变量的值,并运行该脚本。其中环境变量详细介绍如下: 如果用户要自定义数据处理脚本并且单独执行,同样以