检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在ModelArts中导入模型对于镜像大小有什么限制? ModelArts部署使用的是容器化部署,容器运行时有空间大小限制,当用户的模型文件或者其他自定义文件,系统文件超过容器引擎空间大小时,会提示镜像内空间不足。 当前,公共资源池容器引擎空间的大小最大支持50G,专属资源池容器
重转换的过程。 若用户进行自定义数据集预处理以及权重转换,可通过编辑 1_preprocess_data.sh 、2_convert_mg_hf.sh 中的具体python指令运行。本代码中有许多环境变量的设置,在下面的指导步骤中,会展开进行详细的解释。 若用户希望自定义参数进行
换的过程。 如果用户进行自定义数据集预处理以及权重转换,可通过编辑 1_preprocess_data.sh 、2_convert_mg_hf.sh 中的具体python指令运行。本代码中有许多环境变量的设置,在下面的指导步骤中,会展开进行详细的解释。 如果用户希望自定义参数进行
动完成数据预处理和权重转换的过程。 如果用户进行自定义数据集预处理以及权重转换,可通过编辑 1_preprocess_data.sh 、2_convert_mg_hf.sh中的具体python指令,并在Notebook环境中运行执行。用户可通过Notebook中创建.ipynb文
换的过程。 如果用户进行自定义数据集预处理以及权重转换,可通过编辑 1_preprocess_data.sh 、2_convert_mg_hf.sh 中的具体python指令运行。本代码中有许多环境变量的设置,在下面的指导步骤中,会展开进行详细的解释。 如果用户希望自定义参数进行
重转换的过程。 若用户进行自定义数据集预处理以及权重转换,可通过编辑 1_preprocess_data.sh 、2_convert_mg_hf.sh 中的具体python指令运行。本代码中有许多环境变量的设置,在下面的指导步骤中,会展开进行详细的解释。 若用户希望自定义参数进行
# 训练需要的启动脚本 # 以下目录结构,用户自己创建 |── training_data #原始数据目录,需要用户手动创建并上传,后续操作步骤中会提示 ├── tr
/scripts/llama2/0_pl_sft_13b.sh 选择用户自己的专属资源池,以及规格与节点数。防止训练过程中出现内存溢出的情况,用户可参考表2进行配置。 图2 选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径
/scripts/llama2/0_pl_lora_13b.sh 选择用户自己的专属资源池,以及规格与节点数。防止训练过程中出现内存溢出的情况,用户可参考表2进行配置。 图2 选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 数据集下载 本教程使用Alpaca数据集,数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来
准备权重 获取对应模型的权重文件,获取链接参考表1。 在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。 参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件
准备权重 获取对应模型的权重文件,获取链接参考表1。 在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。 参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件
LLama-Factory ShareGPT 指令微调数据:ShareGPT 格式来源于通过记录 ChatGPT 与用户对话的数据集,主要用于对话系统的训练。它更侧重于多轮对话数据的收集和组织,模拟用户与 AI 之间的交互。数据集包含有以下字段: conversations:包含一系列对话对象,每个
3-1.0.1.0,容器镜像中安装的infiniband驱动版本需要与宿主机版本匹配,即同为4.3-1.0.1.0。 可能部分区域的网卡较新,会出现更高版本的infiniband驱动版本,如果您遇到了infiniband驱动安装后,仍然无法使能infiniband网卡的问题,可以
性能调优总体思路 为了便于用户快速进行迁移调优,降低调优门槛,ModelArts提供了MA-Adivisor性能自动诊断工具。用户采集性能profiling数据后,可通过该工具自动扫描profiling数据,工具分析完数据后会给出可能的性能问题点及调优建议,用户可以根据调优建议做相应
log”文件夹下。如果用户需要修改,可添加并自定义该变量。 CONVERT_MG2HF TRUE 训练完成的权重文件默认不会自动转换为Hugging Face格式权重。如果需要自动转换,则在运行脚本添加变量CONVERT_MG2HF并赋值TRUE。如果用户后续不需要自动转换,则在
log”文件夹下。如果用户需要修改,可添加并自定义该变量。 CONVERT_MG2HF TRUE 训练完成的权重文件默认不会自动转换为Hugging Face格式权重。如果需要自动转换,则在运行脚本添加变量CONVERT_MG2HF并赋值TRUE。如果用户后续不需要自动转换,则在
log”文件夹下。如果用户需要修改,可添加并自定义该变量。 CONVERT_MG2HF TRUE 训练完成的权重文件默认不会自动转换为Hugging Face格式权重。如果需要自动转换,则在运行脚本添加变量CONVERT_MG2HF并赋值TRUE。如果用户后续不需要自动转换,则在
计费示例 以下案例中出现的费用价格仅供参考,实际价格请参见各服务价格详情。 示例:使用公共资源池。计费项:计算资源费用 + 存储费用 假设用户于2023年4月1日10:00:00创建了一个的训练作业,使用规格为CPU: 8 核 32GB、计算节点个数为1个(单价:3.40 元/小
ModelArts团队标注的数据分配机制是什么? 目前不支持用户自定义成员任务分配,数据是平均分配的。 当数量和团队成员人数不成比例,无法平均分配时,则将多余的几张图片,随机分配给团队成员。 如果样本数少于待分配成员时,部分成员会存在未分配到样本的情况。样本只会分配给labele