检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
in 下载开源数据集naruto-blip-captions并上传到宿主机上,官网下载地址:https://huggingface.co/datasets/lambdalabs/naruto-blip-captions/tree/main。用户也可以使用自己的数据集。 下载开源数
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.909)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.909)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.908)
准备代码 准备AscendSpeed训练代码、分词器Tokenizer和推理代码。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备镜像 准备训练模型适用的容器镜像。 预训练 预训练 介绍如何进行预训练,包括训练数据处理、超参配置、训练任务、断点续训及性能查看。
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.909)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于DevServer适配PyTorch NPU训练指导(6.3.906)
String 训练作业需要的数据集OBS路径URL,modelarts会通过数据集ID和数据集版本ID自动解析生成。如:“/usr/data/”。 表19 obs 参数 参数类型 描述 obs_url String 训练作业需要的数据集OBS路径URL。如:“/usr/data/”。 表20
训练脚本说明参考 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.908)
应用示例 创建图像分类数据集并进行标注任务 创建并完成图像分类的智能标注任务 开发环境的应用示例 以PyTorch框架创建训练作业(新版训练) 创建和修改工作空间 管理ModelArts服务的委托授权
L # 安装bc命令 sudo yum install -y bc Step5 准备训练数据集 用户需自行制作数据集,并将数据集上传到容器的工作目录中,再赋予容器读写数据集目录的权限。 数据集制作请参考Qwen-VL官方指导资料,将所有数据样本放到一个列表中并存入json文件中。
AI Gallery(新版) AI Gallery使用流程 发布和管理AI Gallery模型 发布和管理AI Gallery数据集 发布和管理AI Gallery项目 发布和管理AI Gallery镜像 发布和管理AI Gallery中的AI应用 使用AI Gallery微调大师训练模型
Gallery也支持使用SDK构建自定义模型接入AI Gallery。 Transformers库介绍 AI Gallery使用的Transformers机器学习库是一个开源的基于Transformer模型结构提供的预训练语言库。Transformers库注重易用性,屏蔽了大量AI模型开发使用过程中
单击编辑框右侧的对勾完成编辑。 保存成功的标签信息会在资产搜索页成为过滤分类条件。 图5 添加标签 关联资产 Notebook可以关联数据集资产。当Notebook关联了数据集时,数据集页面也显示关联了Notebook。 选择“关联资产”页签,单击右上方的“编辑”,在搜索框中输入待关联资产的ID,单击“关联”。
data-annotations/labels 表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选
Standard资源池功能介绍 ModelArts Standard资源池,提供了在使用ModelArts进行AI开发(包括自动学习、创建Workflow工作流、创建Notebook实例、创建训练作业和创建推理服务)所需的计算资源,您可根据需要购买使用Standard资源池。 图1
下载完成后,将数据上传至SFS相应目录中。由于数据集过大,推荐先通过obsutil工具将数据集传到OBS桶后,再将数据集迁移至SFS。 在本机机器上运行,通过obsutil工具将本地数据集传到OBS桶。 # 将本地数据传至OBS中 # ./obsutil cp ${数据集所在的本地文件夹路径} ${存放数据集的obs文件夹路径}
String 训练作业需要的数据集OBS路径URL,ModelArts会通过数据集ID和数据集版本ID自动解析生成。如:“/usr/data/”。 表19 obs 参数 参数类型 描述 obs_url String 训练作业需要的数据集OBS路径URL。如:“/usr/data/”。 表20
Object 数据源信息,详细请见表3。 width Long 图片长度。 height Long 图片高度。 depth Long 图片深度。 segmented String 分割。 mask_source String 图像分割得到的mask文件的云存储路径,目前只支持PNG格式。
auto_sync_dataset Boolean 团队标注任务的标注结果是否自动同步至数据集。可选值如下: true:团队标注任务的标注结果自动同步至数据集 false:团队标注任务的标注结果不自动同步至数据集 check_rate Double 团队标注任务验收比例。 checking_task_desc