检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集格式要求请参见文本类数据集格式要求。 构建NLP大模型所需数据量 使用数据工程构建盘古NLP大模型数据集进行模型训练时,所需数据量见表1。 表1 构建NLP大模型所需数据量 模型规格 训练类型 推荐数据量 最小数据量(数据条数) 单场景推荐训练数据量 单条数据Token长度限制
为什么微调后的盘古大模型评估结果很好,但实际场景表现很差 当您在微调过程中,发现模型评估的结果很好,一旦将微调的模型部署以后,输入一个与目标任务同属的问题,回答的结果却不理想。这种情况可能是由于以下几个原因导致的,建议您依次排查: 测试集质量:请检查测试集的目标任务和分布与实际场
”。 图2 选择数据集 在加工步骤编排页面展示了预先设置好的开始、结束步骤。在左侧“添加算子”分页可选择合适的算子,如个人数据脱敏、文本长度过滤等。 导入的数据集格式为“JSONL”,因此默认添加了JSON内容提取算子。 图3 加工算子编排 单击各算子右上角的图标可进行拖动,调整算子的编排顺序。
文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 数据集最大100万个文件,单
创建工作流时,工作流默认包含了开始、结束和大模型组件,每个组件需要配置不同的参数,如组件配置、输入和输出参数等。基于该工作流,开发者可通过拖、拉、拽可视化组件等方式添加更多的组件,实现复杂业务流程的编排,从而快速构建Agent。 工作流方式主要面向目标任务包含多个复杂步骤、对输出结果成功率和准确率有严格要求的复杂业务场景。
字,用于描述变量的含义或作用。 提示词评估数据集约束限制 上传文件限xlsx格式。 数据行数不小于10行,不大于50行。 数据不允许相同表头,表头数量小于20个。 数据单条文本长度不超过1000。 创建数据集时会对相关限制条件进行校验。 数据参考格式如下: 图1 数据参考格式 图2
ModelArts Studio大模型开发平台支持创建图片类数据集,创建时可导入图片、图片+Caption、图片+QA对三种类型的数据,具体格式要求详见表1。 表1 图片类数据集格式要求 文件内容 文件格式 文件要求 图片 tar、图片目录 图片:支持jpg、jpeg、png、bmp类型,单张图片
自其他空间的数据集。 图3 创建加工数据集 单击“下一步”进入“算子编排”页面。对于视频类数据集,可选择的加工算子及参数配置请参见表1。 在左侧“添加算子”模块勾选所需算子。 在右侧“加工步骤编排”页面配置各算子的参数,可通过右侧按钮,拖拽算子的上下顺序来调整算子在加工任务流中的执行顺序。
取、数据转换、数据过滤三类,文本类加工算子能力清单见表1。 表1 文本类加工算子能力清单 算子分类 算子名称 算子描述 数据提取 WORD内容提取 从Word文档中提取文字,并保留原文档的目录、标题和正文等结构,不保留图片、表格、公式、页眉、页脚。 TXT内容提取 从TXT文件中提取所有文本内容。
数据保护技术 盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数
自其他空间的数据集。 图3 创建加工数据集 单击“下一步”进入“算子编排”页面。对于气象类数据集,可选择的加工算子及参数配置请参见表1。 在左侧“添加算子”模块勾选所需算子。 在右侧“加工步骤编排”页面配置各算子的参数,可通过右侧按钮,拖拽算子的上下顺序来调整算子在加工任务流中的执行顺序。
帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类加工算子能力清单 算子分类 算子名称 算子描述 科学计算 气象预处理 将二进制格式的气象数据文件转换成结构化json数据。 父主题:
户指南》“开发盘古NLP大模型 > 部署NLP大模型 > 创建NLP大模型部署任务”。 操作流程 创建盘古多语言文本翻译工作流的流程见表1。 表1 创建盘古多语言文本翻译工作流流程 操作步骤 说明 步骤1:创建并配置插件 本样例场景实现文本翻译插件的创建与配置。 步骤2:创建并配置工作流
他空间的数据集。 图3 创建加工数据集 单击“下一步”进入“算子编排”页面。对于图片类数据集,可选择的加工算子及参数配置请参见表1、表2。 在左侧“添加算子”模块勾选所需算子。 在右侧“加工步骤编排”页面配置各算子的参数,可通过右侧按钮,拖拽算子的上下顺序来调整算子在加工任务流中的执行顺序。
算子编排完成后,单击“立即执行”,平台会直接启动数据加工任务。若单击“保存”,数据集列表页中将新增一个任务状态为“待处理”的数据加工任务,可单击操作列“执行”启动加工。 图6 数据加工 图7 执行加工 当加工数据集任务运行成功后,状态将从“处理中”变为“成功”,表示数据已经完成加工,加工完成的数据集支持上线、编辑与删除操作。
进行深度加工,以生成高质量的训练数据。 平台支持视频类数据集的加工操作,分为数据提取、数据过滤、数据打标三类,视频类加工算子能力清单见表1。 表1 视频类加工算子能力清单 算子分类 算子名称 算子描述 数据提取 镜头拆分 根据视频中的镜头场景变化将长视频拆分为短视频片段,如果某个
估8条,剩余2条待评估。 图2 查看评估进展 评估完成后,可以查看每条数据的评估结果。 在评估结果中,“预期结果”表示变量值(问题)所预设的期望回答,“生成结果”表示模型回复的结果。通过比对“预期结果”、“生成结果”的差异可以判断提示词效果。 父主题: 批量评估提示词效果
与时序数据不同,回归分类数据不要求数据具有时间顺序。 具体格式要求详见表1。 表1 预测类数据集格式要求 文件内容 文件格式 文件样例 时序 csv 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,预测目标列要求为连续型数据。 目录下只有1个数据文件时,文件无命名要求。
AK/SK认证:通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求。 Token认证 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限。
构建科学计算大模型训练数据要求 构建科学计算大模型进行训练的数据要求见表1。 表1 科学计算大模型训练数据要求 模型类别 特征要求 水平分辨率要求 区域范围要求 时间要求 数据获取方式 气象/降水模型 需包含4个表面层特征(10m u风、10m v风、2米温度、海平面气压),13高