搜索_华为云

文本类数据集格式要求 - 盘古大模型 PanguLargeModels

型，包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"} 单个文件大小不超过50GB，文件数量最多1000个。。单轮问答 jsonl、csv jsonl格式：数据由问答对构成，context、target分别表示问题、答案，具体格式示例如下： {"context":

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
创建NLP大模型评测数据集 - 盘古大模型 PanguLargeModels

“选择路径”上传数据文件。 NLP大模型评测数据集支持的格式见表1。表1 评测数据集格式模型类型评测数据集格式 NLP大模型文本-单轮问答-jsonl格式上传数据文件后，填写“数据集名称”与“描述”，单击“立即创建”。在左侧导航栏中选择“数据工程 > 数据发布 > 数

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 评测NLP大模型
创建NLP大模型评测任务 - 盘古大模型 PanguLargeModels

NLP大模型自动评测任务参数说明参数分类参数名称参数说明选择服务模型来源选择“NLP大模型”。服务来源支持已部署服务、外部服务两种选项。单次最多可评测10个模型。已部署服务：选择部署至ModelArts Studio平台的模型进行评测。外部服务：通过API的方式接入外部模型

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 评测NLP大模型
数据工程 - 盘古大模型 PanguLargeModels

有效提升数据清洗效率并支持大规模数据处理，确保生成的数据集符合训练的标准。数据合成：平台支持利用预置或自定义的数据指令对预训练文本、单轮问答、单轮问答（人设））数据集类型进行处理，并根据设定的轮数生成新数据。通过数据合成技术，可以生成大量高质量的训练数据，这些数据可以用于大模型的预训练，增强模型的泛化能力和性能。

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 产品功能
创建预测大模型训练任务 - 盘古大模型 PanguLargeModels

"列名2"]，默认设置为[]，表示没有特征需要标准化。标准化将特征值缩放到0到1的范围，处理分布差异较大的数值特征。预测目标列指定预测目标变量的列名，仅支持单目标变量预测。格式为["列名"]，默认设置为[]，表示选择最后一列作为预测目标变量。训练集&验证集比例将数据集划分为训练集和验证集。填写验证集的比例（默认为

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古预测大模型 > 训练预测大模型
创建知识库 - 盘古大模型 PanguLargeModels

M。导入表格数据。支持上传xlsx、xls、csv格式的表格数据，要求单个文件不超过10M。单击“点此上传”上传本地文件至知识库。支持单次上传文件个数不超过300个。上传完成后，单击“确定”，完成知识库的创建。知识库创建完成后，如果想在当前知识库中继续上传文件，可单击该知

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 创建与管理知识库
数据工程介绍 - 盘古大模型 PanguLargeModels

数据内容支持的文件格式文本类文档 txt、mobi、epub、docx、pdf 网页 html 预训练文本 jsonl 单轮问答 jsonl、csv 单轮问答（人设） jsonl、csv 多轮问答 jsonl 多轮问答（人设） jsonl 问答排序 jsonl、csv 图片类

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
标注文本类数据集 - 盘古大模型 PanguLargeModels

如果需要将该标注任务移交给其他人员，可以单击“移交”，并设置移交人员以及移交数量，单击“确定”。进入标注页面后，逐一对数据进行标注。如图1，以标注单轮问答数据为例，需要逐一确认问题（Q）及答案（A）是否正确，如果问题或答案不正确，可以对其进行二次编辑。图1 文本类数据集标注示例一条数

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工文本类数据集
打造政务智能问答助手 - 盘古大模型 PanguLargeModels

["福田区支持哪些组织开展退役军人教育培训工作？判断以上问题是否需要调用检索，请回答“是”或“否”"], "target ": "是"} 问答模块：准备单轮问答和检索增强的数据集。 {"context": ["请问福田英才荟卫生系统人才与福田英才荟高层次人才是不同的部门受理么？"], "target":

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 从基模型训练出行业大模型
文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

电子书内容提取从电子书中提取出所有文本内容。智能文档解析从PDF（支持扫描版）或图片中提取文本，转化为结构化数据，持文本、表格、表单、公式等内容提取。数据转换个人数据脱敏对文本中的手机号码、身份证件、邮箱地址、url链接、国内车牌号、IP地址、MAC地址、IMEI、

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
图片类数据集格式要求 - 盘古大模型 PanguLargeModels

图像分类数据集支持格式为ModelArts image classification 1.0。要求用户将标注对象和标注文件存储在同一目录，并且一一对应，标注文件txt中可以放单标签，也可以放多标签。当目录下存在对应的txt文件时，以txt文件内容作为图像的标签。示例如下所示，import-dir-1和import-dir-2为导入子目录。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求

总条数： 51

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

文本类数据集格式要求 - 盘古大模型 PanguLargeModels

创建NLP大模型评测数据集 - 盘古大模型 PanguLargeModels

创建NLP大模型评测任务 - 盘古大模型 PanguLargeModels

数据工程 - 盘古大模型 PanguLargeModels

创建预测大模型训练任务 - 盘古大模型 PanguLargeModels

创建知识库 - 盘古大模型 PanguLargeModels

数据工程介绍 - 盘古大模型 PanguLargeModels

标注文本类数据集 - 盘古大模型 PanguLargeModels

打造政务智能问答助手 - 盘古大模型 PanguLargeModels

文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

图片类数据集格式要求 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线