搜索_华为云

图片类加工算子能力清单 - 盘古大模型 PanguLargeModels

数据转换图文异常字符过滤将文本数据中携带的异常字符替换为空值，数据条目不变。不可见字符，比如U+0000-U+001F 表情符六网页标签符号<p> 特殊符号，比如● █ ◆ 乱码和无意义的字符�� 图片类加工算子能力清单表2 图片类加工算子功能表算子分类算子名称

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

数据集中若存在异常数据，可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。说明：盘古NLP大模型仅支持接入文本类数据集。若数据类型为文档、网页，则加工数据集为必选项，否则为可选项。创建文本类数据集加工任务上线加工后的数据集对加工后的数据集执行上线操作。上线加工后的文本类数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型
文本类数据集格式要求 - 盘古大模型 PanguLargeModels

文件格式文件要求文档 txt、mobi、epub、docx、pdf 数据集最大100万个文件，单文件最大10GB，整个数据集最大10TB。网页 html 数据集最大100万个文件，单文件最大10GB，整个数据集最大10TB。预训练文本 jsonl jsonl格式：text表示预

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 数据集格式要求
文本类加工算子能力清单 - 盘古大模型 PanguLargeModels

基于标签路径提取HTML数据内容，并将其他与待提取标签路径无关的内容删除。电子书内容提取从电子书中提取出所有文本内容。智能文档解析从PDF（支持扫描版）或图片中提取文本，转化为结构化数据，持文本、表格、表单、公式等内容提取。数据转换个人数据脱敏对文本中的电话号码、邮箱、身份证、车牌号

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
打造政务智能问答助手 - 盘古大模型 PanguLargeModels

来源一：互联网开源数据集，如政府网站网页、政府在线问答公开数据、政务百科等。来源二：特定的私域数据，针对于具体场景和项目需求，收集相关的文本数据。比如通过与当地政府的政数局进行合作，获取政府部门提供的内部脱敏数据等。相关的数据格式包括但不限于：在线网页、离线word文档、离线txt文

 帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 从基模型训练出行业大模型
数据工程介绍 - 盘古大模型 PanguLargeModels

平台支持的数据类型数据类型数据内容数据文件格式要求文本类文档支持txt、mobi、epub、docx、pdf，详见文本类数据集格式要求。网页支持html，详见文本类数据集格式要求。预训练文本支持jsonl，详见文本类数据集格式要求。单轮问答支持jsonl、csv，详见文本类数据集格式要求。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集
为什么微调后的盘古大模型评估结果很好，但实际场景表现很差 - 盘古大模型 PanguLargeModels

为什么微调后的盘古大模型评估结果很好，但实际场景表现很差当您在微调过程中，发现模型评估的结果很好，一旦将微调的模型部署以后，输入一个与目标任务同属的问题，回答的结果却不理想。这种情况可能是由于以下几个原因导致的，建议您依次排查：测试集质量：请检查测试集的目标任务和分布与实际场

 帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题
如何评估微调后的盘古大模型是否正常 - 盘古大模型 PanguLargeModels

如何评估微调后的盘古大模型是否正常评估模型效果的方法有很多，通常可以从以下几个方面来评估模型训练效果： Loss曲线：通过Loss曲线的变化趋势来评估训练效果，确认训练过程是否出现了过拟合或欠拟合等异常情况。模型评估：使用平台的“模型评估”功能，“模型评估”将对您之前上传的测

 帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题
常见问题 - 盘古大模型 PanguLargeModels

常见问题使用java sdk出现第三方库冲突当出现第三方库冲突的时，如Jackson，okhttp3版本冲突等。可以引入如下bundle包(3.0.40-rc版本后)，该包包含所有支持的服务和重定向了SDK依赖的第三方软件，避免和业务自身依赖的库产生冲突： <dependency>

帮助中心 > 盘古大模型 PanguLargeModels > SDK参考
预测类数据集格式要求 - 盘古大模型 PanguLargeModels

预测类数据集格式要求平台支持创建预测类数据集，创建时可导入时序数据、回归分类数据。时序数据：时序预测数据是一种按时间顺序排列的数据序列，每个数据点都有一个时间戳，表示数据在时间上的位置。它用于预测未来事件或趋势，过去的数据会影响未来的预测。回归分类数据：回归分类数据包含多种

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 数据集格式要求
创建NLP大模型部署任务 - 盘古大模型 PanguLargeModels

适配架构类型。安全护栏选择模式安全护栏保障模型调用安全。若关闭，推理服务可能会有违规风险，建议开启。选择类型当前支持安全护栏基础版，内置了默认的内容审核规则，不可调整。资源配置实例数设置部署模型时所需的实例数，单次部署服务时，部署实例个数建议不大于10，否则可能触发限流导致部署失败。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 部署NLP大模型
其他类数据集格式要求 - 盘古大模型 PanguLargeModels

其他类数据集格式要求除文本、图片、视频、气象、预测类数据集外，用户训练模型时如果使用较特殊的数据集，ModelArts Studio大模型开发平台支持导入用户自定义的数据集。例如，在训练CV类算法（如图片分类、图片分割、图片检测等任务）时，用户需使用“其他”类型的数据集。其

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 数据集格式要求

总条数： 12

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

图片类加工算子能力清单 - 盘古大模型 PanguLargeModels

使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

文本类数据集格式要求 - 盘古大模型 PanguLargeModels

文本类加工算子能力清单 - 盘古大模型 PanguLargeModels

打造政务智能问答助手 - 盘古大模型 PanguLargeModels

数据工程介绍 - 盘古大模型 PanguLargeModels

为什么微调后的盘古大模型评估结果很好，但实际场景表现很差 - 盘古大模型 PanguLargeModels

如何评估微调后的盘古大模型是否正常 - 盘古大模型 PanguLargeModels

常见问题 - 盘古大模型 PanguLargeModels

预测类数据集格式要求 - 盘古大模型 PanguLargeModels

创建NLP大模型部署任务 - 盘古大模型 PanguLargeModels

其他类数据集格式要求 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线