搜索_华为云

使用数据工程构建预测大模型数据集 - 盘古大模型 PanguLargeModels

列：每列表示一种特征。每列的数据类型应保持一致，不同列可以具有不同的数据类型。顺序：表格中的行通常按照特定顺序排列。行数：数据表的行数应大于5000行。维度：数据的维度（列数）应大于10维。数据完整性：必须确保数据中没有缺失值。构建预测大模型数据集流程在ModelArts Stu

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古预测大模型
约束与限制 - 盘古大模型 PanguLargeModels

模型开发-模型最小训练单元不同模型的最小训练单元有所不同，具体信息请参见模型能力与规格。模型开发-NLP大模型请求的最大Token数不同系列的NLP大模型支持请求的最大Token数有所不同，具体信息请参见模型能力与规格。

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍
查看NLP大模型评测报告 - 盘古大模型 PanguLargeModels

每个数据集上的得分为模型在当前数据集上的通过率；评测能力项中若有多个数据集则按照数据量的大小计算通过率的加权平均数。综合能力综合能力是计算所有数据集通过率的加权平均数。表3 NLP大模型人工评测指标说明评测指标（人工评测）指标说明准确性模型生成答案正确且无事实性错误。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 评测NLP大模型
文本对话 - 盘古大模型 PanguLargeModels

"亲爱的小朋友们，你们好呀！今天我们要来聊一聊一条非常特别的大河——长江。长江是我们中国的一条非常长的河流，它从青藏高原出发，一直流到了上海，最后流入大海哦。长江好长好长，它是我们中国第一大河，也是世界上第三长的河流呢！长江不仅仅是一条河流，它还是很多鱼类的家园。在长江里，有一种鱼类是我

 帮助中心 > 盘古大模型 PanguLargeModels > API参考 > API > NLP大模型
其他类数据集格式要求 - 盘古大模型 PanguLargeModels

其他类数据集格式要求除文本、图片、视频、气象、预测类数据集外，平台还支持导入其他类数据集，即用户训练模型时使用的自定义数据集。其他类数据集支持发布其他类数据集操作，不支持数据加工操作。其他类数据集要求单个文件大小不超过50GB，单个压缩包大小不超过50GB，文件数量最多1000个。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
如何调整训练参数，使盘古大模型效果最优 - 盘古大模型 PanguLargeModels

2/4/8/10 训练轮数是指需要完成全量训练数据集训练的次数。训练轮数越大，模型学习数据的迭代步数就越多，可以学得更深入，但过高会导致过拟合；训练轮数越小，模型学习数据的迭代步数就越少，过低则会导致欠拟合。您可根据任务难度和数据规模进行调整。一般来说，如果目标任务的难度较大或

 帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题
创建插件 - 盘古大模型 PanguLargeModels

的依据。参数类型该参数值的数据类型，当前支持三种类型。 String：字符串类型 Integer：四字节整型 Number：八字节浮点数请求方式默认以Body方式请求。是否必填指定该参数是否为必填项。打开开关：必填关闭开关：非必填默认值参数的默认值，如果插件服

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 创建与管理插件
管理盘古工作空间成员 - 盘古大模型 PanguLargeModels

可以选择“全局服务资源”，即服务部署时不区分区域，访问全局级服务，不需要切换区域，全局服务不支持基于区域项目授权。如对象存储服务（OBS）、内容分发网络（CDN）等。选择完成后，单击“确定”。图4 设置最小授权范围单击“完成”，完成用户组授权。图5 完成授权创建盘古子用户创建盘古子用户步骤如下：

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 准备工作 > 创建并管理盘古工作空间
创建NLP大模型训练任务 - 盘古大模型 PanguLargeModels

模型保存步数每训练一定数量的步骤（或批次），模型的状态将会被保存。可以通过以下公式预估已训练的数据量： token_num = step * batch_size * sequence token_num：已训练的数据量（以Token为单位）。 step：已完成的训练步数。 ba

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 训练NLP大模型
常见问题 - 盘古大模型 PanguLargeModels

常见问题使用java sdk出现第三方库冲突当出现第三方库冲突的时，如Jackson，okhttp3版本冲突等。可以引入如下bundle包(3.0.40-rc版本后)，该包包含所有支持的服务和重定向了SDK依赖的第三方软件，避免和业务自身依赖的库产生冲突： <dependency>

帮助中心 > 盘古大模型 PanguLargeModels > SDK参考
评估文本类数据集 - 盘古大模型 PanguLargeModels

在左侧导航栏中选择“数据工程 > 数据发布 > 数据评估”，单击界面右上角“创建评估任务”。在“数据集选择”页签选择需要评估的加工数据集，并设置抽样样本的数量与字符数。单击“下一步”，选择评估标准。单击“下一步”设置评估人员，单击“下一步”填写任务名称。单击“完成创建”，将返回至“数据评估”页面，评估任务创建成功后状态将显示为“已创建”。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集 > 发布文本类数据集
图片类数据集格式要求 - 盘古大模型 PanguLargeModels

size 是表示图像的像素信息。 width：必选字段，图像的宽度。 height：必选字段，图像的高度。 depth：必选字段，图像的通道数。 segmented 是表示是否用于分割，取值为0或1。0表示没有分割标注，1表示有分割标注。 object 是目标对象信息，包括被标

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
使用“能力调测”调用科学计算大模型 - 盘古大模型 PanguLargeModels

初始场预报的天气预报结果，从而提供对未来天气状态的概率信息。这种方法可以更好地表达预报的不确定性，从而提高预报的准确性和可靠性。集合成员数用于选择生成预报的不同初始场的数量，取值为2~10。扰动类型用于选择生成集合预报初始场的扰动类型，包括perlin加噪和CNOP加噪两种方式。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古科学计算大模型 > 调用科学计算大模型
无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

基于大模型的数据泛化：您可以通过调用大模型（比如盘古提供的任意一个规格的基础功能模型）来获取有监督场景。一个比较常见的方法是，将无监督的文本按照章节、段落、字符数进行切片，让模型基于这个片段生成问答对，再将段落、问题和答案三者组装为有监督数据。使用模型构建的优点是数据丰富度更高，缺点是成本较高。当您

 帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题
创建NLP大模型评测任务 - 盘古大模型 PanguLargeModels

选择“自动评测”。评测规则选择“基于规则”。评测数据集评测模板：使用预置的专业数据集进行评测。单个评测集：由用户指定评测指标（F1分数、准去率、BLEU、Rouge）并上传评测数据集进行评测。选择“单个评测集”时需要上传待评测数据集。评测结果存储位置模型评测结果的存储位置。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 评测NLP大模型
基于NL2JSON助力金融精细化运营 - 盘古大模型 PanguLargeModels

"relation_operator":"xx"}]} 步骤4.综合以上内容和json格式，输出json 微调数据清洗：如下提供了该场景实际使用的数清洗策略，供您参考：判断数据中的JSON结构是否符合预先定义的接口结构。异常数据示例如下： {"context": "…", "target":

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 从基模型训练出行业大模型
打造政务智能问答助手 - 盘古大模型 PanguLargeModels

来源一：互联网开源数据集，如政府网站网页、政府在线问答公开数据、政务百科等。来源二：特定的私域数据，针对于具体场景和项目需求，收集相关的文本数据。比如通过与当地政府的政数局进行合作，获取政府部门提供的内部脱敏数据等。相关的数据格式包括但不限于：在线网页、离线word文档、离线txt文件、离线excel表格、离

 帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 从基模型训练出行业大模型
创建推理作业 - 盘古大模型 PanguLargeModels

Perlin噪音时，可以将多个不同频率的噪音叠加在一起，以增加噪音的复杂度和细节。每个频率的噪音称为一个octave，而叠加的octave数越多，噪音的复杂度也就越高。取值范围：[1, 10)。 ensemble_noise_perlin_x 否 Double 用于选择集合预报的Perlin加噪x经度方向的尺度。

帮助中心 > 盘古大模型 PanguLargeModels > API参考 > API > 科学计算大模型 > 气象/降水模型
打造短视频营销文案创作助手 - 盘古大模型 PanguLargeModels

您可以从平台的训练日志中获取到每一步的Loss，并绘制成Loss曲线。本场景的一个Loss曲线示例如下：图1 Loss曲线通过观察，该Loss曲线随着迭代步数的增加呈下降趋势直至稳定，证明整个训练状态是正常的。若Loss曲线呈现轻微阶梯式下降，为正常现象。模型持续优化：本场景采用了下表中的推理

 帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 从基模型训练出行业大模型
图片类清洗算子能力清单 - 盘古大模型 PanguLargeModels

图片类清洗算子能力清单数据清洗算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台提供了图文类、图片类清洗算子，算子能力清单见表1。表1 图片类清洗算子能力清单算子分类

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍

总条数： 41

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用数据工程构建预测大模型数据集 - 盘古大模型 PanguLargeModels

约束与限制 - 盘古大模型 PanguLargeModels

查看NLP大模型评测报告 - 盘古大模型 PanguLargeModels

文本对话 - 盘古大模型 PanguLargeModels

其他类数据集格式要求 - 盘古大模型 PanguLargeModels

如何调整训练参数，使盘古大模型效果最优 - 盘古大模型 PanguLargeModels

创建插件 - 盘古大模型 PanguLargeModels

管理盘古工作空间成员 - 盘古大模型 PanguLargeModels

创建NLP大模型训练任务 - 盘古大模型 PanguLargeModels

常见问题 - 盘古大模型 PanguLargeModels

评估文本类数据集 - 盘古大模型 PanguLargeModels

图片类数据集格式要求 - 盘古大模型 PanguLargeModels

使用“能力调测”调用科学计算大模型 - 盘古大模型 PanguLargeModels

无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

创建NLP大模型评测任务 - 盘古大模型 PanguLargeModels

基于NL2JSON助力金融精细化运营 - 盘古大模型 PanguLargeModels

打造政务智能问答助手 - 盘古大模型 PanguLargeModels

创建推理作业 - 盘古大模型 PanguLargeModels

打造短视频营销文案创作助手 - 盘古大模型 PanguLargeModels

图片类清洗算子能力清单 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线