搜索_华为云

统计NLP大模型调用信息 - 盘古大模型 PanguLargeModels

统计NLP大模型调用信息针对调用的大模型，平台提供了统一的管理功能。登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。单击左侧导航栏“调用统计”，选择“NLP”页签。选择当前调用的NLP大模型，可以按照不同时间跨度查看当前模型的调用

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 调用NLP大模型
如何调整训练参数，使盘古大模型效果最优 - 盘古大模型 PanguLargeModels

模型的收敛情况动态调整。数据批量大小（batch_size） >=1 4/8 数据批量大小是指对数据集进行分批读取训练时，所设定的每个批次数据大小。批量大小越大，训练速度越快，但是也会占用更多的内存资源，并且可能导致收敛困难或者过拟合；批量大小越小，内存消耗越小，但是收敛速度会

 帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类
Token计算器 - 盘古大模型 PanguLargeModels

描述 data 是 List<String> 待统计Token数的字符串。List长度必须为奇数。 with_prompt 否 Boolean 是否仅统计输入字符的Token数 true：仅统计输入字符串的Token数； false：统计输入字符串和推理过程产生字符的总Token数。

帮助中心 > 盘古大模型 PanguLargeModels > API参考 > API
气象类数据集格式要求 - 盘古大模型 PanguLargeModels

time_range：数据的时间范围，时间戳格式为毫秒数。 total_size：数据文件的总大小，单位为字节。 surface_features：生态特征列表，例如总叶绿素浓度（Tca）、叶绿素浓度（Chl）、硅藻浓度（Dia）。单个文件大小不超过50GB，文件数量最多1000个。气象-海浪数据 nc、

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

N4 微调 - 1000条/每场景 ≥ 1万条/每场景 4K版本：4096 32K版本：32768 评测NLP大模型所需数据量要求所有文本大小最大不超过100MB，目录下文件数量最多不超过100个。数据条数范围为：3-1000条。构建NLP大模型数据集流程在ModelArts

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型
查看NLP大模型评测报告 - 盘古大模型 PanguLargeModels

数据量的大小计算通过率的加权平均数。综合能力综合能力是计算所有数据集通过率的加权平均数。表3 NLP大模型人工评测指标说明评测指标（人工评测）指标说明准确性模型生成答案正确且无事实性错误。 average 模型生成句子与实际句子基于评估指标得到的评分后，统计平均得分。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 评测NLP大模型
文本类数据集格式要求 - 盘古大模型 PanguLargeModels

文本类数据集格式要求文件内容文件格式文件要求文档 txt、mobi、epub、docx、pdf 单个文件大小不超过50GB，文件数量最多1000个。网页 html 单个文件大小不超过50GB，文件数量最多1000个。预训练文本 jsonl jsonl格式：text表示预训练所使用的文本数据，具体格式示例如下：

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
查看科学计算大模型训练状态与指标 - 盘古大模型 PanguLargeModels

表模型性能越好。 ACC ACC（异常相关系数，距平相关系数，Anomaly Correlation Coefficient）是一个重要的统计指标，用于衡量预报系统的质量。它通过计算预报值与观测值之间的相关性来评估预报的准确性。ACC的计算涉及到预报值、观测值和气候平均值的差异，

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古科学计算大模型 > 训练科学计算大模型
盘古专业大模型能力与规格 - 盘古大模型 PanguLargeModels

盘古专业大模型能力与规格盘古专业大模型是盘古百亿级NL2SQL模型，适用于问数场景下的自然语言问题到SQL语句生成，支持常见的聚合函数（如去重、计数、平均、最大、最小、合计）、分组、排序、比较、条件（逻辑操作、离散条件、范围区间等条件的混合和嵌套）、日期操作，支持多表关联查询。

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 模型能力与规格
数据预处理优化 - 盘古大模型 PanguLargeModels

模型对异常值过度敏感，导致拟合异常值而非整体数据分布。训练过程中损失波动较大，甚至出现梯度爆炸。模型在测试集上表现不佳，泛化能力差。优化调整策略如下：通过统计学方法如计算四分位距、Z-score、样本分布等排查异常值。通过可视化方法，数据可视化或者使用箱线图进行异常值的排查。结合数据自身特征，进行异常数据的筛选。

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 模型调优实践 > 盘古科学计算大模型调优实践
优化训练超参数 - 盘古大模型 PanguLargeModels

模型的收敛情况动态调整。数据批量大小（batch_size） >=1 4/8 数据批量大小是指对数据集进行分批读取训练时，所设定的每个批次数据大小。批量大小越大，训练速度越快，但是也会占用更多的内存资源，并且可能导致收敛困难或者过拟合；批量大小越小，内存消耗越小，但是收敛速度会

 帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 模型调优实践 > 盘古NLP大模型调优实践
调用NLP大模型 - 盘古大模型 PanguLargeModels

调用NLP大模型使用“能力调测”调用NLP大模型使用API调用NLP大模型统计NLP大模型调用信息父主题：开发盘古NLP大模型

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型
创建NLP大模型训练任务 - 盘古大模型 PanguLargeModels

好地收敛。数据批量大小数据批量是指训练过程中将数据集分成小批次进行读取，并设定每个批次的数据大小。通常，较大的批量能够使梯度更加稳定，有助于模型的收敛。然而，较大的批量也会占用更多显存，可能导致显存不足，并延长每次训练时间。单步迭代时处理的数据批量大小指定每次迭代时处理的数据批量大小。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 训练NLP大模型
文本类加工算子介绍 - 盘古大模型 PanguLargeModels

句子特征过滤该算子将文档中的标点符号作为句子分隔符，统计每句字符长度，若文档平均字符长度大于设置字符，则保留，反之则删除整篇文档。根据如下特征过滤：待保留的平均句长。词语特征过滤词个数表示按照系统词库，对文档进行分词，分词后统计词的总个数，平均词长度为所有词的长度总和除以词总个

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集加工算子介绍
Agent开发常见报错与解决方案 - 盘古大模型 PanguLargeModels

可根据报信息查看实际的http返回码。 105012 插件request请求超时。插件请求超时，检查插件服务。 105013 插件返回结果过大。当前支持10M大小的返回，超过此大小会报错。 105014 插件request proxy error。请检查插件服务是否有问题导致无法连接。认证鉴权 110000

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用
图片类加工算子介绍 - 盘古大模型 PanguLargeModels

数据提取图文提取提取图文压缩包中的JSON文本和图片，并对图片进行结构化解析（BASE64编码）。数据过滤图片元数据过滤基于图片存储大小、宽高比属性进行图片/图文数据加工。图文文本长度过滤过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母，文本长度均计数为1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集加工算子介绍
约束与限制 - 盘古大模型 PanguLargeModels

功能类型使用限制数据工程-数据格式要求 ModelArts Studio平台支持接入的数据需要满足格式要求，包括文件格式、单个文件大小、所有文本大小以及文件数量等，请参考《用户指南》“使用数据工程构建数据集 > 数据集格式要求”。模型开发-训练、评测最小数据量要求使用ModelArts

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍
调优典型问题 - 盘古大模型 PanguLargeModels

模型对异常值过度敏感，导致拟合异常值而非整体数据分布。训练过程中损失波动较大，甚至出现梯度爆炸。模型在测试集上表现不佳，泛化能力差。通过统计学方法如计算四分位距、Z-score、样本分布等排查异常值。通过可视化方法，数据可视化或者使用箱线图进行异常值的排查。结合数据自身特征，进行异常数据的筛选。

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 模型调优实践 > 盘古科学计算大模型调优实践
微调典型问题 - 盘古大模型 PanguLargeModels

模型对异常值过度敏感，导致拟合异常值而非整体数据分布。训练过程中损失波动较大，甚至出现梯度爆炸。模型在测试集上表现不佳，泛化能力差。通过统计学方法如计算四分位距、Z-score、样本分布等排查异常值。通过可视化方法，数据可视化或者使用箱线图进行异常值的排查。结合数据自身特征，进行异常数据的筛选。

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 模型训练实践 > 盘古科学计算大模型微调训练实践
构建微调训练任务 - 盘古大模型 PanguLargeModels

取值范围：(0,1)。权重衰减系数用于定义权重衰减的系数。权重衰减是一种正则化技术，可以防止模型过拟合。取值需≥0。学习率用于定义学习率的大小。学习率决定了模型参数在每次更新时变化的幅度。如果学习率过大，模型可能会在最优解附近震荡而无法收敛。如果学习率过小，模型收敛的速度可能会非

 帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 模型训练实践 > 盘古科学计算大模型微调训练实践

总条数： 36

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

统计NLP大模型调用信息 - 盘古大模型 PanguLargeModels

如何调整训练参数，使盘古大模型效果最优 - 盘古大模型 PanguLargeModels

Token计算器 - 盘古大模型 PanguLargeModels

气象类数据集格式要求 - 盘古大模型 PanguLargeModels

使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

查看NLP大模型评测报告 - 盘古大模型 PanguLargeModels

文本类数据集格式要求 - 盘古大模型 PanguLargeModels

查看科学计算大模型训练状态与指标 - 盘古大模型 PanguLargeModels

盘古专业大模型能力与规格 - 盘古大模型 PanguLargeModels

数据预处理优化 - 盘古大模型 PanguLargeModels

优化训练超参数 - 盘古大模型 PanguLargeModels

调用NLP大模型 - 盘古大模型 PanguLargeModels

创建NLP大模型训练任务 - 盘古大模型 PanguLargeModels

文本类加工算子介绍 - 盘古大模型 PanguLargeModels

Agent开发常见报错与解决方案 - 盘古大模型 PanguLargeModels

图片类加工算子介绍 - 盘古大模型 PanguLargeModels

约束与限制 - 盘古大模型 PanguLargeModels

调优典型问题 - 盘古大模型 PanguLargeModels

微调典型问题 - 盘古大模型 PanguLargeModels

构建微调训练任务 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线