检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
统计NLP大模型调用信息 针对调用的大模型,平台提供了统一的管理功能。 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 单击左侧导航栏“调用统计”,选择“NLP”页签。 选择当前调用的NLP大模型,可以按照不同时间跨度查看当前模型的调用
模型的收敛情况动态调整。 数据批量大小(batch_size) >=1 4/8 数据批量大小是指对数据集进行分批读取训练时,所设定的每个批次数据大小。批量大小越大,训练速度越快,但是也会占用更多的内存资源,并且可能导致收敛困难或者过拟合;批量大小越小,内存消耗越小,但是收敛速度会
描述 data 是 List<String> 待统计Token数的字符串。List长度必须为奇数。 with_prompt 否 Boolean 是否仅统计输入字符的Token数 true:仅统计输入字符串的Token数; false:统计输入字符串和推理过程产生字符的总Token数。
time_range:数据的时间范围,时间戳格式为毫秒数。 total_size:数据文件的总大小,单位为字节。 surface_features:生态特征列表,例如总叶绿素浓度(Tca)、叶绿素浓度(Chl)、硅藻浓度(Dia)。 单个文件大小不超过50GB,文件数量最多1000个。 气象-海浪数据 nc、
N4 微调 - 1000条/每场景 ≥ 1万条/每场景 4K版本:4096 32K版本:32768 评测NLP大模型所需数据量 要求所有文本大小最大不超过100MB,目录下文件数量最多不超过100个。数据条数范围为:3-1000条。 构建NLP大模型数据集流程 在ModelArts
数据量的大小计算通过率的加权平均数。 综合能力 综合能力是计算所有数据集通过率的加权平均数。 表3 NLP大模型人工评测指标说明 评测指标(人工评测) 指标说明 准确性 模型生成答案正确且无事实性错误。 average 模型生成句子与实际句子基于评估指标得到的评分后,统计平均得分。
文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 单个文件大小不超过50GB,文件数量最多1000个。 网页 html 单个文件大小不超过50GB,文件数量最多1000个。 预训练文本 jsonl jsonl格式:text表示预训练所使用的文本数据,具体格式示例如下:
表模型性能越好。 ACC ACC(异常相关系数,距平相关系数,Anomaly Correlation Coefficient)是一个重要的统计指标,用于衡量预报系统的质量。它通过计算预报值与观测值之间的相关性来评估预报的准确性。ACC的计算涉及到预报值、观测值和气候平均值的差异,
盘古专业大模型能力与规格 盘古专业大模型是盘古百亿级NL2SQL模型,适用于问数场景下的自然语言问题到SQL语句生成,支持常见的聚合函数(如去重、计数、平均、最大、最小、合计)、分组、排序、比较、条件(逻辑操作、离散条件、范围区间等条件的混合和嵌套)、日期操作,支持多表关联查询。
模型对异常值过度敏感,导致拟合异常值而非整体数据分布。 训练过程中损失波动较大,甚至出现梯度爆炸。 模型在测试集上表现不佳,泛化能力差。 优化调整策略如下: 通过统计学方法如计算四分位距、Z-score、样本分布等排查异常值。 通过可视化方法,数据可视化或者使用箱线图进行异常值的排查。 结合数据自身特征,进行异常数据的筛选。
模型的收敛情况动态调整。 数据批量大小(batch_size) >=1 4/8 数据批量大小是指对数据集进行分批读取训练时,所设定的每个批次数据大小。批量大小越大,训练速度越快,但是也会占用更多的内存资源,并且可能导致收敛困难或者过拟合;批量大小越小,内存消耗越小,但是收敛速度会
调用NLP大模型 使用“能力调测”调用NLP大模型 使用API调用NLP大模型 统计NLP大模型调用信息 父主题: 开发盘古NLP大模型
好地收敛。 数据批量大小 数据批量是指训练过程中将数据集分成小批次进行读取,并设定每个批次的数据大小。 通常,较大的批量能够使梯度更加稳定,有助于模型的收敛。然而,较大的批量也会占用更多显存,可能导致显存不足,并延长每次训练时间。 单步迭代时处理的数据批量大小 指定每次迭代时处理的数据批量大小。
句子特征过滤 该算子将文档中的标点符号作为句子分隔符,统计每句字符长度,若文档平均字符长度大于设置字符,则保留,反之则删除整篇文档。根据如下特征过滤: 待保留的平均句长。 词语特征过滤 词个数表示按照系统词库,对文档进行分词,分词后统计词的总个数,平均词长度为所有词的长度总和除以词总个
可根据报信息查看实际的http返回码。 105012 插件request请求超时。 插件请求超时,检查插件服务。 105013 插件返回结果过大。 当前支持10M大小的返回,超过此大小会报错。 105014 插件request proxy error。 请检查插件服务是否有问题导致无法连接。 认证鉴权 110000
数据提取 图文提取 提取图文压缩包中的JSON文本和图片,并对图片进行结构化解析(BASE64编码)。 数据过滤 图片元数据过滤 基于图片存储大小、宽高比属性进行图片/图文数据加工。 图文文本长度过滤 过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母,文本长度均计数为1。
功能类型 使用限制 数据工程-数据格式要求 ModelArts Studio平台支持接入的数据需要满足格式要求,包括文件格式、单个文件大小、所有文本大小以及文件数量等,请参考《用户指南》“使用数据工程构建数据集 > 数据集格式要求”。 模型开发-训练、评测最小数据量要求 使用ModelArts
模型对异常值过度敏感,导致拟合异常值而非整体数据分布。 训练过程中损失波动较大,甚至出现梯度爆炸。 模型在测试集上表现不佳,泛化能力差。 通过统计学方法如计算四分位距、Z-score、样本分布等排查异常值。 通过可视化方法,数据可视化或者使用箱线图进行异常值的排查。 结合数据自身特征,进行异常数据的筛选。
模型对异常值过度敏感,导致拟合异常值而非整体数据分布。 训练过程中损失波动较大,甚至出现梯度爆炸。 模型在测试集上表现不佳,泛化能力差。 通过统计学方法如计算四分位距、Z-score、样本分布等排查异常值。 通过可视化方法,数据可视化或者使用箱线图进行异常值的排查。 结合数据自身特征,进行异常数据的筛选。
取值范围:(0,1)。 权重衰减系数 用于定义权重衰减的系数。权重衰减是一种正则化技术,可以防止模型过拟合。 取值需≥0。 学习率 用于定义学习率的大小。学习率决定了模型参数在每次更新时变化的幅度。如果学习率过大,模型可能会在最优解附近震荡而无法收敛。如果学习率过小,模型收敛的速度可能会非