检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据量和质量均满足要求,为什么盘古大模型微调效果不好 这种情况可能是由于以下原因导致的,建议您排查: 训练参数设置:您可以通过绘制Loss曲线查询来确认模型的训练过程是否出现了问题,这种情况大概率是由于训练参数设置的不合理而导致了欠拟合或过拟合。请检查训练参数中的 “训练轮次”或“
ss(损失函数值)的变化趋势。损失函数是一种衡量模型预测结果和真实结果之间的差距的指标,正常情况下越小越好。 您可以从平台的训练日志中获取到每一步的Loss,并绘制成Loss曲线,来观察其变化趋势。一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。
对特定区域,旨在提供完整、一致且高精度的气象数据。 再分析数据为二进制格式,具体格式要求详见表1。 表1 气象类数据集格式要求 文件内容 文件格式 文件样例 气象-天气数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。
文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 单个文件大小不超过50GB,文件数量最多1000个。
数据集格式要求 文本类数据集格式要求 图片类数据集格式要求 视频类数据集格式要求 气象类数据集格式要求 预测类数据集格式要求 其他类数据集格式要求 父主题: 使用数据工程构建数据集
其中,before文件夹:包含变化前的图片,每幅图片需与变化后的图片同名、同尺寸。 after文件夹:包含变化后的图片,每幅图片需与变化前的图片同名、同尺寸。 label文件夹:包含与变化前和变化后图片同名、同尺寸的PNG文件。每个像素值代表该位置对应的类别信息,类别应是连续的且从0开始。 视频分类
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不
训练损失值是一种衡量模型预测结果和真实结果之间的差距的指标,通常情况下越小越好。 一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。 验证损失值 模型在验证集上的损失值。值越小,意味着模型对验证集数据的泛化能力越好。 获取训练日志 单击训练任务名称
间差距的指标。该值越小,表示模型在表面(海表)变量的预测精度越高。 RMSE 均方根误差,衡量预测值与真实值之间差距的指标。它是所有单个观测的平方误差的平均值的平方根。该值越小,代表模型性能越好。 MAE 平均绝对误差,衡量预测值与真实值之间差距的指标。它是所有单个观测的绝对误差的平均值。该值越小,代表模型性能越好。
Service,CTS)是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建、配置追踪器后,CTS可记录用户使用盘古的管理事件和数据事件用于审计。 CTS的详细介绍和开通配置方法,请参见CTS快速入门。
精准率是指在模型预测为正类的样本中,真正类样本的比例。数值越高,表明模型在检测正类样本时的准确性越高。 召回率 召回率是指在所有实际为正类的样本中,被模型正确预测为正类的比例。数值越高,表明模型在检测正类样本时的全面性越高。 获取训练日志 单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。 对于训练异常或
型在检测正类样本时的全面性越高。 获取训练日志 单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。 对于训练异常或失败的任务可以通过训练日志定位训练失败的原因。典型训练报错和解决方案请参见CV大模型训练常见报错与解决方案。 训练日志可以按照不同的节点(训练阶段)进行筛
number is 0. 该日志表示数据集中的有效样本量为0,可能有如下原因: 数据未标注。 标注的数据不符合规格。 请检查数据是否已标注或标注是否符合算法要求。 训练日志提示“ValueError: label_map not match” 训练日志中提示“ValueError:
创建训练任务时,数据集选择框中显示为空,无可用的训练数据集。 数据集未发布。 请提前创建与大模型对应的训练数据集,并完成数据集发布操作。 训练日志提示“root: XXX valid number is 0”报错 日志提示“root: XXX valid number is 0”,表示训练集/验证集的有效样本量为0,例如:
number is 0. 该日志表示数据集中的有效样本量为0,可能有如下原因: 数据未标注。 标注的数据不符合规格。 请检查数据是否已标注或标注是否符合算法要求。 训练日志提示“ValueError: label_map not match” 训练日志中提示“ValueError:
number is 0. 该日志表示数据集中的有效样本量为0,可能有如下原因: 数据未标注。 标注的数据不符合规格。 请检查数据是否已标注或标注是否符合算法要求。 训练日志提示“ValueError: label_map not match” 训练日志中提示“ValueError:
使用数据工程构建CV大模型数据集 CV大模型支持接入的数据集类型 盘古CV大模型支持接入图片类、视频类、其他类数据集,,不同模型所需数据见表1,数据集格式要求请参见图片类数据集格式要求、视频类数据集格式要求、其他类数据集格式要求。 表1 训练CV大模型数据集类型要求 基模型 训练场景 文件内容 文件格式
科学计算大模型支持接入的数据集类型 盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。 训练科学计算大模型训练数据要求所需数据量 构建科学计算大模型进行训练的数据要求见表1。 表1 科学计算大模型训练数据要求 模型类别 特征要求 水平分辨率要求 区域范围要求