检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对特定区域,旨在提供完整、一致且高精度的气象数据。 再分析数据为二进制格式,具体格式要求详见表1。 表1 气象类数据集格式要求 文件内容 文件格式 文件要求 海洋气象 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2
filename 是 被标注文件的文件名。 size 是 表示图像的像素信息。 width:必选字段,图像的宽度。 height:必选字段,图像的高度。 depth:必选字段,图像的通道数。 图像的通道数是指图像中每个像素的颜色信息的维度。常用的RGB图像默认有3个通道。3通道表
文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 数据集最大100万个文件,单
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时支持导入mp4或avi格式文件,同一文件夹下mp4或avi格式的所有视频文件会被同时上传导入,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,每个数据点都有一个时间戳,表示数据在时间上的位置。它用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种
图片类数据集格式要求 ModelArts Studio大模型开发平台支持创建图片类数据集,创建时可导入图片、图片+Caption、图片+QA对三种类型的数据,具体格式要求详见表1。 表1 图片类数据集格式要求 文件内容 文件格式 文件要求 图片 tar、图片目录 图片:支持jpg
RQE 衡量预测值与真实值之间差距的指标。它是所有单个观测的相对误差的平方和。该值越小,代表模型性能越好。 获取训练日志 单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。对于训练异常或失败的任务也可以通过训练日志定位训练失败的原因。典型训练报错和解决方案请参见科学计算大模型训练常见报错与解决方案。
数据集格式要求 文本类数据集格式要求 视频类数据集格式要求 图片类数据集格式要求 气象类数据集格式要求 预测类数据集格式要求 其他类数据集格式要求 父主题: 使用数据工程准备与处理数据集
Service,CTS)是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建、配置追踪器后,CTS可记录用户使用盘古的管理事件和数据事件用于审计。 CTS的详细介绍和开通配置方法,请参见CTS快速入门。
bleu-3:模型生成结果和实际句子的加权平均精确率,数值越高,表明模型性能越好。 获取训练日志 单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。对于训练异常或失败的任务也可以通过训练日志定位训练失败的原因。典型训练报错和解决方案请参见NLP大模型训练常见报错与解决方案。 训练日志可以按照不
数据量和质量均满足要求,为什么盘古大模型微调效果不好 这种情况可能是由于以下原因导致的,建议您排查: 训练参数设置:您可以通过绘制Loss曲线查询来确认模型的训练过程是否出现了问题,这种情况大概率是由于训练参数设置的不合理而导致了欠拟合或过拟合。请检查训练参数中的 “训练轮次”或“
够保持较好的模型性能。 基础模型 选择微调训练所用的基础模型, 可在“从资产选模型”或者“从人物选模型”中进行选择。 高级设置 plog日志。plog日志是一种用来记录模型运行情况的信息。开启plog日志,能帮助开发者了解模型执行的状态、捕捉错误、分析问题。不同的日志级别表示日志
构建外,也可能会使用开源的数据集。数据版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。 图3 设置数据版权 单击页面右下角
number is 0. 该日志表示数据集中的有效样本量为0,可能有如下原因: 数据未标注。 标注的数据不符合规格。 请检查数据是否已标注或标注是否符合算法要求。 训练日志提示“ValueError: label_map not match” 训练日志中提示“ValueError:
创建训练任务时,数据集选择框中显示为空,无可用的训练数据集。 数据集未发布。 请提前创建与大模型对应的训练数据集,并完成数据集发布操作。 训练日志提示“root: XXX valid number is 0”报错 日志提示“root: XXX valid number is 0”,表示训练集/验证集的有效样本量为0,例如:
部署任务创建成功后,可以在“模型开发 > 模型部署”页面查看模型的部署状态。 当状态依次显示为“初始化 > 部署中 > 运行中”时,表示模型已成功部署,可以进行调用。 此过程可能需要较长时间,请耐心等待。在此过程中,可单击模型名称可进入详情页,查看模型的部署详情、部署事件、部署日志等信息。 图1 部署详情 父主题:
部署任务创建成功后,可以在“模型开发 > 模型部署”页面查看模型的部署状态。 当状态依次显示为“初始化 > 部署中 > 运行中”时,表示模型已成功部署,可以进行调用。 此过程可能需要较长时间,请耐心等待。在此过程中,可单击模型名称可进入详情页,查看模型的部署详情、部署事件、部署日志等信息。 图1 部署详情 父主题:
ss(损失函数值)的变化趋势。损失函数是一种衡量模型预测结果和真实结果之间的差距的指标,正常情况下越小越好。 您可以从平台的训练日志中获取到每一步的Loss,并绘制成Loss曲线,来观察其变化趋势。一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。
科学计算大模型支持接入的数据集类型 盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。 构建科学计算大模型训练数据要求 构建科学计算大模型进行训练的数据要求见表1。 表1 科学计算大模型训练数据要求 模型类别 特征要求 水平分辨率要求 区域范围要求 时间要求
plog日志。plog日志是一种用来记录模型运行情况的信息。开启plog日志,能帮助开发者了解模型执行的状态、捕捉错误、分析问题。不同的日志级别表示日志的重要性和详细程度,从低到高依次是:DEBUG、INFO、WARNING、ERROR。 模型水平分辨率 模型网格在水平方向上的精细程度,通常用来表示模拟