检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。
数据集格式要求 文本类数据集格式要求 图片类数据集格式要求 视频类数据集格式要求 气象类数据集格式要求 预测类数据集格式要求 其他类数据集格式要求 父主题: 使用数据工程构建数据集
文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 单个文件大小不超过50GB,文件数量最多1000个。
对特定区域,旨在提供完整、一致且高精度的气象数据。 再分析数据为二进制格式,具体格式要求详见表1。 表1 气象类数据集格式要求 文件内容 文件格式 文件样例 气象-天气数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹
jpg”,那么标注文件的文件名应为“IMG_20180919_114745.xml”。 物体检测的标注文件需要满足PASCAL VOC格式,PASCAL_VOC是一个公开的图像标注数据集,它提供了一个统一的XML格式来存储标注信息。PASCAL_VOC文件格式包含图像目录、图像文件
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不
如何让大模型按指定风格或格式回复 要让模型按照特定风格回复,可以提供领域和角色信息(如目标受众或特定场景),帮助模型理解并捕捉预期风格。 可以在提示词中,明确描述回复风格的要求。例如,若希望模型回答更精炼,可以提示: 你的回复“需要简洁精炼”、“仅包括最重要的信息”或“专注于主要结论”。
布数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 配比图片类数据集 流通图片、视频类数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为默认格式、盘古格式。 默认格式:平台默认的格式。
模型”页面,单击右上角的“导入模型”。 在“导入模型”页面,下载用户证书。 图1 下载用户证书 登录环境A的ModelArts Studio大模型开发平台,在“空间资产 > 模型 > 本空间”页面,单击支持导出的模型名称,右上角的“导出模型”。 在“导出模型”页面,选择需要导出的模型,应设置
ERA5是由欧洲中期天气预报中心(ECMWF)提供的全球气候的第五代大气再分析数据集,它覆盖从1940年1月至今的时间段,提供每小时的大气、陆地和海洋气候变量的估计值。 ERA5数据下载官方指导:https://confluence.ecmwf.int/display/CKB/
json解析报错 服务端返回的数据格式不符合json格式,导致sdk侧解析json数据报错。 服务端返回的json数据不符合json反序列化的规则,和sdk定义的数据结构不一致,导致反序列化失败。 sdk json数据解析问题。 建议排查服务端返回的数据是否和服务SDK设计的结构、字段一致。
之进行互动。 知识库支持导入以下格式的本地文档: 文本文档数据。支持上传常见文本格式,包括:txt、doc、docx、pdf、ppt、pptx格式。 表格数据。支持上传常见的表格文件格式,便于管理和分析结构化数据,包括:xlsx、xls、csv格式。 无论是文本文档、演示文稿,还
理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 数据流通 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。支持的发布格式为默认格式、盘古格式(适用于训练盘古大模型时)。目前,仅文本类和图片类数据集支持发布为“盘古格式”。
选择数据集,单击“下一步”。 在“格式配置”选择发布格式。由于数据工程需要支持对接盘古大模型或三方大模型,为了使这些数据集能够被这些大模型正常训练,平台支持发布不同格式的数据集。 当前支持默认格式、盘古格式: 默认格式:数据工程功能支持的原始格式。 盘古格式:使用盘古大模型训练时所需要使用的数据格式。 如果
训练预测大模型时,所需的数据通常为表格格式,即由行和列组成的扁平化数据。具体要求如下: 行:每行代表一个样本。每行与其他行具有相同的列,并且顺序相同,这些行通常按照某种特定顺序排列。 列:每列表示一种特征。每列的数据类型应保持一致,不同列可以具有不同的数据类型。 顺序:表格中的行通常按照特定顺序排列。
据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 配比文本类数据集 流通文本类数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为默认格式、盘古格式。 默认格式:平台默认的格式。
选择数据集,单击“下一步”。 在“格式配置”选择发布格式。由于数据工程需要支持对接盘古大模型,为了使这些数据集能够被这些大模型正常训练,平台支持发布不同格式的数据集。 当前支持默认格式、盘古格式: 默认格式:数据工程功能支持的原始格式。 盘古格式:使用盘古大模型训练时所需要使用的数据格式。 如果使用该
为什么多轮问答场景的盘古大模型微调效果不好 当您的目标任务是多轮问答,并且使用了多轮问答数据进行微调,微调后却发现多轮回答的效果不理想。这种情况可能是由于以下几个原因导致的,建议您依次排查: 数据格式:多轮问答场景需要按照指定的数据格式来构造,问题需要拼接上历史所有轮对话的问题和回答。
数据流通是将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 视频类数据集当前仅支持发布为“默认格式”。 创建视频类数据集流通任务 创建视频类数据集流通任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。