检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。
加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 父主题: 加工视频类数据集
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。
文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。
填补缺失值:填充数据中的缺失部分,常用方法包括均值填充、中位数填充或删除缺失数据。 数据标准化:将数据转换为统一的格式或范围,特别是在处理数值型数据时(如归一化或标准化)。 去噪处理:去除无关或异常值,减少对模型训练的干扰。
数据集加工场景介绍 数据加工介绍 ModelArts Studio大模型开发平台提供数据加工功能,涵盖了数据清洗、数据合成和数据标注关键操作,旨在确保原始数据符合业务需求和模型训练的标准,是数据工程中的核心环节。
流通图片类数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 单个图片类数据集支持发布的格式为: 默认格式:平台默认的格式。 盘古格式:训练盘古大模型时,需要将数据集格式发布为“盘古格式”。
配比图片类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通图片类数据集。
在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。
为确保数据安全,需在数据和模型训练的全生命周期内,包括数据提取、加工、传输、训练、推理和删除的各个环节,提供防篡改、数据隐私保护、加密、审计和数据主权保护等机制。在训练和推理过程中,通过数据脱敏、隐私计算等技术手段识别并保护敏感数据,有效防止隐私泄露,保障个人隐私数据安全。
用户可以查看数据集的详细信息,包括数据格式、大小、配比比例等。同时,平台支持数据集的删除等管理操作,使用户能够统一管理数据集资源,以便在模型训练和分析时灵活调用,确保数据资产的规范性与安全性。
发布图片类数据集 评估图片类数据集 配比图片类数据集 流通图片类数据集 父主题: 发布数据集
加工图片类数据集 清洗图片类数据集 标注图片类数据集 父主题: 加工数据集
图片类数据集格式要求 ModelArts Studio大模型开发平台支持创建图片类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 图片类数据集格式要求 文件内容 文件格式 文件要求 仅图片 tar、图片目录 图片:支持jpg、jpeg、png、bmp类型。
提示词评估数据集约束限制 上传文件限xlsx格式。 数据行数不小于10行,不大于50行。 数据不允许相同表头,表头数量小于20个。 数据单条文本长度不超过1000。 创建数据集时会对相关限制条件进行校验。
表1 评测数据集格式 模型类型 评测数据集格式 NLP大模型 文本-单轮问答-jsonl格式 上传数据文件后,填写“数据集名称”与“描述”,单击“立即创建”。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。
气象类清洗算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。
图片类清洗算子能力清单 数据清洗算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台提供了图文类、图片类清洗算子,算子能力清单见表1。