检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可部分标注”,则可在标注部分数据后,单击右上角的“提交全部标注数据”,让AI大模型自动标注剩余数据。 在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 审核标注后的图片类数据集
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不同,回归分类数据不要求数据具有时间顺序。
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针
盘古科学计算大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工气象类数据集 清洗气象类数据集 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。
节至创建图片类数据集评估任务。 创建图片类数据集评估标准步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据评估”,在“人工评估标准”页签,平台预置了图片类数据集评估标准“图片数据质量标准
数据集加工场景介绍 数据加工介绍 ModelArts Studio大模型开发平台提供数据加工功能,涵盖了数据清洗、数据合成和数据标注关键操作,旨在确保原始数据符合业务需求和模型训练的标准,是数据工程中的核心环节。 数据清洗 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练
图片类数据集格式要求 ModelArts Studio大模型开发平台支持创建图片类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 图片类数据集格式要求 文件内容 文件格式 文件要求 仅图片 tar、图片目录 图片:支持jpg、jpeg、png、bmp类型。 ta
配比图片类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通图片类数据集。 创建图片类数据集配比任务 创建图片类数据集配比任务步骤如下: 登录ModelArts St
数据集格式要求 文本类数据集格式要求 图片类数据集格式要求 视频类数据集格式要求 气象类数据集格式要求 预测类数据集格式要求 其他类数据集格式要求 父主题: 使用数据工程构建数据集
CV大模型训练常见报错与解决方案 CV大模型训练常见报错及解决方案请详见表1。 表1 CV大模型训练常见报错与解决方案 常见报错 问题现象 原因分析 解决方案 创建训练任务时,数据集列表为空。 创建训练任务时,数据集选择框中显示为空,无可用的训练数据集。 数据集未发布。 请提前创建与
NLP大模型训练常见报错与解决方案 NLP大模型训练常见报错及解决方案请详见表1。 表1 NLP大模型训练常见报错与解决方案 常见报错 问题现象 原因分析 解决方案 创建训练任务时,数据集列表为空。 创建训练任务时,数据集选择框中显示为空,无可用的训练数据集。 数据集未发布。 请提前创建
预测大模型训练常见报错与解决方案 预测大模型训练常见报错及解决方案请详见表1。 表1 预测大模型训练常见报错与解决方案 常见报错 问题现象 原因分析 解决方案 创建训练任务时,数据集列表为空。 创建训练任务时,数据集选择框中显示为空,无可用的训练数据集。 数据集未发布。 请提前创建与
气象类清洗算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类清洗算子能力清单
文本类清洗算子能力清单 数据清洗算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持文本类数据集的清洗操作,分为数据提取、数据转换、数据过滤三类,文本类加工算子能力清单见表1。
加工视频类数据集 清洗视频类数据集 标注视频类数据集 父主题: 加工数据集
加工气象类数据集 清洗气象类数据集 父主题: 加工数据集
图片类清洗算子能力清单 数据清洗算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台提供了图文类、图片类清洗算子,算子能力清单见表1。 表1 图片类清洗算子能力清单 算子分类
科学计算大模型训练常见报错与解决方案 科学计算大模型训练常见报错及解决方案请详见表1。 表1 科学计算大模型训练常见报错与解决方案 常见报错 问题现象 原因分析 解决方案 创建训练任务时,数据集列表为空 创建训练任务时,数据集选择框中显示为空,无可用的训练数据集。 数据集未发布。 请提前创建
发布文本类数据集 评估文本类数据集 配比文本类数据集 流通文本类数据集 父主题: 发布数据集