检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
发布视频类数据集 评估视频类数据集 流通视频类数据集 父主题: 发布数据集
加工文本类数据集 清洗文本类数据集 合成文本类数据集 标注文本类数据集 父主题: 加工数据集
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹
质量评估和合理的比例组合,确保数据满足大模型训练的多样性、平衡性和代表性需求,促进数据的高效流通和应用。 数据发布不仅包括将数据发布为适合使用的格式,还要求根据任务需求评估数据集效果,并科学调整数据比例,确保数据集在规模、质量和内容上符合模型训练的标准。 数据评估 平台预置了多种
发布预测类数据集 预测类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“预测
t_knee、right_knee、left_ankle、right_ankle。 skeleton 是 定义骨架连接的列表,用于表示关键点之间的连接关系。每个连接用一对关键点索引表示,如 [1, 2],表示鼻子(nose)到左眼(left_eye)的连线。 实例分割数据集标注文件说明
Studio大模型开发平台针对文本类数据集预设了一套基础评估标准,涵盖了数据准确性、完整性、一致性、格式规范等多个维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建文本类数据集评估任务。 创建文本类数据集评估标准步骤如下: 登录ModelArts
Studio大模型开发平台针对视频类数据集预设了一套基础评估标准,涵盖了视频的清晰度、帧率、完整性、标签准确性等多个质量维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建视频类数据集评估任务。 创建视频类数据集评估标准步骤如下: 登录ModelArts
发布图片类数据集 评估图片类数据集 配比图片类数据集 流通图片类数据集 父主题: 发布数据集
加工图片类数据集 清洗图片类数据集 标注图片类数据集 父主题: 加工数据集
发布气象类数据集 气象类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“气象
如果需要彻底删除数据集,可单击数据集名称进入详情页,确认数据集内容后彻底删除该数据集。 删除原始数据集属于高危操作,删除前,请确保该数据集不再使用。 父主题: 加工数据集
训练的标准,是数据工程中的核心环节。 数据清洗 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 数据合成 利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数
工模板”进行使用。 若选择使用加工模板,将删除当前已编排的清洗步骤。 图2 选择加工模板 清洗步骤编排完成后,单击右下角“启动清洗”,将启动清洗任务。 当数据清洗任务运行成功后,状态将从“运行中”变为“运行成功”,表示数据已经完成清洗。 在完成数据清洗后,如果无需使用数据标注功能
在数据导入过程中,平台仅支持通过OBS服务导入文件夹类型的数据,而不支持直接导入单个文件。 您需要将文件整理到文件夹中,并选择该文件夹进行上传。 父主题: 大模型使用类问题
视频类清洗算子能力清单 数据清洗算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持视频类数据集的清洗操作,分为数据提取、数据过滤、数据打标三类,视频类加工算子能力清单见表1。
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不
选择“全部标注”:要求标注人员需要对全部的数据进行人工标注后才可提交标注结果。 选择“可部分标注”:允许标注人员在确认AI预标注满足要求后,直接使用AI预标注功能完成数据集的标注并提交标注结果。 标注审核 是否审核 否,标注后不进行审核操作。 是,审核员会检查标注员的标注内容,若发现问
工模板”进行使用。 若选择使用加工模板,将删除当前已编排的清洗步骤。 图2 选择加工模板 清洗步骤编排完成后,单击右下角“启动清洗”,将启动清洗任务。 当数据清洗任务运行成功后,状态将从“运行中”变为“运行成功”,表示数据已经完成清洗。 在完成数据清洗后,如果无需使用数据合成与数