检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
合成和数据标注关键操作,旨在确保原始数据符合业务需求和模型训练的标准,是数据工程中的核心环节。 数据加工 通过专用的加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。此外,用户还可以创建自定
当任务状态显示为“运行成功”时,说明数据发布任务执行成功,生成的“发布数据集”可在“数据工程 > 数据管理 > 数据集 > 发布数据集”中查看。 父主题: 发布数据集
当任务状态显示为“运行成功”时,说明数据发布任务执行成功,生成的“发布数据集”可在“数据工程 > 数据管理 > 数据集 > 发布数据集”中查看。 父主题: 发布数据集
当任务状态显示为“运行成功”时,说明数据发布任务执行成功,生成的“发布数据集”可在“数据工程 > 数据管理 > 数据集 > 发布数据集”中查看。 父主题: 发布数据集
如果需要彻底删除数据集,可单击数据集名称进入详情页,确认数据集内容后彻底删除该数据集。 删除“加工数据集”属于高危操作,删除前,请确保该数据集不再使用。 父主题: 加工数据集
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。 父主题: 数据集格式要求
如果需要彻底删除数据集,可单击数据集名称进入详情页,确认数据集内容后彻底删除该数据集。 删除“发布数据集”属于高危操作,删除前,请确保该数据集不再使用。 父主题: 发布数据集
0个。 网页 html 单个文件大小不超过50GB,文件数量最多1000个。 预训练文本 jsonl jsonl格式:text表示预训练所使用的文本数据,具体格式示例如下: {"text":"盘古大模型,是华为推出的盘古系列AI大模型,包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"}
rain01.csv;验证数据名称需包含eval字样;测试数据名称需包含test字样。文件的命名不能同时包含train、eval和test中的两个或三个。 时序预测必须要包含一个时间列,时间列值的格式示例为 2024-05-27 或 2024/05/27 或 2024-05-27
'classes': [category1',category2', ...],// 所有类别名称的列表,每个类别对应一个 label,用于标注视频中的事件或动作。 'database': { 'video_name':{ // 训练集 train
b1、grib1、gr2、grb2、grib2 天气数据通常包含全球或区域性的气象变量,如温度(T)、气压(P)、风速(U、V)等。在文件中,这些变量可能按时间、地理范围和气压层次进行组织。示例如下: {"geo_range": {"lat": ["-90.0", "90.0"]
[x, y, v]。x和y是关键点的像素坐标,v是可见性(0:不可见且不在图像中;1:不可见但在图像中;2:可见且在图像中)。 image_id 是 与该标注相关联的图像的ID,必须与images字段中的id对应。 bbox 是 目标物体的边界框,用[x, y, width, h
在右侧“加工步骤编排”页面配置各算子参数,可拖动右侧“”以调整算子执行顺序。 图1 算子编排 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据加工任务时,可直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的加工步骤。 图2 选择加工模板 加工步骤编排完
在右侧“加工步骤编排”页面配置各算子参数,可拖动右侧“”以调整算子执行顺序。 图1 算子编排 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据加工任务时,可直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的加工步骤。 图2 选择加工模板 加工步骤编排完
标准格式:数据工程功能支持的原始格式。该格式的数据集可发布到资产中,但下游模型开发不可见。 盘古格式:使用盘古大模型训练时所需要使用的数据格式,该数据集将被用于ModelArts Studio大模型开发平台的模型开发中使用。 如果使用该数据集训练盘古大模型,请将选择格式配置为盘古格式。 填写数据集名称、描述
模型性能。 如果无需使用数据评估操作,可跳过此章节至发布视频类数据集。 创建视频类数据集评估标准 ModelArts Studio大模型开发平台针对视频类数据集预设了一套基础评估标准,涵盖了视频的清晰度、帧率、完整性、标签准确性等多个质量维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。
升模型性能。 如果无需使用数据评估操作,可跳过此章节至发布文本类数据集。 创建文本类数据集评估标准 ModelArts Studio大模型开发平台针对文本类数据集预设了一套基础评估标准,涵盖了数据准确性、完整性、一致性、格式规范等多个维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。
1),数值越高美感越好,评分>0.95可视为视频基础质量较高的视频。 水印识别 识别视频中是否包含水印。 字幕识别 识别视频中是否包含字幕。 Logo识别 识别视频中是否包含Logo。 视频黑边识别 识别视频中是否包含黑边。 密集文字识别 识别视频中是否包含密集文字,达到密集文字面积占比的视频则为含密集文字视
气象类加工算子介绍 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类加工算子能力清单 算子分类 算子名称 算子描述 科学计算 气象预处理 将二进制格式的气象数据文件转换成结构化JSON数据。 父主题: 数据集加工算子介绍
当数据合成任务运行成功后,状态将从“运行中”变为“运行成功”,表示数据已经完成合成操作。 在完成数据合成后,若无需使用数据标注、数据配比功能,可直接在“合成任务”页面单击操作列“生成”,生成加工数据集。 生成的加工数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 预置数据指令介绍