检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
的创建状态。当状态为“已创建”时,表示该标注任务创建完成。 进入“标注作业”页签,单击当前标注任务的“标注”。 如果需要将该标注任务移交给其他人员,可以单击“移交”,并设置移交人员以及移交数量,单击“确定”。 进入标注页面后,逐一对数据进行标注。 如图1,以标注单轮问答数据为例,
} ], "temperature": 0.9, "max_tokens": 600 } 父主题: 大模型使用类问题
请检查创建数据集时使用的数据,与平台要求的文件内容格式是否一致。 Verification failed. Please check the content format is consistent with the template requirements. 请检查创建数据集时使用的数据,与平台要求的文件内容格式是否一致。
在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“预测 > 时序”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择发布格式。当前预测类数据集仅支持发布默认格式。
选择“全部标注”:要求标注人员需要对全部的数据进行人工标注后才可提交标注结果。 选择“可部分标注”:允许标注人员在确认AI预标注满足要求后,直接使用AI预标注功能完成数据集的标注并提交标注结果。 标注审核 是否审核 否,标注后不进行审核操作。 是,审核员会检查标注员的标注内容,若发现问
在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“气象 > 气象数据”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择发布格式。当前气象类数据集仅支持发布默认格式。
录。 在“基本信息”页签可查看数据集的详细信息。 在“数据预览”页签可查看加工后的数据内容。 在“数据血缘”页签查看该数据集所经历的操作,如导入、合成等操作。 在“操作记录”页签可以查看数据集所经历的操作及状态等信息。 单击操作列的“删除”,可删除不需要的数据集。 如果需要恢复删
训练的标准,是数据工程中的核心环节。 数据清洗 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 数据合成 利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数
录。 在“基本信息”页签可查看数据集的详细信息。 在“数据预览”页签可查看发布后的数据内容。 在“数据血缘”页签查看该数据集所经历的操作,如导入、合成等操作。 在“操作记录”页签可以查看数据集所经历的操作及状态等信息。 单击操作列的“删除”,可删除不需要的数据集。 如果需要恢复删
nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 天气数据通常包含全球或区域性的气象变量,如温度(T)、气压(P)、风速(U、V)等。在文件中,这些变量可能按时间、地理范围和气压层次进行组织。示例如下: {"geo_range": {"lat":
目录下只有1个数据文件时,文件无命名要求。 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样,如train01.csv;验证数据名称需包含eval字样;测试数据名称需包含test字样。文件的命名不能同时包含train、eval和test中的两个或三个。
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹
在数据导入过程中,平台仅支持通过OBS服务导入文件夹类型的数据,而不支持直接导入单个文件。 您需要将文件整理到文件夹中,并选择该文件夹进行上传。 父主题: 大模型使用类问题
Studio大模型开发平台针对文本类数据集预设了一套基础评估标准,涵盖了数据准确性、完整性、一致性、格式规范等多个维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建文本类数据集评估任务。 创建文本类数据集评估标准步骤如下: 登录ModelArts
Studio大模型开发平台针对视频类数据集预设了一套基础评估标准,涵盖了视频的清晰度、帧率、完整性、标签准确性等多个质量维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建视频类数据集评估任务。 创建视频类数据集评估标准步骤如下: 登录ModelArts
其中,单个cls类别目录下的每个三级目录为一个样本,例如cls1文件的样本为aa和bb。 所有样本文件夹(如 aa)包含的图片数量相等,例如cls1样本aa和bb、cls1样本aa和cls2的样本cc。 每个样本文件夹(如 aa)可以视为一个视频片段,其中每张图片代表视频的一个帧,将这些帧作为一个序列来
工模板”进行使用。 若选择使用加工模板,将删除当前已编排的清洗步骤。 图2 选择加工模板 清洗步骤编排完成后,单击右下角“启动清洗”,将启动清洗任务。 当数据清洗任务运行成功后,状态将从“运行中”变为“运行成功”,表示数据已经完成清洗。 在完成数据清洗后,如果无需使用数据合成与数
平台支持发布不同格式的数据集。 当前支持默认格式、盘古格式: 默认格式:数据工程功能支持的原始格式。 盘古格式:使用盘古大模型训练时所需要使用的数据格式。 如果使用该数据集训练盘古大模型,请将选择格式配置为盘古格式。 填写数据集名称、描述,设置数据集“资产可见性”,设置扩展信息后,单击“确定”执行数据集流通操作。
算子编排 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据清洗任务时,可直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的清洗步骤。 图2 选择加工模板 清洗步骤编排完成后,单击右下角“启动清洗”,将启动清洗任务。 当数据清洗
工模板”进行使用。 若选择使用加工模板,将删除当前已编排的清洗步骤。 图2 选择加工模板 清洗步骤编排完成后,单击右下角“启动清洗”,将启动清洗任务。 当数据清洗任务运行成功后,状态将从“运行中”变为“运行成功”,表示数据已经完成清洗。 在完成数据清洗后,如果无需使用数据标注功能