检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在“创建流通任务”页面,选择数据集模态,如“气象 > 气象数据”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择发布格式。当前气象类数据集仅支持发布默认格式。 填写数据集名称、描述,设置数据集“资产可见性”,设置扩展信息后,单击“确定”执行数据集流通操作。 当
在“创建流通任务”页面,选择数据集模态,如“其他 > 自定义”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择发布格式。当前其他类数据集仅支持发布默认格式。 填写数据集名称、描述,设置数据集“资产可见性”,设置扩展信息后,单击“确定”执行数据集流通操作。 当任
清洗视频类数据集 清洗视频类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建视频类数据集清洗任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 数据清洗”,单击界面右上角“创建清洗任务”。
清洗气象类数据集 清洗气象类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建气象类数据集清洗任务 创建气象类数据集清洗任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 >
数据集发布场景介绍 数据发布介绍 ModelArts Studio大模型开发平台提供的数据发布功能涵盖数据评估、数据配比和数据流通操作,旨在通过数据质量评估和合理的比例组合,确保数据满足大模型训练的多样性、平衡性和代表性需求,促进数据的高效流通和应用。 数据发布不仅包括将数据发布
配比文本类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通文本类数据集。 创建文本类数据集配比任务 创建文本类数据集配比任务步骤如下: 登录ModelArts St
节至创建文本类数据集评估任务。 创建文本类数据集评估标准步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据评估”,在“人工评估标准”页签,平台预置了文本类数据集评估标准“NLP数据质量标准
上传文件限xlsx格式。 数据行数不小于10行,不大于50行。 数据不允许相同表头,表头数量小于20个。 数据单条文本长度不超过1000。 创建数据集时会对相关限制条件进行校验。 数据参考格式如下: 图1 数据参考格式 图2 数据示例 创建提示词评估数据集 登录ModelArts
创建NLP大模型评测数据集 NLP大模型支持人工评测与自动评测,在执行模型评测任务前,需创建评测数据集。 评测数据集的创建步骤与训练数据集一致,本章节仅做简单介绍,详细步骤请参见使用数据工程构建NLP大模型数据集。 登录ModelArts Studio平台,进入所需空间。 在左侧导航栏中选择“数据工程
合成文本类数据集 当前,数据合成功能支持合成单轮问答、单轮问答(人设)类型的数据。 创建文本类数据集合成任务 合成文本类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建文本类数据集合成任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
可部分标注”,则可在标注部分数据后,单击右上角的“提交全部标注数据”,让AI大模型自动标注剩余数据。 在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 审核标注后的视频类数据集
节至创建视频类数据集评估任务。 创建视频类数据集评估标准步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据评估”,在“人工评估标准”页签,平台预置了视频类数据集评估标准“视频数据质量标准
在左侧导航栏中选择“数据工程 > 数据加工 > 加工数据集”。 单击数据集名称查看加工数据集的基本信息、数据预览、数据血缘以及操作记录。 在“基本信息”页签可查看数据集的详细信息。 在“数据预览”页签可查看加工后的数据内容。 在“数据血缘”页签查看该数据集所经历的操作,如导入、合成等操作。
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针
数据集加工场景介绍 数据加工介绍 ModelArts Studio大模型开发平台提供数据加工功能,涵盖了数据清洗、数据合成和数据标注关键操作,旨在确保原始数据符合业务需求和模型训练的标准,是数据工程中的核心环节。 数据清洗 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练
清洗图片类数据集 清洗图片类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建图片类数据集清洗任务 创建图片类数据集清洗任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 >
在左侧导航栏中选择“数据工程 > 数据发布 > 发布数据集”。 单击数据集名称查看发布数据集的基本信息、数据预览、数据血缘以及操作记录。 在“基本信息”页签可查看数据集的详细信息。 在“数据预览”页签可查看发布后的数据内容。 在“数据血缘”页签查看该数据集所经历的操作,如导入、合成等操作。
可部分标注”,则可在标注部分数据后,单击右上角的“提交全部标注数据”,让AI大模型自动标注剩余数据。 在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 审核标注后的图片类数据集
配比图片类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通图片类数据集。 创建图片类数据集配比任务 创建图片类数据集配比任务步骤如下: 登录ModelArts St
选择数据集,单击“下一步”。 在“格式配置”选择发布格式。由于数据工程需要支持对接盘古大模型,为了使这些数据集能够被这些大模型正常训练,平台支持发布不同格式的数据集。 当前支持默认格式、盘古格式: 默认格式:数据工程功能支持的原始格式。 盘古格式:使用盘古大模型训练时所需要使用的数据格式。