检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
发布气象类数据集 气象类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“气象
加工文本类数据集 清洗文本类数据集 合成文本类数据集 标注文本类数据集 父主题: 加工数据集
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。
{"system":"你是一个机智幽默问答助手","context":"你好,请介绍自己","target":"哈哈,你好呀,我是你的聪明助手。"} csv格式:csv文件的第一列对应system,第二三列分别对应context、target。 "你是一个机智幽默问答助手","你好,请介绍自己"
// 标注 34.5, 42.4 分别表示起始时间和结束时间,单位为s。 // label 表示分类,必须是classes列表中的一个元素,表示该视频片段对应的事件或动作类型。 'annotations': [
创建提示词评估数据集 批量评估提示词效果前,需要先上传提示词变量数据文件用于创建对应的评估数据集。 提示词变量是一种可以在文本生成中动态替换的占位符,用于根据不同的场景或用户输入生成不同的内容。其中,变量名称可以是任意的文字,用于描述变量的含义或作用。 提示词评估数据集约束限制 上传文件限xlsx格式。
以提高标注效率。 如果选择“自定义”标注项,则可自定义添加标注内容及名称,包括单层级分类、多层级分类、文本描述。 单层级分类:单层级分类是最简单的一种标注方式,通常指对视频内容进行单一的标签分类。如图1,在视频中标注场景主题类别。每个视频片段只对应一个分类标签,分类项不再进一步细分或包含更多的层次结构。
标注分配 启用多人标注 关闭时,默认管理员单人标注。 启用时,可以指定参与标注的人员及标注数量。 标注审核 是否审核 否,标注后不进行审核操作。 是,审核员会检查标注员的标注内容,若发现问题,审核员可注明原因并驳回标注数据,标注员需重新标注。 启用多人审核 关闭时,默认管理员单人审核 启
合成文本类数据集 当前,数据合成功能支持合成单轮问答、单轮问答(人设)类型的数据。 创建文本类数据集合成任务 合成文本类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建文本类数据集合成任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
管理加工后的数据集 完成数据清洗、数据合成、或数据标注任务的数据集,在对应任务列表执行“生成”操作,将生成“加工数据集”被平台统一管理,并用于后续的发布任务。 平台支持对加工数据集查看基本信息、数据血缘等管理操作,具体步骤如下: 登录ModelArts Studio大模型开发平台
ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针对特定区域,旨在提供完整、一致且高精度的气象数据。
数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,预测目标列要求为连续型数据。 目录下只有1个数据文件时,文件无命名要求。 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样,如train01
数据样例供您参考: 原始对话示例: A:你是谁? B:您好,我是盘古大模型。 A:你可以做什么? B:我可以做很多事情,比如xxxx A:你可以讲个笑话吗? B:当然可以啦,以下是xxxx A:可以把这个笑话改成xxxx B:好的,以下是修改后的xxxx 拼接后的微调数据格式示例:
NoSuchFieldError: ALLOW_LEADING_DECIMAL_POINT_FOR_NUMBERS 这个字段是jackson-core里面用来标识解析json格式数据是否支持前导小数点的字段,这个报错的意思是找不到这个字段,很可能是因为用户使用的jackson版本太老导致。 建议客户本地将jackson版本升级到和华为云java
选择“可部分标注”:允许标注人员在确认AI预标注满足要求后,直接使用AI预标注功能完成数据集的标注并提交标注结果。 标注审核 是否审核 否,标注后不进行审核操作。 是,审核员会检查标注员的标注内容,若发现问题,审核员可注明原因并驳回标注数据,标注员需重新标注。 启用多人审核 关闭时,默认管理员单人审核 启
评估图片类数据集 创建图片类数据集评估标准 ModelArts Studio大模型开发平台针对图片类数据集预设了一套基础评估标准,涵盖了图像清晰度、分辨率、标签准确性、图像一致性等多个质量维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准
配比图片类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通图片类数据集。 创建图片类数据集配比任务 创建图片类数据集配比任务步骤如下: 登录ModelArts St
管理发布后的数据集 完成数据配比、或数据流通任务的数据集,在对应任务列表执行“生成”操作,将生成“发布数据集”被平台统一管理,并用于后续的发布任务。 平台支持对发布数据集查看基本信息、数据血缘等管理操作,具体步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
清洗图片类数据集 清洗图片类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建图片类数据集清洗任务 创建图片类数据集清洗任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程
ModelArts Studio大模型开发平台提供数据加工功能,涵盖了数据清洗、数据合成和数据标注关键操作,旨在确保原始数据符合业务需求和模型训练的标准,是数据工程中的核心环节。 数据清洗 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算