检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
总体而言,数据加工不仅提升了数据处理的效率,还可通过优化数据质量和针对性处理,支持高效的模型训练。通过数据加工,用户能够快速构建高质量的数据集,推动大模型的成功开发。 支持数据加工的数据集类型 当前支持数据加工操作的数据集类型见表1。 表1 支持数据加工操作的数据集类型 数据类型 数据加工
配置OBS访问授权 ModelArts Studio大模型开发平台使用对象存储服务(Object Storage Service,简称OBS)进行数据存储,实现安全、高可靠和低成本的存储需求。因此,为了能够顺利进行存储数据、训练模型等操作,需要用户配置访问OBS服务的权限。 配置OBS访问授权步骤如下:
配比文本类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至发布文本类数据集。 创建文本类数据集配比任务 创建文本类数据集配比任务步骤如下: 登录ModelArts St
构建微调训练任务数据集 获取源数据 科学计算大模型微调训练所需的数据为气象再分析数据。 气象再分析数据集是利用现代数值天气预报模型和数据同化系统,对过去的观测数据进行重新处理后得到的。这些数据集可以是全球范围的,也可以是特定区域的。再分析数据集的目的是通过整合历史观测数据和现代计算技
频类数据集仅支持发布标准格式。 填写数据集名称、描述,设置扩展信息后,单击“确定”执行数据集发布操作。 当任务状态显示为“运行成功”时,说明数据发布任务执行成功,生成的“发布数据集”可在“数据工程 > 数据管理 > 数据集 > 发布数据集”中查看。 父主题: 发布视频类数据集
在完成数据加工后,如果无需使用数据标注、数据合成功能,可直接在“加工任务”页面单击操作列“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 父主题: 加工文本类数据集
在“创建发布任务”页面,选择数据集模态,如“预测 > 时序”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“基本配置”中选择数据用途、数据集可见性、适用场景。当前预测类数据集仅支持发布标准格式。 填写数据集名称、描述,设置扩展信息后,单击“确定”执行数据集发布操作。 当任务
在完成数据加工后,在“加工任务”页面单击操作列“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 父主题: 加工数据集
根据具体任务需求,灵活选择数据发布格式,保证数据的兼容性与一致性,从而为后续模型训练和应用部署打下坚实基础。 支持数据发布的数据集类型 支持数据发布的数据集类型见表1。 表1 支持数据发布的数据集类型 数据类型 数据评估 数据发布 文本类 √ √ 图片类 √ √ 视频类 √ √ 气象类
在“创建发布任务”页面,选择数据集模态,如“气象 > 气象数据”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“基本配置”中选择数据用途、数据集可见性、适用场景。当前气象类数据集仅支持发布标准格式。 填写数据集名称、描述,设置扩展信息后,单击“确定”执行数据集发布操作。 当
在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”,单击界面右上角“创建发布任务”。 在“创建发布任务”页面,选择数据集模态,如“文本 > 预训练文本”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“基本配置”中选择数据用途、数据集可见性、适用场景。
评估文本类数据集 发布文本类数据集前,ModelArts Studio大模型开发平台支持对数据集进行评估操作,帮助用户优化数据质量,确保数据满足高标准,提升模型性能。 如果无需使用数据评估操作,可跳过此章节至发布文本类数据集。 创建文本类数据集评估标准 ModelArts Stu
评估视频类数据集 发布视频类数据集前,ModelArts Studio大模型开发平台支持对数据集进行评估操作,帮助用户优化数据质量,确保数据满足高标准,提升模型性能。 如果无需使用数据评估操作,可跳过此章节至发布视频类数据集。 创建视频类数据集评估标准 ModelArts Stu
在完成数据加工后,如果无需使用数据标注功能,可直接在“加工任务”页面单击操作列“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 父主题: 加工视频类数据集
在“创建发布任务”页面,选择数据集模态,如“其他 > 自定义”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“基本配置”中选择数据用途、数据集可见性、适用场景。当前其他类数据集仅支持发布标准格式。 填写数据集名称、描述,设置扩展信息后,单击“确定”执行数据集发布操作。 当任
数据集格式要求 文本类数据集格式要求 图片类数据集格式要求 视频类数据集格式要求 气象类数据集格式要求 预测类数据集格式要求 其他类数据集格式要求 父主题: 使用数据工程构建数据集
务成功的提示。 在完成数据标注后,如果无需进行标注审核,可直接在“标注任务 > 任务管理”页签单击“生成”,生成加工数据集。 生成的加工数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 审核标注后的文本类数据集 如果在创建文本类数据集标注任务时启用了标注审
成任务。 当数据合成任务运行成功后,状态将从“运行中”变为“运行成功”,表示数据已经完成合成操作。 在完成数据合成后,若无需使用数据标注、数据配比功能,可直接在“合成任务”页面单击操作列“生成”,生成加工数据集。 生成的加工数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。
加工视频类数据集 加工视频类数据集 标注视频类数据集 父主题: 加工数据集
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不同,回归分类数据不要求数据具有时间顺序。