检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据工程介绍 数据工程简介 数据工程是ModelArts Studio大模型开发平台为用户提供的一站式数据处理与管理功能,旨在通过系统化的数据获取、加工、标注、评估和发布等过程,确保数据能够高效、准确地为大模型的训练提供支持,帮助用户高效管理和处理数据,提升数据质量和处理效率,为大模型开发提供坚实的数据基础。
TaskConfigDto object 科学计算大模型配置信息。 表3 TaskInputDto 参数 参数类型 描述 type String 存储类型。 data Array of ObsStorageDto objects 输入数据的OBS信息。 表4 ObsStorageDto 参数
约束与限制 受技术等多种因素制约,盘古大模型服务存在一些约束限制。 不同模型请求的最大Token数有所不同,具体信息请参见模型能力与规格。 关于模型支持的训练数据量要求,例如NLP大模型,请参考《用户指南》“开发盘古NLP大模型 > 训练NLP大模型 > NLP大模型训练流程与选择建议”。
3h、6h、24h往后进行天气要素的预测。 中期天气要素模型包括6h分辨率模型,即以起报时刻开始,可以逐6h往后进行降水情况的预测。 结果存储路径 用于存放模型推理结果的OBS路径。 输入数据 支持选择用于存放作为初始场数据的文件路径。 预报天数 支持选择以起报时间点为开始,对天
发布其他类数据集 原始数据集和加工后的数据集不可以直接用于模型训练,需要独立创建一个“发布数据集”。 其他类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
发布视频类数据集 原始数据集和加工后的数据集不可以直接用于模型训练,需要独立创建一个“发布数据集”。 视频类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
发布气象类数据集 原始数据集和加工后的数据集不可以直接用于模型训练,需要独立创建一个“发布数据集”。 气象类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
创建文本类数据集评估标准 ModelArts Studio大模型开发平台针对文本数据集预设了一套基础评估标准,涵盖了数据准确性、完整性、一致性、格式规范等多个维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建文本类数据集评估任务。
发布预测类数据集 原始数据集和加工后的数据集不可以直接用于模型训练,需要独立创建一个“发布数据集”。 预测类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
使用盘古预置NLP大模型进行文本对话 场景描述 此示例演示了如何使用盘古能力调测功能与盘古NLP大模型进行对话问答。您将学习如何通过调试模型超参数,实现智能化对话问答功能。 准备工作 请确保您有预置的NLP大模型,并已完成模型的部署操作,详见《用户指南》“开发盘古NLP大模型 >
TaskConfigDto object 科学计算大模型配置信息。 表3 TaskInputDto 参数 是否必选 参数类型 描述 type 是 String 存储类型,取值为obs。 data 是 Array of ObsStorageDto objects 输入数据的OBS信息。 表4 ObsStorageDto
盘古大模型空间资产介绍 在ModelArts Studio大模型开发平台的空间资产中,包括数据和模型两类资产。这些资产为用户提供了集中管理和高效操作的基础,便于用户实现统一查看和操作管理。 数据资产:用户已发布的数据集将作为数据资产存放在空间资产中。用户可以查看数据集的详细信息,
查看NLP大模型部署任务详情 部署任务创建成功后,可以在“模型开发 > 模型部署”页面查看模型的部署状态。 当状态依次显示为“初始化 > 部署中 > 运行中”时,表示模型已成功部署,可以进行调用。 此过程可能需要较长时间,请耐心等待。在此过程中,可单击模型名称可进入详情页,查看模
查看科学计算大模型部署任务详情 部署任务创建成功后,可以在“模型开发 > 模型部署”页面查看模型的部署状态。 当状态依次显示为“初始化 > 部署中 > 运行中”时,表示模型已成功部署,可以进行调用。 此过程可能需要较长时间,请耐心等待。在此过程中,可单击模型名称可进入详情页,查看
数据集发布场景介绍 数据发布概念 数据发布是指将经过加工、标注、评估的数据集导出并生成符合特定任务或模型训练需求的正式数据集。数据发布是数据处理流程中的关键步骤,也是数据集构建的最终环节。 数据发布过程不仅包括将数据转化为适合使用的格式,还要求根据任务需求对数据集的比例进行科学调
使用盘古加工算子构建单轮问答数据集 场景描述 此示例演示了如何使用加工算子轻松构建单轮问答数据集。数据集的加工算子是一种灵活的数据预处理工具,能够帮助您将原始数据转化为所需的格式。通过使用加工算子,您可以提取、转换、过滤原始数据,生成适合大模型训练的数据集。 准备工作 请提前准备
创建提示词评估任务 选择候选提示词进行批量自动化评估,步骤如下:。 登录ModelArts Studio大模型开发平台,进入所需空间。 在左侧导航栏中选择“Agent 开发 > 提示词工程 > 提示词开发”。 在工程任务列表页面,找到所需要操作的工程任务,单击该工程任务右侧“撰写”。
气象类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类加工算子能力清单
TaskConfigDto object 科学计算大模型配置信息。 表3 TaskInputDto 参数 参数类型 描述 type String 存储类型。 data Array of ObsStorageDto objects 输入数据的OBS信息。 表4 ObsStorageDto 参数
创建提示词评估数据集 批量评估提示词效果前,需要先上传提示词变量数据文件用于创建对应的评估数据集。 提示词变量是一种可以在文本生成中动态替换的占位符,用于根据不同的场景或用户输入生成不同的内容。其中,变量名称可以是任意的文字,用于描述变量的含义或作用。 提示词评估数据集约束限制 上传文件限xlsx格式。