检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
气象类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类加工算子能力清单
图片类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台提供了图文类、图片类加工算子,算子能力清单见表1、表2。 图文类加工算子能力清单 表1
中的有效信息,完成问题的回答。 除了上述提到的四个模块以外,还需要一个编排流程的pipeline,将这些模块提供的API接口进行编排,串联query改写、意图识别模块、检索模块和问答模块。该pipeline负责接收前端用户输入的query和历史问答,逐步处理并最终输出答案,展示在前端界面。
视频类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持视频类数据集的加工操作,分为数据提取、数据过滤、数据打标三类,视频类加工算子能力清单见表1。
平台支持发布的数据集格式为默认格式、盘古格式、自定义格式,可按需进行数据集格式转换。 默认格式:平台默认的格式。 盘古格式:训练盘古大模型时,需要进行数据集格式转换。当前仅文本类、图片类数据集支持转换为盘古格式。 自定义格式:文本类数据集可以使用自定义脚本进行数据格式转换。 父主题: 使用数据工程准备与处理数据集
型消除语义歧义性,识别用户查询意图,并直接生成支持下游操作的结构化JSON信息。大模型的NL2JSON能力可以从自然语言输入抽取关键信息并转换为JSON格式输出,以供下游操作,从而满足该场景下客户需求。 金融场景下,NL2JSON能力可以有效消除用户语义歧义性,提高数据处理的灵活
此示例演示了如何使用加工算子轻松构建单轮问答数据集。数据集的加工算子是一种灵活的数据预处理工具,能够帮助您将原始数据转化为所需的格式。通过使用加工算子,您可以提取、转换、过滤原始数据,生成适合大模型训练的数据集。 准备工作 请提前准备数据并上传至OBS服务,上传步骤请详见通过控制台快速使用OBS。 操作流程
默认格式:平台默认的格式。 盘古格式:训练盘古大模型时,需要将数据集格式发布为“盘古格式”。 自定义格式:文本类数据集可以使用自定义脚本进行数据格式转换。 发布文本类数据集操作步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
数据集加工场景介绍 数据加工概念 数据加工是数据工程中的核心环节,旨在通过使用数据集加工算子对原始数据进行清洗、转换、提取和过滤等操作,以确保数据符合模型训练的标准和业务需求。 通过这一过程,用户能够优化数据质量,去除噪声和冗余信息,提升数据的准确性和一致性,为后续的模型训练提供
能引发的问题,从而构建高质量、适应性强的数据集,为后续的模型训练、验证和应用提供坚实的数据支持。 数据发布意义 数据发布不仅包括数据的格式转换,还涉及数据比例的调整,以确保数据在规模、质量和内容上满足训练标准。具体而言,数据集发布具有以下重要意义: 数据比例和结构调整:平台提供灵
默认格式:平台默认的格式。 盘古格式:训练盘古大模型时,需要将数据集格式发布为“盘古格式”。 自定义格式:文本类数据集可以使用自定义脚本进行数据格式转换。 发布图片类数据集操作步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
插件URL 插件服务的请求URL地址。 URL协议只支持HTTP和HTTPS。 系统会校验URL地址是否为标准的URL格式。 URL对应的IP默认不应为内网,否则会导致注册失败。仅在非商用环境部署时,才允许支持内网URL,且需要通过相关的服务的启动配置项关闭内网屏蔽。 请求方式 插件服务的请求方式,POST或GET。
"right_wrist", "left_hip", "right_hip", "left_knee", "right_knee"
数据加工:数据加工是确保数据质量的关键步骤。平台提供一系列数据清洗、过滤、转换等加工操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准。针对不同类型的数据集,平台设计了专用的加工算子(即为特定数据处理任务预定义的操作模块,如文本去重、格式转换、异常处理等),通过这些算子能够高效地处理各类数据。
选择合适的模型,从而提高模型的整体效果,详见表1。 此外,不同类型的NLP大模型在训练过程中,读取中文、英文内容时,字符长度转换为Token长度的转换比有所不同,详见表2。 表1 不同系列NLP大模型对处理文本的长度差异 模型支持区域 模型名称 可处理最大Token长度 说明 西南-贵阳一
Studio大模型开发平台,进入所需空间。 在左侧导航栏“空间资产 > 数据”中可以查看当前空间内的数据资产,如果有多个空间的访问权限,可切换空间查看其他空间内的资产。 在“数据发布”页签可查看数据资产,并可对数据集进行删除操作。单击数据集名称可进入详情页面查看数据集的基础信息和操作概览。
训练任务。 平台支持发布的数据集格式为默认格式、盘古格式,可按需进行数据集格式转换。 默认格式:平台默认的格式。 盘古格式:训练盘古大模型时,需要进行数据集格式转换。当前仅文本类、图片类数据集支持转换为盘古格式。 NLP大模型开发流程 ModelArts Studio大模型开发平
使输出结果更加多样化。 最大口令限制 用于控制聊天回复的长度和质量。 话题重复度控制 用于控制生成文本中的重复程度。调高参数模型会更频繁地切换话题,从而避免生成重复内容。 词汇重复度控制 用于调整模型对频繁出现的词汇的处理方式。调高参数会使模型减少相同词汇的重复使用,促使模型使用更多样化的词汇进行表达。
训练前的高质量标准。 数据发布:平台支持将处理后的数据集发布为多种格式,包括默认格式和盘古格式。尤其对于文本类和图片类数据集,平台支持将其转换为专门用于训练盘古大模型的盘古格式,为后续模型训练提供高效的数据支持。 通过整合上述功能,数据工程模块不仅帮助用户高效构建高质量的训练数据
Studio大模型开发平台,进入所需空间。 在左侧导航栏“空间资产 > 模型”中可以查看当前空间和预置的模型资产,如果有多个空间的访问权限,可切换空间查看其他空间内的资产。 在“本空间”页签可查看模型资产,并可对模型进行删除操作。单击模型名称可进入详情页面查看模型的基础信息。 在“预