检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
化数据,持文本、表格、表单、公式等内容提取。 数据转换 个人数据脱敏 对文本中的电话号码、邮箱、身份证、车牌号、IP地址、URL地址、MAC地址、护照号、IMEI等个人敏感信息进行数据脱敏,或直接删除敏感信息。 中文简繁转换 将简体文本转换为繁体,或将繁体文本转换为简体。 符号标准化
练要求,您可以通过一些手段将其转换为有监督数据,再将转换后的领域知识与目标任务数据混合,使用微调的方式让模型学习。 这里提供了一些将无监督数据转换为有监督数据的方案,供您参考: 基于规则构建:您可以通过采用一些简单的规则来构建有监督数据。比如: 表1 采用规则将无监督数据构建为有监督数据的常用方法
数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台提供了图文类、图片类加工算子,算子能力清单见表1、表2。 图文类加工算子能力清单 表1 图文类加工算子能力清单 算子分类 算子名称
数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类加工算子能力清单 算子分类 算子名称 算子描述
数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持视频类数据集的加工操作,分为数据提取、数据过滤、数据打标三类,视频类加工算子能力清单见表1。 表1 视频类加工算子能力清单 算子分类
在金融场景中,客户日常业务依赖大量报表数据来支持精细化运营,但手工定制开发往往耗费大量人力。因此,希望借助大模型消除语义歧义性,识别用户查询意图,并直接生成支持下游操作的结构化JSON信息。大模型的NL2JSON能力可以从自然语言输入抽取关键信息并转换为JSON格式输出,以供下游操作,从而满足该场景下客户需求。
查看提示词评估结果 评估任务创建完成后,会跳转至“评估”页面,在该页面可以查看评估状态。 图1 查看提示词评任务状态 单击“评估名称”,进入评估任务详情页,可以查看详细的评估进度,例如在图2中有10条评估用例,当前已评估8条,剩余2条待评估。 图2 查看评估进展 评估完成后,可以查看每条数据的评估结果。
查看NLP大模型训练状态与指标 模型启动训练后,可以在模型训练列表中查看训练任务的状态,单击任务名称可以进入详情页查看训练指标、训练任务详情和训练日志。 查看模型训练状态 在模型训练列表中查看训练任务的状态,各状态说明详见表1。 表1 训练状态说明 训练状态 训练状态含义 已发布
果与真实结果之间差距的指标。该值越小,表示模型在高空(深海)变量的预测精度越高。 表面Loss(海表Loss) 表面Loss(海表Loss)是衡量模型在表面层次变量或在海表变量预测结果与真实结果之间差距的指标。该值越小,表示模型在表面(海表)变量的预测精度越高。 RMSE 均方根
查看NLP大模型部署任务详情 部署任务创建成功后,可以在“模型开发 > 模型部署”页面查看模型的部署状态。 当状态依次显示为“初始化 > 部署中 > 运行中”时,表示模型已成功部署,可以进行调用。 此过程可能需要较长时间,请耐心等待。在此过程中,可单击模型名称可进入详情页,查看模
此示例演示了如何使用加工算子轻松构建单轮问答数据集。数据集的加工算子是一种灵活的数据预处理工具,能够帮助您将原始数据转化为所需的格式。通过使用加工算子,您可以提取、转换、过滤原始数据,生成适合大模型训练的数据集。 准备工作 请提前准备数据并上传至OBS服务,上传步骤请详见通过控制台快速使用OBS。 操作流程
查看科学计算大模型部署任务详情 部署任务创建成功后,可以在“模型开发 > 模型部署”页面查看模型的部署状态。 当状态依次显示为“初始化 > 部署中 > 运行中”时,表示模型已成功部署,可以进行调用。 此过程可能需要较长时间,请耐心等待。在此过程中,可单击模型名称可进入详情页,查看
“盘古格式”为使用盘古大模型训练或评测时所需要使用的数据格式。 “自定义格式”可以通过自定义格式转换脚本,将数据集转化为适用于其他模型的格式。例如盘古数据集中,context、target字段分别表示问题和答案。对于Alpaca格式的数据集,instruction对应问题,input对应
“盘古格式”为使用盘古大模型训练或评测时所需要使用的数据格式。 “自定义格式”可以通过自定义格式转换脚本,将数据集转化为适用于其他模型的格式。例如盘古数据集中,context、target字段分别表示问题和答案。对于Alpaca格式的数据集,instruction对应问题,input对应
Studio开发平台中,数据工程功能提供了完整的解决方案,用于高效构建和管理数据集,其操作流程见图1、表1。这种全面的数据准备机制,确保了数据质量的可靠性,为各类模型开发奠定了坚实的基础。 图1 数据集准备与处理流程图 表1 数据集准备与处理流程表 流程 子流程 说明 导入数据至盘古平台 创建原始数据集 数据集是指
文本类数据集,加工算子清单详见文本类加工算子能力清单。 视频类数据集,加工算子清单详见视频类加工算子能力清单。 图片类数据集,加工算子清单详见表1、表2。 气象类数据集,加工算子清单详见表1。 父主题: 加工数据集
可将预置模型部署为预置服务,用于后续的调用操作。 其中,NLP预置模型使用流程见图1、表1,科学计算预置模型使用流程见图2、表2。 图1 NLP预置模型使用流程图 表1 NLP预置模型使用流程表 流程 子流程 说明 操作指导 准备工作 申请试用盘古大模型服务 盘古大模型为用户提供
数据发布不仅包括数据的格式转换,还涉及数据比例的调整,以确保数据在规模、质量和内容上满足训练标准。具体而言,数据集发布具有以下重要意义: 数据比例和结构调整:平台提供灵活的数据比例调整功能,用户可以按需调整数据集的各类数据比例,确保数据集在训练时的代表性和均衡性,从而避免数据分布不均导致的训练问题。
开场白和推荐问题”中,可输入自定义开场白,也可单击“智能添加”。 在推荐问中单击“添加”,可增加推荐问数量。添加后可在右侧“预览调试”中查看相应效果。 最多可以添加3个推荐问。 图1 预览调试查看开场白与推荐问效果 父主题: 手工编排Agent应用
模型可处理最大Token长度,选择合适的模型,从而提高模型的整体效果,详见表1。 此外,不同类型的NLP大模型在训练过程中,读取中文、英文内容时,字符长度转换为Token长度的转换比有所不同,详见表2。 表1 不同系列NLP大模型对处理文本的长度差异 模型支持区域 模型名称 可处理最大Token长度