检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可选择开启“多人作业”功能,开启后,可选择多人协同完成作业,并增加审核功能可供选择。参考表2配置标注分配与审核。 表2 标注分配与审核配置 参数类型 参数名称 参数说明 标注分配 标注员 添加标注人员与数量。 标注审核 是否审核 否,标注后不进行审核操作。 是,审核员会检查标注员的标注内容,
见创建自定义数据合成指令。 指令选择完成后,单击“确定”,并配置指令参数。 如图1,展示了预训练文本类数据集的合成指令参数配置示例,该合成任务实现利用预训练文本生成问答对。 图1 预训练文本类数据集合成指令参数配置示例 指令编排完成后,单击右上角“启用调测”,可以对当前编排的指令效果进行预览。
可选择开启“多人作业”功能,开启后,可选择多人协同完成作业,并增加审核功能可供选择。参考表2配置标注分配与审核。 表2 标注分配与审核配置 参数类型 参数名称 参数说明 标注分配 标注员 添加标注人员与数量。 标注要求 选择标注项为“图片Caption”且开启AI预标注功能时,可设置以下两种方式的“标注要求”:
流。 - 通用文本(/text/completions) Java、Python、Go、.NET、NodeJs、PHP 给定一个提示和一些参数,模型会根据这些信息生成一个或多个预测的补全,还可以返回每个位置上不同词语的概率。它可以用来做文本生成、自动写作、代码补全等任务。 开发环境要求
源。 可以选择“全局服务资源”,即服务部署时不区分区域,访问全局级服务,不需要切换区域,全局服务不支持基于区域项目授权。如对象存储服务(OBS)、内容分发网络(CDN)等。 选择完成后,单击“确定”。 图4 设置最小授权范围 单击“完成”,完成用户组授权。 图5 完成授权 创建盘古子用户
选择压缩策略。除INT8压缩策略外,部分模型支持INT4压缩策略,可在选择模型后,根据页面展示的策略进行选择。 INT8:该压缩策略将模型参数压缩至8位字节,可以有效降低推理显存占用。 INT4:该压缩策略与INT8相比,可以进一步减少模型的存储空间和计算复杂度。 配置资源。选择计费模式并设置训练单元。
进入“加工步骤编排”页面。对于视频类数据集,可选择的加工算子请参见表1。 在左侧“添加算子”分页勾选所需算子。 在右侧“加工步骤编排”页面配置各算子参数,可拖动右侧“”以调整算子执行顺序。 图1 算子编排 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据
以及区域范围,适用于想自定义自己的区域模型的场景,需预先准备好区域高精度数据。 微调:在已有模型的基础上添加新数据,它适用于不改变模型结构参数和引入新要素的情况,添加最新数据的场景。 本实践将以平台预置的区域海洋要素基模型为例,介绍盘古科学计算大模型的微调训练过程,该模型的基本信息详见表1。
进入“加工步骤编排”页面。对于气象类数据集,可选择的加工算子请参见表1。 在左侧“添加算子”分页勾选所需算子。 在右侧“加工步骤编排”页面配置各算子参数,可拖动右侧“”以调整算子执行顺序。 图1 算子编排 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据
用训练(重新训练模型)。在重训配置参数时,您可以选择新要素进行训练。请注意,所选的数据集必须包含您想要添加的新要素。此外,您还可以通过训练更改所有的模型参数,以优化模型性能。 微调:微调是将新数据应用于已有模型的过程。它适用于不改变模型结构参数和引入新要素的情况。如果您有新的观测
进入“加工步骤编排”页面。对于图片类数据集,可选择的加工算子请参见表1。 在左侧“添加算子”分页勾选所需算子。 在右侧“加工步骤编排”页面配置各算子参数,可拖动右侧“”以调整算子执行顺序。 图1 算子编排 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据
进入“加工步骤编排”页面。对于文本类数据集,可选择的加工算子请参见文本类加工算子介绍。 在左侧“添加算子”分页勾选所需算子。 在右侧“加工步骤编排”页面配置各算子参数,可拖动右侧“”以调整算子执行顺序。 图1 算子编排 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据
步骤7:调试应用 创建应用后,平台支持对应用执行过程的进行预览与调试。 调试应用的步骤如下: 在页面右上角单击“”,参考表2配置大模型参数。 表2 大模型参数配置 参数 说明 模型选择 选择要使用的大模型,不同的模型效果存在差异。 该模型需提前部署,步骤请参见创建NLP大模型部署任务。 模式选择
数据工程包含的具体功能如下: 数据获取:数据获取是数据工程的第一步,支持将不同来源和格式的数据导入平台,并生成“原始数据集”。 支持的接入方式:通过OBS服务导入数据。 支持的数据类型:文本、图片、视频、气象、预测、其他。 通过这些功能,用户可以轻松将大量数据导入平台,为后续的数据加工和模型训练等操作做好准备。
模型数据集流程见表2。 表2 盘古科学计算大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工气象类数据集 加工气象类数据集 通过专用的加工算子对数据
单击“下一步”,进入“指令编排”页面。 在左侧“添加指令”中添加预置指令。 指令选择完成后,配置指令参数。 下图展示了预训练文本类数据集的合成指令参数配置示例,该合成任务实现利用预训练文本生成问答对。 图1 预训练文本类数据集合成指令参数配置示例 8. 指令编排完成后,单击右上角“启用调测”,可以对当前编排的指令效果进行预览。
提示工程是什么 大模型生成文本的过程可视为一个黑盒,同一模型下对于同一个场景,使用不同的提示词也会获得不同的结果。提示工程是指在不更新模型参数的前提下,通过设计和优化提示词的方式,引导大模型生成目标结果的方法。 为什么需要提示工程 模型生成结果优劣取决于模型能力及提示词质量。其中
多个任务的底层支持。 通过使用海量的互联网文本语料对模型进行预训练,使模型理解人类语言的基本结构。 微调 关注专业性:微调是对预训练模型的参数进行调整,使其在特定任务中达到更高的精度和效果。微调的核心在于利用少量的特定任务数据,使模型的表现从通用性向具体任务需求过渡。 使用小规模
产品优势 预置多,数据工程“易” ModelArts Studio大模型开发平台预置多种数据处理AI算子,多种标注工具,满足用户多任务多场景需求,提高开发/标注效率>10X。 0代码,模型开发“简” ModelArts Studio大模型开发平台预置盘古系列预训练大模型,支持快速
以及理解大语言模型能力方面都起着重要作用。用户可以通过提示词工程来提高大语言模型的安全性,还可以赋能大语言模型,如借助专业领域知识和外部工具来增强大语言模型的能力。 提示词基本要素 您可以通过简单的提示词(Prompt)获得大量结果,但结果的质量与您提供的信息数量和完善度有关。