检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
导入数据至盘古平台 数据集是一组用于处理和分析的相关数据样本。 用户将存储在OBS服务中的数据导入至ModelArts Studio大模型开发平台后,将生成“原始数据集”被平台统一管理,用于后续加工或发布操作。 创建导入任务 创建导入任务前,请先按照数据集格式要求提前准备数据。 平台支持使用O
概述 盘古大模型整合华为云强大的计算和数据资源,将先进的AI算法集成在预训练大模型中,打造出具有深度语义理解与生成能力的人工智能大语言模型。可进行对话互动、回答问题、协助创作。 盘古大模型在ModelArts Studio大模型开发平台部署后,可以通过API调用推理接口。 表1 API清单
获取提示词模板 平台提供了多种任务场景的提示词模板,可以帮助用户更好地利用大模型的能力,引导模型生成更准确、更有针对性的输出,从而提高模型在特定任务上的性能。 在创建提示词工程前,可以先使用预置的提示词模板,或基于提示词模板进行改造 。如果提示词模板满足不了使用需求可再单独创建。
创建提示词工程 通过精心设计和优化提示词,可以引导大模型生成用户期望的输出。提示词工程任务的目标是通过设计和实施一系列的实验,来探索如何利用提示词来提高大模型在各种任务上的表现。 撰写提示词前需要先创建提示词工程,用于对提示词进行统一管理。 登录ModelArts Studio大模型开发平台,进入所需空间。
查看评估进展 评估完成后,可以查看每条数据的评估结果。 在评估结果中,“预期结果”表示变量值(问题)所预设的期望回答,“生成结果”表示模型回复的结果。通过比对“预期结果”、“生成结果”的差异可以判断提示词效果。 父主题: 批量评估提示词效果
在完成数据合成后,若无需使用数据标注功能,可直接在“数据合成”页面单击操作列“生成”,生成加工数据集。 加工数据集列表可在“数据工程 > 数据加工 > 加工数据集”中查看。 创建自定义数据合成指令 平台支持用户创建自定义数据合成指令。 本章节将以“生成主题散文”的场景为例,详细介绍自定义数据合成指令的配置步骤。
如何分析大模型输出错误回答的根因 大模型的输出过程通常是一个黑盒,涉及数以亿计甚至千亿计的参数计算,虽然这些参数共同作用生成输出,但具体的决策机制并不透明。 可以通过在提示词中引导模型输出思考过程,或者在模型输出后追问模型,帮助我们分析错误的根因。例如: “我注意到你犯了xxx的错误,请解释得出该结论的原因。”
理解能力。这时,通过调整提示词通常可以有效引导模型生成合理的回答。 例如,对于一些常见的问答场景(如常见百科问题),由于这些领域的相关数据广泛存在,模型通常能够较好地理解并生成准确回答。在这种情况下,通过调整提示词来引导模型的生成风格和细节,通常可以达到较好的效果。 业务逻辑的复杂性
为什么微调后的盘古大模型的回答中会出现乱码 当您将微调的模型部署以后,输入一个与目标任务同属的问题,模型生成的结果中出现了其他语言、异常符号、乱码等字符。这种情况可能是由于以下几个原因导致的,建议您依次排查: 数据质量:请检查训练数据中是否存在包含异常字符的数据,可以通过规则进行清洗。
选择评估使用的变量数据集和评估方法。 评估用例集:根据选择的数据集,将待评估的提示词和数据集中的变量自动组装成完整的提示词,输入模型生成结果。 评估方法:根据选择的评估方法,对模型生成结果和预期结果进行比较,并根据算法给出相应的得分。 图2 创建提示词评估任务 单击“确定”,评估任务自动进入执行状态。
整。 温度 用于控制生成结果的随机性。调高温度,会使得模型的输出更具多样性和创新性;降低温度,会使输出内容更加遵循指令要求,但同时也会减少模型输出的多样性。 问题配置 问题 该参数将在对话框中原样呈现给用户。如未配置此处,将由大模型根据输出参数描述,自动生成包含所有问题关键词的一个问题。
据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针对特定区域,旨在提供完整、一致且高精度的气象数据。 再分析数据为二进制格式,具体格式要求详见表1。
创建一个应用。 Agent开发平台应用场景 当前,基于Agent开发平台可以构建两种类型的应用,一种是针对文本生成、文本检索的知识型Agent,如搜索问答助手、代码生成助手等,执行主体在大模型;另一种是针对复杂工作流场景的流程型Agent,如金融分析助手、网络检测助手等。 知识型
洗算子以及支持用户创建自定义算子实现个性化的数据清洗诉求。确保生成高质量的训练数据以满足业务需求和模型训练的要求。用户还可以灵活地调整算子编排顺序以及自定义清洗模板,有效提升数据清洗效率并支持大规模数据处理,确保生成的数据集符合训练的标准。 数据合成:平台支持利用预置或自定义的数
交全部标注数据”,让AI大模型自动标注剩余数据。 在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 审核标注后的图片类数据集 如果在创建图片类数据集标
采用规则将无监督数据构建为有监督数据的常用方法 规则场景 说明 文本生成:根据标题、关键词、简介生成段落。 若您的无监督文档中含标题、关键词、简介等结构化信息,可以将有监督的问题设置为“请根据标题xxx/关键性xxx/简介xxx,生成一段不少于xx个字的文本。”,将回答设置为符合要求的段落。
则文本将被引导到大模型节点。大模型节点基于预训练的盘古NLP大模型生成响应,从而实现自然语言理解和生成。完成后,结果传递给结束节点。 结束节点:工作流的终结节点,负责输出最终结果。无论是翻译结果还是大模型生成的回答,都会通过该节点输出给用户。 父主题: 低代码构建多语言文本翻译工作流
默认值为false,如果开启流式,请赋值true,同时n参数只能设置为1。开启流式开关后,API会在生成文本的过程中,实时地将生成的文本发送给客户端,而不是等到生成完成后一次性将所有文本发送给客户端。 temperature 否 Float 用于控制生成文本的多样性和创造力。 取值接近0表示最低的随机性,1表示最高的
当数据清洗任务运行成功后,状态将从“运行中”变为“运行成功”,表示数据已经完成清洗。 在完成数据清洗后,如果无需使用数据标注功能,可直接在“数据清洗”页面单击操作列“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 父主题: 加工视频类数据集
提示词应用示例 应用提示词实现智能客服系统的意图匹配 应用提示词生成面试题目 父主题: 提示词写作实践