检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为什么微调后的盘古大模型的回答中会出现乱码? 更多 技术专题 技术、观点、课程专题呈现 云图说 通过云图说,带您了解华为云 OCR基础课程 介绍文字识别服务的产品、技术指导和使用指南 OCR系列介绍 文字识别服务在计算机视觉的重要性、基本技术和最新进展 智能客服 您好!我是有问必答知识渊博
在金融场景中,客户日常业务依赖大量报表数据来支持精细化运营,但手工定制开发往往耗费大量人力。因此,希望借助大模型消除语义歧义性,识别用户查询意图,并直接生成支持下游操作的结构化JSON信息。大模型的NL2JSON能力可以从自然语言输入抽取关键信息并转换为JSON格式输出,以供下游操作,从而满足该场景下客户需求。 金
大模型(LLM)通过对海量公开数据(如互联网和书籍等语料)进行大规模无监督预训练,具备了强大的语言理解、生成、意图识别和逻辑推理能力。这使得大模型在智能问答系统中表现出色:用户输入问题后,大模型依靠其强大的意图理解能力和从大规模预训练语料及通用SFT中获得的知识,生成准确而全面的回答。然而,依赖通用大模型自
目录\封面过滤 移除文本的目录和封面。 图注标注过滤 移除文本中的图标和标注信息。 参考文献过滤 移除文本中参考文献的信息。 数据去重 去重 移除文本中重复内容。 数据安全 数据脱敏 识别并对文本中电话号码、邮箱、身份证等信息进行脱敏。 敏感词过滤 识别并过滤文本中包含的涉黄、涉暴、涉政等敏感词。
数据参考格式 图2 数据示例 创建提示词评估数据集 登录盘古大模型套件平台。 在左侧导航栏中选择“数据工程 > 提示用例管理”。 图3 提示用例管理 单击页面右上角“创建提示用例集”,进入创建弹窗。 单击存储位置最右侧的图标,选择数据集文件所对应的obs路径,然后输入数据集名称、描述,创建数据集。
训练、推理和删除的各个环节,提供防篡改、数据隐私保护、加密、审计和数据主权保护等机制。在训练和推理过程中,通过数据脱敏、隐私计算等技术手段识别并保护敏感数据,有效防止隐私泄露,保障个人隐私数据安全。 内容安全:通过预训练和强化学习价值观提示(prompt),构建正向的意识形态。通
栏中的“撰写”。 图1 提示词工程 在撰写提示词区域输入提示词文本,可以插入若干个变量,通过占位符{{ }}标识,单击“确认”按钮,平台会自动识别插入的变量。 图2 撰写提示词 图3 确认提示词内容 识别的变量展示在变量定义区域,可以编辑变量名称便于理解。 图4 查看提示词变量
行深度分析和理解。它能够精准识别用户的意图和需求,即使是复杂或模糊的查询,也能提供准确的响应。这种对话问答方式提高了知识获取效率,使智能客服系统更加人性化和有温度。 此外,盘古大模型还能够根据用户的行为和反馈不断学习和优化,进一步提升服务能力。它能识别用户的情绪和语气,调整回答的
bs.huaweicloud.com/videos/102987 。 请求示例如下图所示,一个请求主要有请求URI、请求方法、请求消息头和请求消息体组成,各个部分将在下文详细解释。 图1 请求示例图 请求URI 请求URI由如下部分组成。 {URI-scheme} :// {Endpoint}
要应用这些技巧来输出一个逻辑自洽、清晰明了的指令。 提示词是什么 提示词也称为Prompt,是与大模型进行交互的输入,可以是一个问题、一段文字描述或者任何形式的文本输入。 提示词要素 指令:要求模型执行的具体任务或回答的问题。如:“写一篇关于勇士的小说”、“天空为什么是蓝色的?”
]) print(embeddings) Splitter 文档拆分解析,提供对文档数据进行拆分解析能力,支持pdf/doc/docx/ppt/pptx/xls/xlsx/png/jpg/jpeg/bmp/gif/tiff/webp/pcx/ico/psd等格式文档。 初始化 根
toString())); Splitter Splitter用于文档拆分解析,提供对文档数据进行拆分解析能力,支持pdf/doc/docx/ppt/pptx/xls/xlsx/png/jpg/jpeg/bmp/gif/tiff/webp/pcx/ico/psd等格式文档。 初始化:根
获取项目ID 从控制台获取项目ID 登录管理控制台。 在页面右上角的用户名的下拉列表中选择“我的凭证”。 图1 我的凭证 在“我的凭证”页面,获取项目ID(project_id),以及账号名、账号ID、IAM用户名和IAM用户ID。 在调用盘古API时,获取的项目id需要与盘古服
支持迁移操作的模型可以在“模型开发 > 模型管理 > 我的模型”中查看。 图1 模型管理 导入/导出模型 以从环境A迁移模型到环境B为例: 登录环境B的盘古大模型套件平台,在“模型开发 > 模型管理”页面,单击右上角的“模型迁移”。 在“模型迁移”页面,下载用户证书。 图2 下载用户证书 登录环境A的盘古大模型套
下越小越好。 您可以从平台的训练日志中获取到每一步的Loss,并绘制成Loss曲线,来观察其变化趋势。一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。 以下给出了几种正常的Loss曲线形式: 图1 正常的Loss曲线:平滑下降
验证数据可选择“从训练数据拆分”和“从已有数据导入”。 从训练数据拆分:取值范围[1%-50%]。设置1%即从训练数据中随机拆分出1%的数据作为验证集,验证集中最多使用100条数据用于模型训练效果评估。数据按比例拆分后,如果超过100条,会随机取100条数据。 从已有数据导入:从已有的数
地存储,文件导出格式为CSV。 图3 评估报告页面 评估日志: 平台支持查看本次模型评估任务的详细日志。选择评估的模型后,可以查看其从创建开始到任务结束的日志内容,支持下载并保存到本地(log格式)。可通过日志查看报错,调整任务配置重新发起。 图4 评估日志页面 评估指标说明 模
添加一个工具 用于拓展AI助手功能,使其能够与外部系统进行交互。可以直接创建一个工具,或者从搜索框中选择已经创建好的工具。 知识库 通过知识库提升AI助手在特定领域问题的回答效果。 高级配置 工具召回策略 设置从所有可用工具中选择最相关的工具来处理用户的问题策略。 类型:使用词嵌入技术(em
)。 在我的凭证下,您可以查看账号ID和用户ID。通常在调用API的鉴权过程中,您需要用到账号、用户和密码等信息。 区域(Region) 从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通
为用户提供一站式解决方案。 通过使用盘古大模型套件平台,您将体验从数据准备到模型应用的全流程一站式服务,将模型高效集成至您的业务流程中。接下来,将详细介绍该平台的使用流程,帮助您充分发挥盘古大模型套件平台的潜力。 图1 盘古大模型套件使用流程 表1 使用流程说明 流程 子流程 说明