检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
要用到账号、用户和密码等信息。 区域(Region) 从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Re
提示工程介绍 提示工程是一项将知识、技巧和直觉结合的工作,需要通过不断实践实现模型输出效果的提升。提示词和模型之间存在着密切关系,本指南结合了大模型通用的提示工程技巧以及盘古大模型的调优实践经验,总结的一些技巧和方法更为适合基于盘古大模型的提示工程。 本文的方法论及技巧部分使用了
如何判断训练状态是否正常 判断训练状态是否正常,通常可以通过观察训练过程中Loss(损失函数值)的变化趋势。损失函数是一种衡量模型预测结果和真实结果之间的差距的指标,正常情况下越小越好。 您可以从平台的训练日志中获取到每一步的Loss,并绘制成Loss曲线,来观察其变化趋势。一般来说,一个
要逻辑清晰、无歧义。 设计任务要求 要求分点列举: 要求较多时需要分点列举,可以使用首先\然后,或1\2\3序号分点提出要求。每个要求步骤之间最好换行(\n)分隔断句,单个要求包含一项内容,不能太长。 正负向要求分离: 正负向要求不要掺杂着写,可以先全部列完正向要求,再列负向要求
创建子用户并授权使用盘古 如果您需要对华为云上购买的盘古资源,为企业中的员工设置不同的访问权限,以达到不同员工之间的权限隔离,您可以使用统一身份认证服务(IAM)并结合盘古大模型套件平台提供的“角色管理”功能实现精细的权限管理。 如果华为云账号已经能满足您的要求,不需要创建独立的
义匹配和查询,通过向量和相似度的计算,实现对数据的语义理解和检索。 Vector向量存储:是一种将数据转换为数学表示的方法,它可以度量数据之间的关系和相似度。向量存储可以根据不同的词向量模型进行初始化、更新、查找和清理操作。向量存储还可以支持多种相似算法,如余弦相似度、欧氏距离、
义匹配和查询,通过向量和相似度的计算,实现对数据的语义理解和检索。 Vector向量存储:是一种将数据转换为数学表示的方法,它可以度量数据之间的关系和相似度。向量存储可以根据不同的词向量模型进行初始化、更新、查找和清理操作。向量存储还可以支持多种相似算法,如余弦相似度、欧氏距离、
大,利于文本多样化。 多样性与一致性 多样性和一致性是评估LLM生成语言的两个重要方面。 多样性指模型生成的不同输出之间的差异。一致性指相同输入对应的不同输出之间的一致性。 重复惩罚 重复惩罚(repetition_penalty)是在模型训练或生成过程中加入的惩罚项,旨在减少重
清洗流程。 可以使用预置的清洗模板完成对数据集的清洗,也可以基于算子搭建清洗流程。 图2 搭建数据清洗流程 将算子拖拽至“输入”、“输出”之间,即可完成清洗流程的搭建,搭建过程中可以通过“执行节点”功能查看算子对数据的清洗效果。算子功能的详细介绍请参见清洗算子功能介绍。 图3 执行节点
<40% 红色 告警,需要优化数据 正常数据量:数据集中,有效数据占总体数据的比例。 预警:数据集中,有效数据占总体数据的比例在40%-80%之间,表示数据质量较差,提示需要进行优化。 告警:数据集中,有效数据占总体数据的比例低于40%,表示数据质量极差,提示需要进行优化。 表3 合规度校验规则说明
质量的代码,支持Java、Python、Go等多种编程语言。它不仅能够提供完整的代码实现,还能够根据用户的需求,进行代码补全和不同编程语言之间的改写转化。 借助盘古大模型,程序员可以更加专注于创新和设计,而无需过多关注繁琐的编码工作。它不仅提升了代码的质量和稳定性,还缩短了开发周期,加速了产品的迭代和发布。
指标与模型能力的关系 BLEU指标用于评估模型生成句子(candidate)与实际句子(reference)差异的指标。取值范围在0.0到1.0之间,值越高说明模型生成和实际答案匹配度越高。 可以作为模型能力的参考指标,当两个模型进行比较时,BLEU指标越大的模型效果一般更好。但是模型
模型训练 自监督训练 使用不含有标记的数据进行模型训练。 创建自监督微调训练任务 有监督训练 使用含有标记的数据进行模型训练,以学习输入和输出之间的映射关系。 创建有监督训练任务 模型评估 创建模型评估任务 训练完成后评估模型的回答效果。 创建模型评估任务 查看模型评估结果 查看模型评估指标和评估结果。
高级配置 工具召回策略 设置从所有可用工具中选择最相关的工具来处理用户的问题策略。 类型:使用词嵌入技术(embedding)来衡量用户问题与工具之间的相关性。 中断策略:当相关性得分小于设置的阈值,则不召回任何工具,终止后续流程。 阈值:指工具召回的相关性得分的阈值。阈值越高,召回工具
用户针对业务场景,可以通过数据配比功能,自由组合多个数据集,并控制数据占比。 数据集来源:用户自己创建并且已经发布的数据集。 数据集组合:选择多个数据集,并且可以指定数据之间的配比和条数,最大支持20个。 配比的作用:支持用户灵活调整数据集的比例。 比例:用户自己创建的数据集,默认1:1:1的方式。例如,3个数