检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图3 购买盘古大模型套件 对于前期邀测用户,如果未购买模型推理资产,仍可以使用公共资源池部署模型;对于购买推理资产的邀测用户,仅可以使用专属资源池部署模型。 对于新购买平台的用户,仅可购买并使用专属资源池。 父主题: 准备工作
选择需要部署的模型。 推理资源 选择非限时免费的模型时显示。选择盘古大模型服务提供的在线推理资产。 部署方式 选择“在线部署”,即将算法部署至盘古大模型服务提供的资源池中。 推理资产 选择“已购资产”。 限时免费:使用免费的推理资源,仅支持部署一个实例。 已购资产:由用户购买的推理资源,实际可用推理单元由购买时的数量决定。
码中配置以下信息,请提前收集。 表1 资源列表 类型 资源 是否必选 依赖信息 参考文档 备注 大语言模型 华为云盘古 是(大语言模型至少选一个) 盘古模型API调用URL。 华为云IAM账号认证信息。 盘古大模型API参考文档: 申请资源时,可联系客户支持获取。 IAM帮助文档:
部署为边缘服务 边缘服务部署流程 边缘部署准备工作 注册边缘资源池节点 搭建边缘服务器集群 安装Ascend插件 订购盘古边缘部署服务 部署边缘模型 调用边缘模型 父主题: 部署盘古大模型
更新。这种方法通常会带来最优的模型性能,但需要大量的计算资源和时间,计算开销较高。 局部微调(LoRA):在模型微调过程中,只对特定的层或模块的参数进行更新,而其余参数保持冻结状态。这种方法在很多情况下可以显著减少计算资源和时间消耗,且依旧可以保持较好的模型性能。 训练模型 选择
新建工单 获取购买权限后,根据需要选择计费模式,基模型需选择“N2 - 基础模型功能 & 应用增强功能”。用户可根据需求自行选择功能模型,输入资源名称,类型选择“边缘部署”,输入需要订购的推理算力,单击“确认订单”。 订购完成后,进入“平台管理 > 资产管理 > 模型推理资产”,可查看订购的边缘部署资产。
选择需要进行压缩的模型执行模型压缩,压缩策略为“INT8”。当压缩模型为N2基础功能模型,或是经有监督微调训练和RLHF训练后的N2模型,支持选择“低消耗模式”,减少推理资源的消耗。 图2 创建压缩任务 输入任务名称和描述,单击“立即创建”,即可下发压缩模型任务。模型压缩任务完成后,可以使用压缩后的模型进行部署操作。
通过上述指令,将一个推理任务拆解分步骤进行,可以降低推理任务的难度并可以增强答案可解释性。另外,相比直接输出答案,分步解决也容许大模型有更多的“思考时间”,用更多的计算资源解决该问题。 自洽性 同一问题使用大模型回答多次,生成多个推理路径及答案,选择一致性最高的结果作为最终答案。 父主题: 进阶技巧
生成目标结果的方法。 为什么需要提示工程 模型生成结果优劣取决与模型能力及提示词质量。其中模型能力的更新需要准备大量的数据及消耗大量的计算资源,而通过提示工程,可以在不对模型能力进行更新的前提下,有效激发模型能力。 “提示词撰写” 和“提示工程”有什么区别 提示词撰写实际上是构建
实际需求。这种智能化、个性化的服务体验不仅减少了转人工的频率,还提升了用户满意度。 创意营销 在创意营销领域,企业常常需要投入大量的时间和资源来撰写吸引人的营销文案。然而,传统的人工撰写方式不仅效率低下,还受到写手个人素质的影响。盘古大模型的应用为这一问题提供了创新的解决方案。
为什么微调后的模型,回答总是在重复某一句或某几句话 当您将微调的模型部署以后,输入一个与目标任务同属的问题,模型生成了复读机式的结果,即回答中反复出现某一句话或某几句话。这种情况可能是由于以下几个原因导致的,建议您依次排查: 推理参数设置:请检查推理参数中的“话题重复度控制”或“
数据批量大小(batch_size) >=1 4/8 数据批量大小是指对数据集进行分批读取训练时,所设定的每个批次数据大小。批量大小越大,训练速度越快,但是也会占用更多的内存资源,并且可能导致收敛困难或者过拟合;批量大小越小,内存消耗越小,但是收敛速度会变慢,同时模型更容易受到数据噪声的影响,从而导致模型收敛困难。
局部微调(LoRA)是一种优化技术,用于在深度学习模型的微调过程中,只对模型的一部分参数进行更新,而不是对所有参数进行更新。这种方法可以显著减少微调所需的计算资源和时间,同时保持或接近模型的最佳性能。 过拟合 过拟合是指为了得到一致假设而使假设变得过度严格,会导致模型产生“以偏概全”的现象,导致模型泛化效果变差。
范围 说明 数据批量大小 8 >=1 数据集进行分批读取训练,设定每个批次数据的大小。 一般来说,批大小越大,训练速度越快,但会占用更多的内存资源,且可能导致收敛困难或过拟合。批大小越小,训练速度越慢,但会减少内存消耗,且可能提高泛化能力。因此,批大小需要根据数据集的规模和特点,以及
请检查调用API时使用的token是否完整,是否存在错误。 PANGU.3254 The requested resource does not exist. 资源不存在。 请检查调用API时projectId和deploymentId是否填写正确。 PANGU.3259 NLP service status
"target": "您好,福田英才荟卫生系统人才奖励管理办法只针对福田区属医疗卫生事业单位人员,其他高层次人才申领奖励建议咨询区人力资源局。"} {"context": ["请阅读以下文章回答问题,如果问题与文章不相关,则无需参考文章内容,直接回答问题即可。文章:“在福
责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。
如何调整推理参数,使模型效果最优 推理参数(解码参数)是一组用于控制模型生成预测结果的参数,其可以用于控制模型生成结果的样式,如长度、随机性、创造性、多样性、准确性和丰富度等等。 当前,平台支持的推理参数包括:温度、核采样以及话题重复度控制,如下提供了这些推理参数的建议值和说明,供您参考:
域面积超过180万平方公里,流域内人口众多,经济活动频繁。长江是中国的母亲河,对中国的农业、交通、历史和文化都有着深远的影响。它是重要的水资源,提供了大量的饮用水和灌溉水。同时,长江也是中国重要的内河航道,对于货物运输和经济发展具有重要作用。长江中的鱼类种类繁多,是中国淡水渔业的重要基地之一。长江中的典型鱼类包括:1