检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在本地环境进行离线部署。 具体请参见模型调试章节在本地导入模型,参见服务调试章节,将模型离线部署在本地并使用。 父主题: Standard推理部署
离线训练安装包准备说明 申请的模型软件包一般依赖连通网络的环境。若用户的机器或资源池无法连通网络,并无法git clone下载代码、安装python依赖包的情况下,用户则需要找到已联网的机器(本章节以Linux系统机器为例)提前下载资源,以实现离线安装。用户可遵循以下步骤操作。
注意:针对Megatron-LM下载完成后,需要将megatron文件夹复制至ModelLink中。
启动推理服务 本章节主要介绍大语言模型的推理服务启动方式,包括离线推理和在线推理2种方式。 离线推理 编辑一个python脚本,脚本内容如下,运行该脚本使用ascend-vllm进行模型离线推理。
Step2 权重格式离线转换(可选) 在GPU上AutoAWQ量化完成后,使用int32对int4的权重进行打包。
步骤二 权重格式离线转换(可选) 在GPU上AutoAWQ量化完成后,使用int32对int4的权重进行打包。
步骤二 权重格式离线转换(可选) 在GPU上AutoAWQ量化完成后,使用int32对int4的权重进行打包。
步骤二 权重格式离线转换(可选) 在GPU上AutoAWQ量化完成后,使用int32对int4的权重进行打包。
步骤二:权重格式离线转换(可选) 在GPU上AutoAWQ量化完成后,使用int32对int4的权重进行打包。
方法一:离线包安装方式(推荐) 到VS Code插件官网vscode_marketplace搜索待安装的Python插件,Python插件路径。 单击进入Python插件的Version History页签后,下载该插件的离线安装包,如图所示。
Step2 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。
Step2 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。
为了避免影响您的业务,建议您在2024/10/30 23:59:59(北京时间)前备份数据或切换至新版数据集。 如您有任何问题,可随时通过工单或者服务热线(+86-4000-955-988或+86-950808)与我们联系。 父主题: 下线公告
Step2 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。
Step2 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。
方式2:通过模型静态转换后,执行推理,又称离线推理。 通常为了获取更好的推理性能,推荐使用方式2的离线推理。下文将以Diffusers img2img onnx pipeline为示例来讲解如何进行离线推理模式下的昇腾迁移。
创建OBS桶用于ModelArts存储数据 由于ModelArts本身没有数据存储的功能,ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。
在使用MindSpore Lite进行离线推理时,需要先将模型转换为mindir模型,再利用MindSpore Lite作为推理引擎,将转换后的模型直接运行在昇腾设备上。模型转换需要使用converter_lite工具。
lm-eval工具适用于语言模型的推理精度测试,数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等,该工具为离线测评,不需要启动推理服务。 MME工具适用于多模态模型的精度测试。
更多介绍请参考Msprobe工具离线预检和在线预检介绍。 父主题: PyTorch迁移精度调优