检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
moondream2基于DevServer适配PyTorch NPU推理指导 方案概览 本文档从模型部署的环境配置、模型转换、模型推理等方面进行介绍moondream2模型在ModelArts DevServer上部署,支持NPU推理场景。 本方案目前仅适用于部分企业客户,完成本
参考,实际计算请以ModelArts价格详情中的价格为准。 变更配置后对计费的影响 当前包年/包月计算资源的规格不满足您的业务需要时,您可以在ModelArts控制台发起变更规格操作,变更时系统将按照如下规则为您计算变更费用: 资源升配:新配置价格高于老配置价格,此时您需要支付新老配置的差价。
到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格。 适配的CANN版本是cann_8.0.rc3,驱动版本是23.0.6。 本案例仅支持在专属资源池上运行。
方法1(推荐),建议将此数据集重新发布版本,然后再使用新版本的Manifest文件导入。 方法2,修改您本地的Manifest文件,查找OBS目录下的数据变更,根据变更同步修改Manifest。确保Manifest文件与OBS目录下的数据现状相同,然后使用修改后的Manifest文件导入。 父主题: Standard数据管理
Diffusion(简称SD)是一种基于Latent Diffusion(潜在扩散)模型,应用于文生图场景。对于输入的文字,它将会通过一个文本编码器将其转换为文本嵌入,然后和一个随机高斯噪声,一起输入到U-Net网络中进行不断去噪。在经过多次迭代后,最终模型将输出和文字相关的图像。 SD1.5
动态shape,并能够在推理中接收多种shape的输入。在CPU上进行模型转换时无需考虑动态shape问题,因为CPU算子支持动态shape;而在昇腾场景上,算子需要指定具体的shape信息,并且在模型转换的编译阶段完成对应shape的编译任务,从而能够在推理时支持多种shape的输入。
Step2 权重格式转换 AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,需要进行权重转换。 进入llm_tools代码目录下执行以下脚本: 执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式,请在转换前备份。
to_awq.html。 Step3 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本:
口不变? ModelArts提供多版本支持和灵活的流量策略,您可以通过使用灰度发布,实现模型版本的平滑过渡升级。修改服务部署新版本模型或者切换模型版本时,原服务预测API不会变化。 调整模型版本的操作可以参考如下的步骤。 前提条件 已存在部署完成的服务。 已完成模型调整,创建AI应用新版本。
如需使用大文件上传和下载的功能,建议您前往Notebook,创建一个收费的实例进行使用。 切换规格。 CodeLab支持CPU和GPU两种规格,在右侧区域,单击切换规格,修改规格类型。 图3 切换规格 资源监控。 在使用过程中,如果想了解资源使用情况,可在右侧区域选择“Resource
查看资源池中的作业 在资源池详情页,切换到“作业”页签。您可以查看该资源池中运行的所有作业,如果当前有作业正在排队,可以查看作业在资源池排队的位置。 当前仅支持查看训练作业。 图1 查看资源池作业 查看资源池事件 在资源池详情页,切换到“事件”页签。您可以查看资源从创建到添加
查询方法: 单击右上方的“费用中心 > 费用账单”进入费用中心详情页面,在左侧导航栏选择“账单管理 > 流水和明细账单”,在流水和明细账单页面,可切换“账单详情”和“明细账单”页签查看账单信息。 在“流水账单”列表页,罗列该账号下各种产品类型,每个任务产生的费用详细。您可以单击“操作 >
更新管理 ModelArts在线服务更新 对于已部署的推理服务,ModelArts支持通过更换AI应用的版本号,实现服务升级。 推理服务有三种升级模式:全量升级、滚动升级(扩实例)和滚动升级(缩实例)。了解三种升级模式的流程,请参见图1。 全量升级 需要额外的双倍的资源,先全量创建新版本实例,然后再下线旧版本实例。
"job_template": "Template RL"(异构作业)。 "fault-tolerance/job-retry-num": "3"(故障自动重启次数)。 "jupyter-lab/enable": "true"(JupyterLab训练应用程序) 表5 Status 参数 参数类型
"job_template": "Template RL"(异构作业)。 "fault-tolerance/job-retry-num": "3"(故障自动重启次数)。 "jupyter-lab/enable": "true"(JupyterLab训练应用程序) 表4 Status 参数 参数类型
查询方法: 单击右上方的“费用中心 > 费用账单”进入费用中心详情页面,在左侧导航栏选择“账单管理 > 流水和明细账单”,在流水和明细账单页面,可切换“账单详情”和“明细账单”页签查看账单信息。 在“流水账单”列表页,罗列该账号下各种产品类型,每个任务产生的费用详细。您可以单击“操作 >
环境中调试。 实验阶段:调整数据集、调整超参等,通过多轮实验,训练出理想的模型,推荐在ModelArts训练中进行实验。 两个过程可以相互转换。如开发阶段代码稳定后,则会进入实验阶段,通过不断尝试调整超参来迭代模型;或在实验阶段,有一个可以优化训练的性能的想法,则会回到开发阶段,重新优化代码。
设置待部署模型的流量限制QPS。 单位:次/秒 说明: 在部署过程中出现错误码“ModelArts.4206”时,表示QPS请求数量达到限制,建议等待限流结束后再重启服务。 实例数 设置服务器个数。 推荐实例数 = 流量限制 ÷ 推荐的单实例流量限制 推荐的单实例流量限制请参见单实例QPS的推荐值说明。
to rgb 系统已将图片转成RGB格式处理,不需要用户处理。 5 type illegal 非图片文件,但可以转换成JPG convert to jpg 系统已将图片转换成JPG格式处理,不需要用户处理。 父主题: 模型训练
模型适配 基于MindSpore Lite的模型转换 动态shape 父主题: GPU推理业务迁移至昇腾的通用指导