正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
moondream2基于DevServer适配PyTorch NPU推理指导 方案概览 本文档从模型部署的环境配置、模型转换、模型推理等方面进行介绍moondream2模型在ModelArts DevServer上部署,支持NPU推理场景。 本方案目前仅适用于部分企业客户,完成本
tailor支持动态分档转换功能,需要指定配置文件路径,需要注意即便有配置文件,只要是动态模型就需要指定--input_shape参数。 --input_shape 指定模型转换的shape。 string 否 - 固定shape模型转换可以不填,动态模型转换必填。 --output_path
模型转换工具 离线转换模型功能的工具MSLite Convertor,支持onnx、pth、tensorflowLite多种类型的模型转换,转换后的模型可直接运行在MindSpore运行时后端,用于昇腾推理。 精度性能检查工具 Benchmark精度检查工具,可以转换模型后执行推理前,使用其对MindSpore
sh及SSL证书。此处以chatglm3-6b为例。 模型权重文件获取地址请参见表1。 若需要部署量化模型,请参考推理模型量化在Notebook中进行权重转换,并将转换后的权重上传至OBS中。 权重文件夹不要以"model"命名,若以"model"命名会导致后续创建AI应用报错。 推理启动脚本run_vllm
小技巧(按需调整远端连接的相关参数): "remote.SSH.connectTimeout": 10, "remote.SSH.maxReconnectionAttempts": null, "remote.downloadExtensionsLocally": true, "remote.SSH
Diffusion(简称SD)是一种基于Latent Diffusion(潜在扩散)模型,应用于文生图场景。对于输入的文字,它将会通过一个文本编码器将其转换为文本嵌入,然后和一个随机高斯噪声,一起输入到U-Net网络中进行不断去噪。在经过多次迭代后,最终模型将输出和文字相关的图像。 SD1.5
CPU算子,从而提升训练性能。 当前对 AICPU 算子识别到的调优方式主要包含两种: PyTorch数据类型转换,将执行在AICPU上的类型算子转换为执行在AICORE单元的算子。 等价的算子替换。 类型转换方式 当前PyTorch支持的dtype类型如下,详见Link。 图1 PyTorch支持的dtype
变更计费模式概述 在购买专属资源池后,如果发现当前计费模式无法满足业务需求,您可以变更计费模式。支持变更计费模式的计费项如表1所示。 公共资源池不能单独购买,不支持变更计费模式。 表1 支持变更计费模式的计费项 计费项 变更说明 相关文档 计算资源 变更专属资源池的计费模式会同时变更计算资源的计费模式。
环境中调试。 实验阶段:调整数据集、调整超参等,通过多轮实验,训练出理想的模型,推荐在ModelArts训练中进行实验。 两个过程可以相互转换。如开发阶段代码稳定后,则会进入实验阶段,通过不断尝试调整超参来迭代模型;或在实验阶段,有一个可以优化训练的性能的想法,则会回到开发阶段,重新优化代码。
LoRA微调权重转换 LoRA微调训练前,需要先把训练权重文件转换为Megatron格式。 LoRA微调训练和SFT全参微调使用的是同一个HuggingFace权重文件转换为Megatron格式后的结果也是通用的。 如果在SFT微调任务中已经完成了HuggingFace权重转换操作,此处
Queuing:排队中 Running:运行中 Failed:运行失败 Completed:已完成 Terminating:停止中 Terminated:已停止 CreateFailed:创建失败 TerminatedFailed:停止失败 Unknown:未知状态 Lost:异常 duration Long
作业状态。可选值如下: Queue:排队中 Pending:等待中 Abnormal:异常 Terminating:中止中 Creating:创建中 Running:运行中 Completed:已完成 Terminated:已终止 Failed:运行失败 sort 否 String 排序依据字段。可选值:
对text_encoder等模型提升效果不大,性能主要瓶颈点在unet模型中,主要对unet模型做调优,整体的操作步骤如下: 转换前先清理缓存,避免转换时的影响。 #shell # 删除已有的aoe知识库,或者备份一份 rm -rf /root/Ascend/latest/data/aoe
音驱动的人脸说话视频生成模型。主要应用于数字人场景。不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频,还可以直接将动态的视频进行唇形转换,输出与输入语音匹配的视频,俗称“对口型”。该技术的主要作用就是在将音频与图片、音频与视频进行合成时,口型能够自然。 方案概览 本方案介绍
音驱动的人脸说话视频生成模型。主要应用于数字人场景。不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频,还可以直接将动态的视频进行唇形转换,输出与输入语音匹配的视频,俗称“对口型”。该技术的主要作用就是在将音频与图片、音频与视频进行合成时,口型能够自然。 方案概览 本方案介绍
“Queuing”、“Running”、“Failed”、“Completed”、“Terminating”、“Terminated”、“CreateFailed”、“TerminatedFailed”、“Unknown”、“Lost”。 duration Long 训练作业运行时长,单位为毫秒。
变更计费模式 变更计费模式概述 按需转包年/包月 包年/包月转按需
“Creating”、“Queuing”、“Running”、“Failed”、“Completed”、“Terminating”、“Terminated”、“CreateFailed”、“TerminatedFailed”、“Unknown”、“Lost”。 duration Long 训练作业运行时长,单位为毫秒。
awq.html。 Step2 权重格式离线转换(可选) 在GPU上AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本:
推理模型量化 使用AWQ量化工具转换权重 使用SmoothQuant量化工具转换权重 使用kv-cache-int8量化 使用GPTQ量化 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.908)