正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ (huggingface
性能可视化工具Ascend-Insight使用指导 对于高阶的调优用户,可以使用可视化profiling数据查看数据详情并分析可优化点,昇腾提供了Ascend-Insight可视化工具,相比于chrometrace等工具提供了更优的功能和性能。详见昇腾《Ascend-Insight用户指南》。
可以使用OBS存储数据、创建Notebook等操作。 与云硬盘的关系 ModelArts使用云硬盘服务(Elastic Volume Service,简称EVS)存储创建的Notebook实例。EVS的更多信息请参见《云硬盘用户指南》。 与云容器引擎的关系 ModelArts使用云容器引擎(Cloud
使用kv-cache-int8量化 kv-cache-int8是实验特性,在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化,支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见表3。
Qwen系列模型基于DevServer适配PyTorch NPU训练指导(6.3.904) 场景介绍 准备工作 预训练 SFT微调训练 LoRA微调训练 推理前的权重合并转换 常见问题 父主题: LLM大语言模型训练推理
单模型性能测试工具Mindspore lite benchmark 在模型精度对齐后,针对Stable Diffusion模型性能调优,可以通过AOE工具进行自助性能调优,进一步可以通过profiling工具对于性能瓶颈进行分析,并针对性的做一些调优操作。 可以直接使用bench
常见问题 报错提示RuntimeError: Default process group has not been initialized, please make sure to call init_process_group 训练运行报错AttributeError: 'torch_npu
SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导(6.3.908) 训练场景和方案介绍 准备镜像环境 Finetune训练 LoRA训练 父主题: AIGC模型训练推理
准备工作 准备环境 准备代码 准备数据 准备镜像 父主题: Qwen系列模型基于DevServer适配PyTorch NPU训练指导(6.3.904)
metrics *****”关键字打印 训练完成后,请参考查看日志和性能章节查看指令微调的日志和性能。 1、如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考 附录:指令微调训练常见问题解决 2、训练中遇到"ImportError: This
业务代码问题 日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 日志提示“max_pool2d_with_indices_out_cuda_frame failed
Ascend相关问题 Cann软件与Ascend驱动版本不匹配 训练作业的日志出现detect failed(昇腾预检失败) 父主题: 训练作业
部署推理服务 本章节介绍如何启动推理服务。 前提条件 已准备好DevServer环境。推荐使用“西南-贵阳一”Region上的DevServer和昇腾Snt9b资源。 确保容器可以访问公网。 Step1 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。
精度问题诊断 逐个替换模型,检测有问题的模型 该方式主要是通过模型替换,先定位出具体哪个模型引入的误差,进一步诊断具体的模型中哪个算子或者操作导致效果问题,模型替换原理如下图所示。通过设置开关选项(是否使用onnx模型),控制模型推理时,模型使用的是onnx模型或是mindir的模型。
常见问题 MindSpore Lite问题定位指南 模型转换报错如何查看日志和定位? 日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题: GPU推理业务迁移至昇腾的通用指导
GPU相关问题 日志提示"No CUDA-capable device is detected" 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10) : invalid device ordinal
准备工作 准备环境 准备代码 准备数据 准备镜像 父主题: 主流开源大模型基于DevServer适配PyTorch NPU训练指导(6.3.906)
训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于DevServer适配PyTorch NPU训练指导(6.3.906)
包。 pip install -r requirements.txt 安装成功后的示意图如图1所示。 图1 依赖包安装成功 父主题: 常见问题
SFT微调训练 SFT微调数据处理 SFT微调权重转换 SFT微调训练任务 父主题: Qwen系列模型基于DevServer适配PyTorch NPU训练指导(6.3.904)