检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.907) 场景介绍 准备工作 在Notebook调试环境中部署推理服务 在推理生产环境中部署推理服务 推理精度测试 推理性能测试 推理模型量化 附录:基于vLLM不同模型推理支持最小卡数和最大序列说明
准备工作 准备环境 准备代码 准备镜像 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.909)
部署推理服务 非分离部署推理服务 分离部署推理服务 父主题: 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.908)
主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.908) 场景介绍 准备工作 在Notebook调试环境中部署推理服务 在推理生产环境中部署推理服务 推理精度测试 推理性能测试 推理模型量化 附录:基于vLLM不同模型推理支持最小卡数和最大序列说明
推理模型量化 使用AWQ量化 使用SmoothQuant量化 使用kv-cache-int8量化 使用GPTQ量化 使用llm-compressor工具量化 父主题: 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.909)
主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.909) 场景介绍 准备工作 在Notebook调试环境中部署推理服务 在推理生产环境中部署推理服务 推理精度测试 推理性能测试 推理模型量化 附录:基于vLLM不同模型推理支持最小卡数和最大序列说明
主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.908) 场景介绍 准备工作 执行预训练任务 执行SFT全参微调训练任务 执行LoRA微调训练任务 查看日志和性能 训练脚本说明参考 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.908)
训练脚本说明参考 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.908)
准备工作 准备环境 准备代码 准备镜像环境 准备数据(可选) 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.908)
训练脚本说明 Yaml配置文件参数配置说明 模型NPU卡数、梯度累积值取值表 各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 录制Profiling 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3
一般性问题 什么是ModelArts ModelArts与其他服务的关系 ModelArts与DLS服务的区别? 如何购买或开通ModelArts? 支持哪些型号的Ascend芯片? 如何获取访问密钥? 如何上传数据至OBS? 提示“上传的AK/SK不可用”,如何解决? 使用Mo
代码运行常见错误 Notebook无法执行代码,如何处理? 运行训练代码,出现dead kernel,并导致实例崩溃 如何解决训练过程中出现的cudaCheckError错误? 开发环境提示空间不足,如何解决? 如何处理使用opencv.imshow造成的内核崩溃? 使用Wind
计费相关 如何查看ModelArts中正在收费的作业? 如何查看ModelArts消费详情? ModelArts上传数据集收费吗? ModelArts标注完样本集后,如何保证退出后不再产生计费? ModelArts自动学习所创建项目一直在扣费,如何停止计费? 如果不再使用ModelArts,如何停止收费?
准备数据 自动学习的每个项目对数据有哪些要求? 创建预测分析自动学习项目时,对训练数据有什么要求? 使用从OBS选择的数据创建表格数据集如何处理Schema信息? 物体检测或图像分类项目支持对哪些格式的图片进行标注和训练? 父主题: Standard自动学习
创建项目 创建自动学习项目有个数限制吗? 创建项目的时候,数据集输入位置没有可选数据 父主题: Standard自动学习
模型训练 创建图像分类自动学习项目并完成图片标注,训练按钮显示灰色,无法开始训练? 自动学习项目中,如何进行增量训练? 自动学习训练后的模型是否可以下载? 自动学习为什么训练失败? 自动学习模型训练图片异常? 自动学习使用子账号单击开始训练出现错误Modelarts.0010 自
在线服务 部署在线服务时,自定义预测脚本python依赖包出现冲突,导致运行出错 在线服务预测时,如何提高预测速度? 调整模型后,部署新版本AI应用能否保持原API接口不变? 在线服务的API接口组成规则是什么? 在线服务运行中但是预测失败时,如何排查报错是不是模型原因导致的 在
VS Code使用技巧 安装远端插件时不稳定,需尝试多次 Notebook实例重新启动后,需要删除本地known_hosts才能连接 使用VS Code调试代码时不能进入源码 使用VS Code提交代码时弹出对话框提示用户名和用户邮箱配置错误 实例重新启动后,Notebook内安装的插件丢失
报错“The VS Code Server failed to start”如何解决? 问题现象 解决方法 检查VS Code版本是否为1.78.2或更高版本,如果是,请查看Remote-SSH版本,如果Remote-SSH版本低于v0.76.1,请升级Remote-SSH。 打开命令面板(Windows: