检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DevServer上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件,为用户提供推理部署方案,帮助用户使能大模型业务。 约束限制 本方案目前仅适用于部分企业客户。 本文档适配昇腾云ModelArts
VS Code连接开发环境失败时的排查方法 VS Code连接开发环境失败时,请参考以下步骤进行基础排查。 网络链路检查 在ModelArts控制台查看Notebook实例状态是否正常,确保实例无问题。 在VS Code Terminal里执行如下命令检测SSH命令是否可用; ssh
训练作业的自定义镜像如何安装Moxing? 为避免自动安装Moxing会影响用户自定义镜像中的包环境,所以自定义镜像需要用户手动安装Moxing。Moxing安装包会在作业启动后放在“/home/ma-user/modelarts/package/”目录下。可在使用Moxing功
基于MindSpore Lite的模型转换 迁移推理业务的整体流程如下: 模型准备 转换关键参数准备 模型转换 推理应用适配 主要通过MindSpore Lite(简称MSLite)进行模型的转换,进一步通过MindSpore Runtime支持昇腾后端的能力来将推理业务运行到昇腾设备上。
显存溢出错误 在训练过程中,常见显存溢出报错,示例如下: RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already
模型适配 MindSpore Lite是华为自研的推理引擎,能够最大化地利用昇腾芯片的性能。在使用MindSpore Lite进行离线推理时,需要先将模型转换为mindir模型,再利用MindSpore Lite作为推理引擎,将转换后的模型直接运行在昇腾设备上。模型转换需要使用converter_lite工具。
显存溢出错误 在训练过程中,常见显存溢出报错,示例如下: RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already
true, "comment" : "", "score" : "A" } ] } 响应示例 状态码: 200 OK { } 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。
如果指定则为per-channel粒度量化,否则为per-tensor粒度量化。 启动smoothQuant量化服务。 参考Step6 启动推理服务,启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant --dtype=float16
如果指定则为per-channel粒度量化,否则为per-tensor粒度量化。 启动smoothQuant量化服务。 参考Step3 启动推理服务,启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant --dtype=float16
如果指定则为per-channel粒度量化,否则为per-tensor粒度量化。 启动smoothQuant量化服务。 参考Step3 启动推理服务,启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant --dtype=float16
DevServer上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件,为用户提供推理部署方案,帮助用户使能大模型业务。 约束限制 本方案目前仅适用于部分企业客户。 本文档适配昇腾云ModelArts
"accepted_sample_count" : 0, "rejected_sample_count" : 0 } } 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题:
训练作业性能降低 问题现象 使用ModelArts平台训练算法训练耗时增加。 原因分析 可能存在如下原因: 平台上的代码经过修改优化、训练参数有过变更。 训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。 检查资源分配情况(
显存溢出错误 在训练过程中,常见显存溢出报错,示例如下: RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already
显存溢出错误 在训练过程中,常见显存溢出报错,示例如下: RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already
显存溢出错误 在训练过程中,常见显存溢出报错,示例如下: RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already
显存溢出错误 在训练过程中,常见显存溢出报错,示例如下: RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already
显存溢出错误 在训练过程中,常见显存溢出报错,示例如下: RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already
"J4Eh2FDEWH1qnDlD3hQ", "version_name" : "V001", "is_current" : true } ] } 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: