AI开发平台MODELARTS-华为云

AI开发平台MODELARTS-使用CES监控Lite Server资源:安装CES Agent监控插件

安装 CES Agent监控插件当前账户需要给CES授权委托，请参考创建用户并授权使用云监控服务。当前还不支持在CES界面直接一键安装监控，需要登录到服务器上执行以下命令安装配置Agent。其它region的安装请参考单台主机下安装Agent。 cd /usr/local && curl -k -O https://obs.cn-north-4.myhuaweicloud.com/uniagent-cn-north-4/script/agent_install.sh && bash agent_install.sh 安装成功的标志如下：图1 安装成功提示在CES界面查看具体的监控项，加速卡类的监控项必须在主机安装加速卡驱动后才会有相关指标。图2 监控界面至此，监控插件已经安装完成，相关指标的采集可以在UI界面直接查看或者根据指标值配置相关告警。

AI开发平台MODELARTS 监控Lite Server资源

AI开发平台MODELARTS-使用CES监控Lite Server资源:Lite Server支持的事件列表

Lite Server支持的事件列表通过对接CES，可以将业务中的重要事件或对云资源的操作事件收集到CES 云监控服务，并在事件发生时进行告警。Lite Server支持的事件来源主要是BMS，具体事件列表如下。表2 Lite Server支持的事件列表事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 BMS SYS.BMS NPU: npu-smi info查询缺少设备 NPUSMICardNotFound 重要可能是由于昇腾驱动问题或NPU掉卡转昇腾和硬件处理 NPU卡无法正常使用 NPU: PCIe链路异常 PCIeErrorFound 重要 lspci显示npu卡处于rev ff状态转硬件处理 NPU卡无法正常使用 NPU: lspci查询缺少设备 LspciCardNotFound 重要一般是由于NPU掉卡转硬件处理 NPU卡无法正常使用 NPU: 温度超过阈值 TemperatureOverUpperLimit 重要可能是由于DDR颗粒温度过高或过温软件预警暂停业务，重启系统，查看散热系统，device复位可能造成过温下电及device丢失 NPU: 存在不可纠正ECC错误 UncorrectableEccErrorWarning 重要 NPU卡出现Uncorrectable ECC Error硬件故障如果业务受到影响，转硬件换卡业务可能受到影响终止 NPU: 需要重启实例 RebootVirtualMachine 提示当前故障很可能需要重启进行恢复在收集必要信息后，重启以尝试恢复重启可能中断客户业务 NPU: 需要复位SOC ResetSOC 提示当前故障很可能需要复位SOC进行恢复在收集必要信息后，复位SOC以尝试恢复复位SOC可能中断客户业务 NPU: 需要退出AI任务重新执行 RestartAIProcess 提示当前故障很可能需要客户退出当前的AI任务并尝试重新执行在收集必要信息后，尝试退出当前AI任务并尝试重新执行退出当前AI任务以便重新执行 NPU: errorcode告警 NPUErrorCodeWarning 重要这里涵盖了大量重要及以上的NPU错误码，您可以根据这些错误码进一步定位错误原因对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误 NPU当前存在故障，可能导致客户业务终止 NPU HBM多ECC错误信息 NpuHbmMultiEccInfo 提示 NPU卡存在HBM的ECC错误，此事件上报相应错误信息这是一个用于辅助其他事件进行判断的事件，无需单独定位处理这是一个用于辅助其他事件进行判断的事件，无需单独定位处理 NPU: HC CS 交换机端口故障 NpuHccsPortFault 重要 NPU的L1 1520交换机端口发生故障这是一个用于辅助其他事件进行判断的事件，无需单独定位处理这是一个用于辅助其他事件进行判断的事件，无需单独定位处理 GPU: RoCE网卡配置错误 GpuRoceNicConfigIncorrect 重要 GPU: RoCE网卡配置错误联系运维人员协助处理机器参数面网络异常，多机任务无法执行 OS出现ReadOnly问题 ReadOnlyFileSystem 严重文件系统%s只读请检查磁盘健康状态无法对文件进行写和操作 NPU：驱动固件不匹配 NpuDriverFirmwareMismatch 重要 NPU驱动固件版本不匹配请从昇腾官网获取匹配版本重新安装无法正常使用NPU卡 NPU：Docker容器环境检测 NpuContainerEnvSystem 重要 Docker不可用确认docker软件是否正常无法使用docker软件重要容器插件Ascend-Docker-Runtime未安装安装容器插件Ascend-Docker-Runtime，否则影响容器使用昇腾卡 docker容器无法挂载NPU卡重要操作系统没有开启IP转发功能请检查/etc/sysctl.conf文件中net.ipv4.ip_forward配置 docker容器无法正常网络通信重要容器共享内存过小共享内存默认为64M，可按需修改分布式训练时共享内存不足导致训练失败方式一：修改/etc/docker/daemon.json配置文件default-shm-size字段方式二： docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小 NPU：RoCE网卡down RoCELinkStatusDown 重要 NPU 卡 %d RoCE Link 状态Down 请检查NPU Roce网口状态 NPU网卡不可用 NPU：RoCE网卡健康状态异常 RoCEHealthStatusError 重要 NPU 卡 %d RoCE 网络健康状态异常请检查NPU Roce网卡健康状态 NPU网卡不可用 NPU：Roce网卡配置文件/etc/hccn.conf不存在 HccnConfNotExisted 重要 Roce网卡配置文件"/etc/hccn.conf"不存在请检查/etc/hccn.conf网卡配置文件 Roce网卡不可用 GPU：GPU基本组件异常 GpuEnvironmentSystem 重要 nvidia-smi命令异常请检查GPU驱动是否正常 GPU卡驱动不可用重要 nvidia-fabricmanager版本和GPU驱动版本不一致请检查GPU驱动版本和nvidia-fabricmanager版本 nvidia-fabricmanager 无法正常工作，影响 GPU 的使用重要容器插件nvidia-container-toolkit未安装安装容器插件nvidia-container-toolkit docker无法挂载GPU卡本地磁盘挂载巡检 MountDiskSystem 重要 /etc/fstab中有无效的UUID 请检查/etc/fstab配置文件中UUID的正确性，否则可能会导致机器重启失败挂载磁盘错误，导致机器重启异常 GPU：Ant系列机器动态路由配置错误 GpuRouteConfigError 重要 Ant系列机器网卡%s动态路由未配置或配置错误，CMD [ip route]: %s | CMD [ip route show table all]: %s。请正确配置RoCE网卡路由 NPU网络通信异常 NPU：Roce 端口未散列配置 RoCEUdpConfigError 重要 RoCE UDP端口未散列配置请检查NPU RoCE UDP端口配置情况影响NPU卡通信性能系统内核自动升级预警 KernelUpgradeWarning 重要系统内核自动升级预警，旧版本：%s，新版本：%s 系统内核升级可能导致配套AI软件异常，请检查系统更新日志，避免机器重启可能导致配套AI配套软件不可用 NPU环境相关命令检测 NpuToolsWarning 重要 hccn_tool不可用请检查NPU驱动是否正常无法配置RoCE网卡的IP、网关重要 npu-smi不可用请检查NPU驱动是否正常无法正常使用NPU卡重要 ascend-dmi不可用请检查工具包ToolBox是否正常安装无法使用ascend-dmi进行性能分析

AI开发平台MODELARTS 监控Lite Server资源

AI开发平台MODELARTS-使用CES监控Lite Server资源:监控方案介绍

监控方案介绍监控概述请参考BMS官方文档。除文档所列支持的镜像之外，目前还支持Ubuntu20.04。监控指标采样周期1分钟。当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装加速卡驱动后，可以自动采集的相关指标。此处仅展示NPU相关指标，其他指标项请参考CES Agent支持的指标列表。表1 NPU指标列表英文名称中文名称说明单位维度 npu_device_health NPU健康状况 NPU卡的健康状况 - instance_id，npu npu_util_rate_mem NPU显存使用率 NPU卡的显存使用率 % instance_id，npu npu_util_rate_ai_core NPU卡AI核心使用率 NPU卡的AI核心使用率 % instance_id，npu npu_util_rate_ai_cpu NPU卡AICPU使用率 NPU卡的AI-CPU使用率 % instance_id，npu npu_util_rate_ctrl_cpu NPU控制CPU使用率 NPU卡的控制CPU使用率 % instance_id，npu npu_util_rate_mem_bandwidth NPU显存带宽使用率 NPU卡的显存带宽使用率 % instance_id，npu npu_freq_mem NPU显存频率 NPU卡的显存频率 MHz instance_id，npu npu_freq_ai_core NPU卡AI核心频率 NPU卡的AI核心时钟频率 MHz instance_id，npu npu_usage_mem NPU显存使用量 NPU卡的显存使用量 MB instance_id，npu npu_sbe NPU单bit错误数量 NPU卡单比特错误数量 count instance_id，npu npu_dbe NPU双bit错误数量 NPU卡双比特错误数量 count instance_id，npu npu_power NPU功率 NPU卡功率 W instance_id，npu npu_temperature NPU温度 NPU卡温度 °C instance_id，npu npu_driver_health NPU驱动健康状况 NPU卡的驱动的健康状况 - instance_id，npu npu_device_network_health NPU网络健康情况 NPU卡的RoCE网卡的IP地址连通情况 - instance_id，npu npu_network_port_link_status NPU网口link状态 NPU卡的对应网口link状态 - instance_id，npu npu_roce_tx_rate NPU网卡上行速率 NPU卡内网卡的上行速率 MB/s instance_id，npu npu_roce_rx_rate NPU网卡下行速率 NPU卡内网卡的下行速率 MB/s instance_id，npu npu_mac_tx_mac_pause_num MAC发送pause帧总数 NPU卡对应MAC 地址发送的 pause帧总报文数 count instance_id，npu npu_mac_rx_mac_pause_num MAC接收pause帧总数 NPU卡对应MAC 地址接收的 pause帧总报文数 count instance_id，npu npu_mac_tx_pfc_pkt_num MAC发送pfc帧总数 NPU卡对应MAC 地址发送的 PFC帧总报文数 count instance_id，npu npu_mac_rx_pfc_pkt_num MAC接收pfc帧总数 NPU卡对应MAC 地址接收的 PFC帧总报文数 count instance_id，npu npu_mac_tx_bad_pkt_num MAC发送坏包总数 NPU卡对应MAC 地址发送的坏包总数 count instance_id，npu npu_mac_rx_bad_pkt_num MAC接收坏包总数 NPU卡对应MAC 地址接收的坏包总数 count instance_id，npu npu_roce_tx_err_pkt_num RoCE发送坏包总数 NPU卡内RoCE网卡发送的坏包总数 count instance_id，npu npu_roce_rx_err_pkt_num RoCE接收坏包总数 NPU卡内RoCE网卡接收的坏包总数 count instance_id，npu npu_hbm_freq HBM频率 NPU卡HBM频率 MHz instance_id，npu npu_hbm_usage HBM使用量 NPU卡HBM使用量 MB instance_id，npu npu_hbm_temperature HBM温度 NPU卡HBM温度 °C instance_id，npu npu_hbm_bandwidth_util HBM带宽利用率 NPU卡HBM带宽利用率 % instance_id，npu npu_hbm_ecc_enable HBM ECC开关状态 NPU卡HBM ECC开关状态 - instance_id，npu npu_hbm_single_bit_error_cnt HBM当前单bit错误数量 NPU卡HBM当前单bit错误数量 count instance_id，npu npu_hbm_double_bit_error_cnt HBM当前双bit错误数量 NPU卡HBM当前双bit错误数量 count instance_id，npu npu_hbm_total_single_bit_error_cnt HBM生命周期内单bit错误数量 NPU卡HBM生命周期内单bit错误数量 count instance_id，npu npu_hbm_total_double_bit_error_cnt HBM生命周期内双bit错误数量 NPU卡HBM生命周期内双bit错误数量 count instance_id，npu npu_hbm_single_bit_isolated_pages_cnt HBM单比特错误隔离内存页数量 NPU卡HBM单比特错误隔离内存页数量 count instance_id，npu npu_hbm_double_bit_isolated_pages_cnt HBM多比特错误隔离内存页数量 NPU卡HBM多比特错误隔离内存页数量 count instance_id，npu npu_hbm_mem_capacity NPU的HBM内存容量该指标描述NPU的HBM内存容量 MB instance_id，npu npu_voltage NPU电压该指标描述NPU的电压 V instance_id，npu npu_freq_ai_core_rated NPU的AI核心额定频率该指标描述NPU的AI核心额定频率 MHz instance_id，npu npu_freq_ctrl_cpu NPU的控制CPU频率该指标描述NPU的控制CPU频率 MHz instance_id，npu npu_aicpu_max_freq NPU的AICPU最大频率该指标描述NPU的AICPU最大频率 MHz instance_id，npu npu_aicpu_cur_freq NPU的AICPU频率该指标描述NPU的AICPU频率 MHz instance_id，npu npu_aicpu_avg_util_rate NPU的AICPU平均使用率该指标描述NPU的AICPU平均使用率 % instance_id，npu npu_aicpu_num NPU的AICPU数量该指标描述NPU的AICPU数量 count instance_id，npu npu_link_cap_speed NPU链路最大传输速度该指标描述NPU设备支持的最大传输速度 GT/s instance_id，npu npu_link_cap_width NPU链路最大传输宽度该指标描述NPU设备支持的最大传输宽度 count instance_id，npu npu_link_status_speed NPU链路当前传输速度该指标描述NPU设备链路的实际传输速度 GT/s instance_id，npu npu_link_status_width NPU链路当前传输宽度该指标描述NPU设备链路的实际传输宽度 count instance_id，npu npu_util_rate_hbm NPU的HBM占用率该指标描述NPU的HBM占用率 % instance_id，npu npu_opt_temperature NPU光模块壳温该指标描述NPU光模块壳温 °C instance_id，npu npu_opt_temperature_high_thres NPU光模块壳温上限该指标描述NPU光模块壳温上限 °C instance_id，npu npu_opt_temperature_low_thres NPU光模块壳温下限该指标描述NPU光模块壳温下限 °C instance_id，npu npu_opt_voltage NPU光模块供电电压该指标描述NPU光模块供电电压 mV instance_id，npu npu_opt_voltage_high_thres NPU光模块供电电压上限该指标描述NPU光模块供电电压上限 mV instance_id，npu npu_opt_voltage_low_thres NPU光模块供电电压下限该指标描述NPU光模块供电电压下限 mV instance_id，npu npu_opt_tx_power_lane0 NPU光模块通道0发送功率该指标描述NPU光模块通道0发送功率 mW instance_id，npu npu_opt_tx_power_lane1 NPU光模块通道1发送功率该指标描述NPU光模块通道1发送功率 mW instance_id，npu npu_opt_tx_power_lane2 NPU光模块通道2发送功率该指标描述NPU光模块通道2发送功率 mW instance_id，npu npu_opt_tx_power_lane3 NPU光模块通道3发送功率该指标描述NPU光模块通道3发送功率 mW instance_id，npu npu_opt_rx_power_lane0 NPU光模块通道0接收功率该指标描述NPU光模块通道0接收功率 mW instance_id，npu npu_opt_rx_power_lane1 NPU光模块通道1接收功率该指标描述NPU光模块通道1接收功率 mW instance_id，npu npu_opt_rx_power_lane2 NPU光模块通道2接收功率该指标描述NPU光模块通道2接收功率 mW instance_id，npu npu_opt_rx_power_lane3 NPU光模块通道3接收功率该指标描述NPU光模块通道3接收功率 mW instance_id，npu npu_opt_tx_bias_lane0 NPU光模块通道0发射偏置电流该指标描述NPU光模块通道0发射偏置电流 mA instance_id，npu npu_opt_tx_bias_lane1 NPU光模块通道1发射偏置电流该指标描述NPU光模块通道1发射偏置电流 mA instance_id，npu npu_opt_tx_bias_lane2 NPU光模块通道2发射偏置电流该指标描述NPU光模块通道2发射偏置电流 mA instance_id，npu npu_opt_tx_bias_lane3 NPU光模块通道3发射偏置电流该指标描述NPU光模块通道3发射偏置电流 mA instance_id，npu npu_opt_tx_los NPU光模块TX Los 该指标描述NPU光模块TX Los flag count instance_id，npu npu_opt_rx_los NPU光模块RX Los 该指标描述NPU光模块RX Los flag count instance_id，npu

AI开发平台MODELARTS 监控Lite Server资源

AI开发平台MODELARTS-NPU服务器上配置Lite Server资源软件环境:注意事项

注意事项本文旨在指导如何在Snt9b裸金属服务器上，进行磁盘合并挂载、安装docker等环境配置。在配置前请注意如下事项：首次装机时需要配置存储、固件、驱动、网络访问等基础内容，这部分配置尽量稳定减少变化。裸机上的开发形式建议开发者启动独立的Docker容器作为个人开发环境。Snt9b的裸机包含8卡算力资源，一般来说多人可以共用这个裸机完成开发与调测工作。多人使用为了避免冲突，建议各自在自己的docker容器中进行独立开发，并提前规划好每个人使用的具体卡号，避免相互影响。 ModelArts提供了标准化基础容器镜像，在容器镜像中已经预置了基础MindSpore或PyTorch框架和开发调测工具链，推荐用户直接使用该镜像，用户也可以使用自己的业务镜像或昇腾AscendHub提供的镜像。如果镜像中预置的软件版本不是您期望的版本，可以自行安装替换。开发形式推荐通过容器中暴露的SSH端口以远程开发的模式(VSCode SSH Remote、 Xshell)连接到容器中进行开发，可以在容器中挂载宿主机的个人存储目录，用于存放代码和数据。当前指导中很多操作步骤在最新发放的Snt9b裸机环境中已经预置，无需用户再手动配置，用户在操作中如发现某个步骤已有预置配置可直接跳过该步骤。

AI开发平台MODELARTS 配置Lite Server软件环境

AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明基于vLLM（v0.3.2）部署推理服务时，不同模型推理支持的max-model-len长度说明如下面的表格所示。如需达到以下值，需要将--gpu-memory-utilization设为0.9，qwen系列、qwen1.5系列、llama3系列模型还需打开词表切分配置export USE_VOCAB_PARALLEL=1。序号模型名称 4*64GB 8*32GB 1 qwen1.5-72b 24576 8192 2 qwen-72b 24576 8192 3 llama3-70b 32768 8192 4 llama2-70b 98304 32768 6 llama-65b 24576 8192 序号模型名称 2*64GB 4*32GB 1 qwen1.5-32b 65536 24576 序号模型名称 1*64GB 1*32GB 1 qwen1.5-7b 49152 16384 2 qwen-7b 49152 16384 3 llama3-8b 98304 32768 4 llama2-7b 126976 16384 5 chatglm3-6b 126976 65536 6 chatglm2-6b 126976 65536 序号模型名称 1*64GB 2*32GB 1 qwen1.5-14b 24576 24576 2 qwen-14b 24576 24576 3 llama2-13b 24576 24576 说明：机器型号规格以卡数*显存大小为单位，如4*64GB代表4张64GB显存的NPU卡。

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）

AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step2 准备模型代码包和权重文件

Step2 准备模型代码包和权重文件将OBS中的模型权重和表1获取的AscendCloud-3rdLLM-6.3.905-xxx.zip代码包上传到Notebook的工作目录/home/ma-user/work/下。上传代码参考如下。 import moxing as mox obs_dir = "obs://${bucket_name}/${folder-name}" local_dir = "/home/ma-user/work/qwen-14b" mox.file.copy_parallel(obs_dir, local_dir) 实际操作如下图所示。图1 上传OBS文件到Notebook的代码示例构建推理代码。解压AscendCloud-3rdLLM-6.3.905-xxx.zip代码包。 unzip AscendCloud-3rdLLM-6.3.905-*.zip 运行推理构建脚本build.sh文件，自动获取ascend_vllm_adapter文件夹中提供的vLLM相关算子代码。 cd llm_inference bash build.sh 运行完后，在当前目录下会生成ascend_vllm文件夹，即为昇腾适配后的vLLM代码。

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）

AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step6 推理服务的高阶配置（可选）

Step6 推理服务的高阶配置（可选）如需开启以下高阶配置，请在Step3 配置NPU环境时增加需要开启的高阶配置参数。词表切分在分布式场景下，默认不使用词表切分能提升推理性能，同时也会增加单卡的显存占用。不建议开启词表并行，如确需使用词表切分，配置以下环境变量。 export USE_VOCAB_PARALLEL=1 关闭词表切分的命令： unset USE_VOCAB_PARALLEL 配置后重启推理服务生效。 Matmul_all_reduce融合算子使用Matmul_all_reduce融合算子能提升全量推理性能，该算子对驱动和固件版本要求较高，默认不开启。如需开启，配置以下环境变量。 export USE_MM_ALL_REDUCE_OP=1 关闭Matmul_all_reduce融合算子的命令： unset USE_MM_ALL_REDUCE_OP 配置后重启推理服务生效。查看详细日志查看详细耗时日志可以辅助定位性能瓶颈，但会影响推理性能。如需开启，配置以下环境变量。 export DETAIL_TIME_ LOG =1 export RAY_DEDUP_LOGS=0 关闭详细日志命令： unset DETAIL_TIME_LOG 配置后重启推理服务生效。

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）

AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step3 配置NPU环境

Step3 配置NPU环境在Notebook的terminal中执行如下命令进行环境配置。配置需要的NPU卡。 export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3 0,1,2,3修改为需要使用的卡，如需使用全部8张卡，修改为0,1,2,3,4,5,6,7。配置PYTHONPATH。 export PYTHONPATH=$PYTHONPATH:${vllm_path} ${vllm_path}：指定到ascend_vllm文件夹的绝对路径。进入工作目录。 cd ascend_vllm

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）

AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step4 部署并启动推理服务

Step4 部署并启动推理服务在Step3中的terminal部署并启动推理服务。有2种方式，使用vllm-api启动推理服务，或者使用openai-api启动推理服务。参考命令如下： # 使用vllm-api python vllm/entrypoints/api_server.py \ --model="${model_path}" \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.95 \ --max-model-len=4096 \ --trust-remote-code \ --dtype="float16" \ --host=0.0.0.0 \ --port=8080 # 使用openai-api python vllm/entrypoints/openai/api_server.py \ --model="${model_path}" \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.95 \ --max-model-len=4096 \ --trust-remote-code \ --dtype="float16" \ --host=0.0.0.0 \ --port=8080 参数说明： --model：模型地址，模型格式是Huggingface的目录格式。 --tensor-parallel-size：并行卡数。 --gpu-memory-utilization：0~1之间的float，实际使用的显存是系统读取的最大显存*gpu-memory-utilization。 --max-model-len：最大数据输入+输出长度，不能超过模型配置文件config.json里面定义的“max_position_embeddings”和“seq_length”；如果设置过大，会占用过多显存，影响kvcache的空间。不同模型推理支持的max-model-len长度不同，具体差异请参见附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明。 --hostname：服务部署的IP，使用本机IP 0.0.0.0。 --port：服务部署的端口。服务启动后，会打印如下信息。 server launch time cost: 15.443044185638428 s INFO: Started server process [2878] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）

AI开发平台MODELARTS-准备W8A8权重:W8A8量化权重生成

W8A8量化权重生成介绍如何将BF16权重量化为W8A8的权重，具体操作步骤如下。在Server机器上创建权重量化后的存放目录${path-to-file}/deepseekV3-w8a8或${path-to-file}/deepseekR1-w8a8目录。下载msit源码，可以使用 git clone -b br_noncom_MindStudio_8.0.0_POC_20251231 https://gitee.com/ascend/msit.git 进入到msit/msmodelslim的目录；并在进入的msmodelslim目录下，运行安装脚本install.sh cd msit/msmodelslim bash install.sh 进入到msit/msmodelslim/example/DeepSeek目录，执行转换命令。 BF16权重路径是${path-to-file}/deepseekV3-bf16，例如：/home/data/deepseekV3-bf16，将量化后的W8A8权重输出到${path-to-file}/deepseekV3-w8a8，例如：/home/data/deepseekV3-w8a8，可以使用以下命令，此处以deepseekV3为例。 cd example/DeepSeek python3 quant_deepseek_w8a8.py --model_path ${path-to-file}/deepseekV3-bf16 --save_path ${path-to-file}/deepseekV3-w8a8 量化后的权重文件再复制到另外一台机器的相同目录。

AI开发平台MODELARTS

AI开发平台MODELARTS-准备BF16权重:方式一：直接下载已经转换成功的BF16权重

方式一：直接下载已经转换成功的BF16权重通过下述地址直接下载HuggingFace社区中开发者贡献的已经转换成功的BF16权重。建议在Server机器上创建${path-to-file}/deepseekV3-bf16或${path-to-file}/deepseekR1-bf16目录，并直接将权重文件下载到该目录中。 opensourcerelease/DeepSeek-V3-bf16 opensourcerelease/DeepSeek-R1-bf16 下载完成后，需要修改权重文件中config.json文件，把model_type字段值改为“deepseekv2”。

AI开发平台MODELARTS 准备权重

AI开发平台MODELARTS-Lite Server部署推理服务:步骤六：在每个节点进入容器并启动推理服务

步骤六：在每个节点进入容器并启动推理服务进入容器。 docker exec -it -u root ${container-name} /bin/bash 修改MindIE文件权限。 cd /usr/local/Ascend/mindie/latest chmod 750 mindie-service chmod -R 550 mindie-service/bin chmod -R 500 mindie-service/bin/mindie_llm_backend_connector chmod 550 mindie-service/lib chmod 440 mindie-service/lib/* chmod 550 mindie-service/lib/grpc chmod 440 mindie-service/lib/grpc/* chmod -R 550 mindie-service/include chmod -R 550 mindie-service/scripts chmod 750 mindie-service/logs chmod 750 mindie-service/conf chmod 640 mindie-service/conf/config.json chmod 700 mindie-service/security chmod -R 700 mindie-service/security/* 启动推理前需要先配置服务化环境变量。 source /usr/local/Ascend/ascend-toolkit/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh source /usr/local/Ascend/atb-models/set_env.sh export HCCL_OP_EXPANSION_MODE="AIV" export ATB_LLM_HCCL_ENABLE=1 export ATB_LLM_COMM_BACKEND="hccl" export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True export MIES_CONTAINER_IP=${container_ip} export RANKTABLEFILE=${RANKTABLEFILE} export HCCL_DETERMINISTIC=true ${container_ip}：当前容器的IP地址，和rank_table_file.json文件中配置的container_ip保持一致。 expandable_segments-使能内存池扩展段功能，即虚拟内存特性。 ${RANKTABLEFILE}：rank_table_file.json文件挂载到容器中的地址${container_work_dir}/rank_table_file.json 修改config.json文件中的服务化参数。config.json文件修改要求和样例参考附录：config.json文件。 cd /usr/local/Ascend/mindie/latest/mindie-service/ vim conf/config.json 启动推理服务。 # 设置显存比 export NPU_MEMORY_FRACTION=0.95 # 拉起服务化 cd /usr/local/Ascend/mindie/latest/mindie-service/ ./bin/mindieservice_daemon 执行命令后出现“Daemon start success!”，表示服务成功启动。

AI开发平台MODELARTS DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导

AI开发平台MODELARTS-Lite Server部署推理服务:步骤七：调用

步骤七：调用调用DeepSeek-V3 curl -ik -H 'Content-Type: application/json' -d '{"messages":[{"role":"user","content":"请讲一个笑话"}],"model":"DeepSeek-V3","temperature":0,"max_tokens":128}' -X POST http://${ip}:${port}/v1/chat/completions 调用DeepSeek-R1 curl -ik -H 'Content-Type: application/json' -d '{"messages":[{"role":"user","content":"请讲一个笑话"}],"model":"DeepSeek-R1","temperature":0,"max_tokens":128}' -X POST http://${ip}:${port}/v1/chat/completions ip：为步骤六：在每个节点进入容器并启动推理服务第4小步中配置的config.json中ipAddress值 port：为步骤六：在每个节点进入容器并启动推理服务第4小步中配置的config.json中port字段的值请求调用返回json参考如下：

AI开发平台MODELARTS DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导

AI开发平台MODELARTS-Lite Server部署推理服务:步骤一：检查环境

步骤一：检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数，用来确认对应卡数已经挂载 npu-smi info -t board -i 1 | egrep -i "software|firmware" #查看驱动和固件版本如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导

AI开发平台MODELARTS-Lite Server部署推理服务:步骤二：获取推理镜像

步骤二：获取推理镜像镜像获取命令如下。 docker pull swr.cn-southwest-2.myhuaweicloud.com/ei-mindie/mindie:2.0.T3-800I-A2-py311-openeuler24.03-lts 如果是权限导致的镜像拉取失败，请参考昇腾社区提供的MindIE镜像申请并下载2.0.T3-800I-A2-py311-openeuler24.03-lts版本的镜像。

AI开发平台MODELARTS DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导

云服务器内容精选

AI开发平台MODELARTS

7*24

备案

专业服务

退订

建议反馈

售前咨询热线