华为云用户手册

AI开发平台MODELARTS-ModelArts最佳实践案例列表:ModelArts Standard推理部署

ModelArts Standard推理部署表5 推理部署列表样例对应功能场景说明基于ModelArts Standard一键完成商超商品识别模型部署在线服务物体检测此案例以“商超商品识别”模型为例，完成从AI Gallery订阅模型，到ModelArts一键部署为在线服务的免费体验过程。第三方推理框架迁移到ModelArts Standard推理自定义引擎第三方框架推理部署 - ModelArts支持第三方的推理框架在ModelArts上部署，本文以TFServing框架、Triton框架为例，介绍如何迁移到推理自定义引擎。

AI开发平台MODELARTS
AI开发平台MODELARTS-ModelArts最佳实践案例列表:多模态模型场景

多模态模型场景样例场景说明 Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） Qwen-VL基于Lite Server适配PyTorch NPU的Finetune训练指导(6.3.912) Qwen-VL基于Lite Server适配PyTorch NPU的推理指导（6.3.909） MiniCPM-V2.6基于Lite Server适配PyTorch NPU训练指导（6.3.912） MiniCPM-V2.0推理及LoRA微调基于Lite Server适配PyTorch NPU指导（6.3.910） InternVL2基于LIte Server适配PyTorch NPU训练指导（6.3.912） LLaVA-NeXT基于Lite Server适配PyTorch NPU训练微调指导（6.3.912） LLaVA模型基于Lite Server适配PyTorch NPU预训练指导（6.3.912） LLaVA模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） Llama 3.2-Vision基于Lite Server适配Pytorch NPU训练微调指导（6.3.912） LLaMA-VID基于Lite Server适配PyTorch NPU推理指导（6.3.910） moondream2基于Lite Server适配PyTorch NPU推理指导 Qwen-VL、MiniCPM-V2系列、InternVL2、LLaVA-NeXT、LLaVA、Llama 3.2-Vision、LLaMA-VID、moondream2等模型的训练或推理介绍常见多模态模型使用PyTorch框架和昇腾NPU计算资源，基于ModelArts Lite Server或者Standard的训练或推理过程。

AI开发平台MODELARTS
AI开发平台MODELARTS-ModelArts最佳实践案例列表:内容审核场景

内容审核场景样例场景说明 Bert基于Lite Server适配MindSpore Lite推理指导(6.3.910) Yolov8基于Lite Server适配MindSpore Lite推理指导（6.3.909） Paraformer基于Lite Server适配PyTorch NPU推理指导（6.3.911） Bert、Yolov8、Paraformer等内容审核模型推理案例主要介绍内容审核场景的相关模型如何基于ModelArts Lite Server上的昇腾NPU资源进行模型推理。

AI开发平台MODELARTS
AI开发平台MODELARTS-ModelArts最佳实践案例列表:文生图模型训练推理场景

文生图模型训练推理场景样例场景说明 SDXL基于Standard适配PyTorch NPU的LoRA训练指导 SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导 SD1.5&SDXL Kohya框架基于DevServer适配PyTorch NPU训练指导 SDXL、SD1.5模型训练介绍AIGC模型SDXL、SD1.5基于ModelArts Lite Server的训练过程，训练使用PyTorch框架和昇腾NPU计算资源。训练后的模型可用于推理部署，应用于文生图场景。 SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导 SDXL、SD1.5模型推理介绍AIGC模型SDXL、SD1.5基于ModelArts Lite Server的推理过程，推理使用PyTorch框架和昇腾NPU计算资源。启动推理服务后，可应用于文生图场景。 Open-Clip基于Lite Server适配PyTorch NPU训练指导 Open-Clip模型训练介绍Open-Clip模型基于ModelArts Lite Server的训练过程，训练使用PyTorch框架和昇腾NPU计算资源。应用于AIGC和多模态视频编码器。

AI开发平台MODELARTS
AI开发平台MODELARTS-ModelArts最佳实践案例列表:数字人场景

数字人场景样例场景说明 Wav2Lip推理基于DevServer适配PyTorch NPU推理指导 Wav2Lip训练基于DevServer适配PyTorch NPU训练指导 Wav2Lip，人脸说话视频模型，训练、推理 Wav2Lip是一种基于对抗生成网络的由语音驱动的人脸说话视频生成模型。主要应用于数字人场景。不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频，还可以直接将动态的视频进行唇形转换，输出与输入语音匹配的视频，俗称“对口型”。该技术的主要作用就是在将音频与图片、音频与视频进行合成时，口型能够自然。案例主要介绍如何基于ModelArts Lite Server上的昇腾NPU资源进行模型训练推理。

AI开发平台MODELARTS
AI开发平台MODELARTS-ModelArts最佳实践案例列表:文生视频场景

文生视频场景样例场景说明 CogVideoX训练推理基于DevServer适配PyTorch NPU指导 Open-Sora1.2基于DevServer适配PyTorch NPU训练推理指导 Open-Sora-Plan1.0基于DevServer适配PyTorch NPU训练推理指导 Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） CogVideo模型、Open-Sora模型训练推理介绍CogVideo、Open-Sora-Plan、Open-Sora1.2模型基于ModelArts DevServer的训练推理过程，训练使用PyTorch框架和昇腾NPU计算资源。训练后的模型可用于推理部署，应用于文生视频场景。

AI开发平台MODELARTS
AI开发平台MODELARTS-ModelArts最佳实践案例列表:LLM大语言模型训练推理场景

LLM大语言模型训练推理场景样例场景说明主流开源大模型适配AscendFactory PyTorch NPU训练指导预训练、SFT全参微调训练、LoRA微调训练介绍主流的开源大模型Llama系列、Qwen系列、Yi系列等基于ModelArts Lite Server的训练过程，训练使用PyTorch框架和昇腾NPU计算资源。训练后的模型可用于推理部署，搭建大模型问答助手。主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导预训练、SFT全参微调训练、LoRA微调训练介绍主流的开源大模型Llama系列、Qwen系列、Yi系列等基于ModelArts Standard的训练过程，训练使用PyTorch框架和昇腾NPU计算资源。训练后的模型可用于推理部署，搭建大模型问答助手。主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导推理部署、推理性能测试、推理精度测试、推理模型量化介绍主流的开源大模型Llama系列、Qwen系列、Yi系列等基于ModelArts Lite Server的推理部署过程，推理使用PyTorch框架和昇腾NPU计算资源。启动推理服务后，可用于搭建大模型问答助手。主流开源大模型基于Standard适配PyTorch NPU推理指导推理部署、推理性能测试、推理精度测试、推理模型量化介绍主流的开源大模型Llama系列、Qwen系列、Yi系列等基于ModelArts Standard的推理部署过程，推理使用PyTorch框架和昇腾NPU计算资源。启动推理服务后，可用于搭建大模型问答助手。

AI开发平台MODELARTS
AI开发平台MODELARTS-advisor调优总体步骤:操作步骤

操作步骤明确性能问题类型，准确采集性能劣化时刻的profiling数据。对于固定step出现性能劣化，如固定在16步出现性能劣化，则需要合理配置profiling参数，确保能采集到16步的数据。对于所有step稳定劣化的场景，避免采集第一个step的profiling即可，可以采集任意step如第15个step即可。对于偶现且劣化现象出现的step数不固定的场景，则需要确保能采集到该不固定的step。 profiling数据采集请参考Ascend PyTorch Profiler接口采集。文档中包含torch_npu.profiler.profile、dynamic_profile等多种采集方式。任意torch_npu版本均支持torch_npu.profiler.profile方式，而其他采集方式则要求特定版本的torch_npu（2024年0630之后版本）。推荐升级torch_npu后使用dynamic_profile方式进行采集，如果升级成本过高，也可以使用torch_npu.profiler.profile。当不明确性能劣化的可能原因时，profiling关键参数配置请务必复用如下设置： # torch_npu.profiler._ExperimentalConfig aic_metrics=torch_npu.profiler.AiCMetrics.PipeUtilization profiler_level=torch_npu.profiler.ProfilerLevel.Level1 data_simplification=True # torch_npu.profiler.profile activities=[torch_npu.profiler.ProfilerActivity.CPU, torch_npu.profiler.ProfilerActivity.NPU] with_stack=False torch_npu.profiler.profile采集方式介绍配置完如图1所示代码后需要启动训练作业触发采集且只能采集指定的step，对于已经明确需要采集step的场景可以使用该采集方式，此时需要重点关注图1中schedule参数以确保采集到需要的step数据。对于schedule参数，请参考图2。skip_first用于跳过指定的前n个step。wait、warmup和active三个参数构成了一次完整的采集，repeat参数表示重复多少次完整的采集。wait参数表示重复执行采集过程中每次采集跳过的step轮数，warmup表示预热的step轮数（推荐设置为1），active表示实际采集的连续m个step。参数示例： skip_first=10，wait=3, warmup=1, active=3, repeat=2 采集时会先跳过前10个step（从step0开始）。然后完整的一次采集过程包括等待3个step，预热1个step和连续采集3个step（step14-step16）的profiling数据。这一次采集的step14-step16的profiling数据会保存在同一个json文件中。由于设置了repeat=2，则会再次重复一次采集过程，那么实际会二次采集step21-step23这三个连续step的profiling数据并保存至一个新的json文件中。图1 torch_npu.profiler.profile 图2 torch_npu.profiler.profile schedule参数释义 dynamic_profile采集方式介绍对于上述提到的性能劣化且出现step不固定的场景，优先考虑使用动态profiling方式进行采集。如图3中所示"if step==5"处，需要在业务代码中添加如下判断逻辑：记录每一个step的耗时，如果某个step的耗时出现异常，即大于正常step耗时或者均值耗时的20%（根据训练日志的实际step耗时来确定异常耗时阈值），则认为出现性能劣化，从而执行'dp.start'触发profiling采集。图3 dynamic_profile 存储profiling数据。多机场景如果没有挂载共享存储如SFS Turbo，需要将多机上的profiling复制至同一个目录下才能进行性能分析，这个操作相对较为繁琐且耗时。使用ModelArts时推荐挂载共享网盘如sfs turbo，既能加快训练数据的读取速度又能用于存放性能profiling数据。如果没有共享网盘，profiling数据默认保存到ModelArts训练容器中，则请参考创建ModelArts训练作业中的配置训练参数部分配置好输出参数，训练过程中会自动将训练容器中输出路径下的数据回传至指定的OBS上。创建performance advisor分析环境。采集完profiling后如果ModelArts训练作业已经停止，则推荐参照创建诊断任务创建cpu规格的notebook进行性能分析，节省NPU计算资源。完成分析后，可以查看生成的html文件来进行快速的调优，html文件详情请参考查看诊断报告。下面以开发环境Notebook为例介绍一个典型的性能调优案例。 64卡训练任务，模型为GPT MOE，tensor parallel(tp)为8，pipeline parallel(pp)为4。训练过程中发现每个step耗时均显著增大，基于dynamic_profile方式采集profiling并上传至OBS。选择任意镜像如PyTorch，创建一个2U8GB CPU规格（如果CPU资源充足，建议创建8U32G的分析环境）的notebook开发环境。在notebook中使用performance advisor插件进行性能分析，源数据选择OBS并指定profiling所在的OBS路径。由于pp参数为4，考虑到不同pp stage的计算量存在差异，advisor会自动对不同stage进行计算维度的分析，因此在Advanced Setting中设置分析进程为2（不建议设置太大，避免占用过多CPU资源导致OOM类问题）使能并行分析，加快分析速度，如下图4所示。图4 基于performance advisor进行性能劣化分析完成分析后单击下图图5中view查看报告。html（图6）中显示计算维度存在高优先级的AICORE降频问题，分别为pp stage0的8号卡和pp stage3的60号卡。查看对8号卡的降频分析（图7）可以发现节点降频主要影响了FlashAttention和MatMul两类算子，导致这两类算子的计算性能劣化，从而影响了整体的训练性能。按照html中给出的建议，需要检查8号卡和60号卡对应节点的温度和最大功率。图5 性能分析报告展示图6 计算维度节点降频问题图7 节点降频及其影响算子

AI开发平台MODELARTS 性能调优: MA-Advisor性能诊断
AI开发平台MODELARTS-MindSpeed-LLM:权重文件组合方式

权重文件组合方式适配权重文件支持以下组合方式，用户根据自己实际要求选择表1 MindSpeed-LLM支持权重组合方式训练stage 不加载权重增量训练：加载权重，不加载优化器（默认开启）断点续训：加载权重+优化器 pt sft ckpt_load_type=0 ckpt_load_type=1 user_converted_ckpt_path=xxx，(转换MG的权重) ckpt_load_type=2 user_converted_ckpt_path=xxx（训练输出MG权重）

AI开发平台MODELARTS 参数配置说明
AI开发平台MODELARTS-数据说明:支持数据简介

支持数据简介 MindSpeed-LLM、Llama-Factory框架常用数据集格式： alpaca格式 sharegpt格式 moss格式（仅支持MindSpeed-LLM）本教程样例Alpaca数据集下载链接如下：预训练(MindSpeed-LLM)：train-00000-of-00001-a09b74b3ef9c3b56.parquet，数据大小：24M左右。微调：alpaca_gpt4_data.json，数据大小：43.6 MB。

AI开发平台MODELARTS 训练服务配置说明
AI开发平台MODELARTS-梯度监控

梯度监控梯度监控工具提供了将模型梯度数据导出的能力。使用梯度监控工具，可以实现对训练过程模型每一层梯度信息进行监控，目前支持两种能力：将模型权重的梯度数据导出。这种功能可以将模型权重的梯度值以统计量的形式采集出来，用以分析问题，例如检测确定性问题，使用训练状态监控工具监控NPU训练过程中的确定性计算问题。将两份梯度数据进行相似度对比。在有标杆问题中，可以确认训练过程中精度问题出现的Step，以及抓取反向过程中的问题。使用步骤如下：通过pip安装msprobe工具。 # shell pip install mindstudio-probe 创建配置文件config.json。 { "task": "grad_probe", "dump_path": "./dump_path", "rank": [], "step": [], "grad_probe": { "grad_level": "L1", "param_list": [], "bounds": [-1, 0, 1] } } task参数需指定为grad_probe，dump_path表示输出目录，需手工指定，默认输出到dump_path目录。参数grad_level可取值L0、L1、L2，级别越大导出的数据越详细。更多详细参数说明请参考参数说明。监控逻辑插入训练脚本。 from msprobe.pytorch import PrecisionDebugger debugger = PrecisionDebugger("config_json_path") # 模型初始化之后位置添加。 debugger.monitor(model) ... # 结束训练之后，调用stop接口。 debugger.stop() （可选）梯度数据相似度比对。 from msprobe import * GradComparator.compare_distributed("配置文件里写的dump_path", "配置文件里写的dump_path", "比对结果输出目录") 最终生成结果为similarities.csv表示每个Step各个权重参数两次比对相似度值，以及 {param_name}.png和summary_similarities.png以折线图方式表示各个Step相似度不比对结果。详细工具的使用指导请参考梯度状态监控工具介绍。父主题：精度调试: msprobe

AI开发平台MODELARTS 精度调试: msprobe
AI开发平台MODELARTS-精度调优总体思路

精度调优总体思路 PyTorch大模型训练的精度问题的分析、定位可以参考如下思路：大模型训练通常使用多机训练，鉴于多机训练复现问题的成本较高，且影响因子较多，建议用户先减少模型层数，使模型能够单机训练，确认单机训练是否也存在精度问题，若存在，则使用下述手段定位精度问题，使得单机精度达标，然后再恢复层数拉起多机训练。若单机精度正常但多机精度异常，有可能是多机通信造成的精度问题，此时可以用精度工具的通信精度检测功能进行定位。部分集合通信算子要求通信域内各rank结果一致，如AllReduce、AllGather等，利用这一特性，工具将多机模型训练中产生的通信输出存盘，并传输到同一节点来比较其一致性，从而确定模型中通信算子的精度是否存在问题。若已排除通信算子异常，则可能是由于网络层数增加放大了累积误差，需要使用精度比对等工具进一步分析。图1 精度调优流程父主题：精度调试

AI开发平台MODELARTS
AI开发平台MODELARTS-性能调优:性能测试

性能测试 benchmark工具也可用于性能测试，其主要的测试指标为模型单次前向推理的耗时。在性能测试任务中，与精度测试不同，并不需要用户指定对应的输入（inDataFile）和输出的标杆数据（benchmarkDataFile），benchmark工具会随机生成一个输入进行推理，并统计推理时间。执行的示例命令行如下。 # shell benchmark --modelFile=resnet50.mindir --device=Ascend 为了简化用户使用，ModelArts提供了Tailor工具便于用户进行Benchmark性能测试，具体使用方式参考Tailor指导文档。在某些推理场景中，模型输入的shape可能是不固定的，因此需要支持用户指定模型的动态shape，并能够在推理中接收多种shape的输入。在CPU上进行模型转换时无需考虑动态shape问题，因为CPU算子支持动态shape；而在昇腾场景上，算子需要指定具体的shape信息，并且在模型转换的编译阶段完成对应shape的编译任务，从而能够在推理时支持多种shape的输入。绝大多数情况下，昇腾芯片推理性能相比于CPU会好很多，但是也可能会遇到和CPU推理性能并无太大差别甚至出现劣化的情况。造成这种情况的原因可能有如下几种：模型中存在大量的类似于Pad或者Strided_Slice等算子，其在CPU和Ascend上的实现方法存在差异（硬件结构不同），后者在运算此类算子时涉及到数组的重排，性能较差；模型的部分算子在昇腾上不支持，或者存在Transpose操作，会导致模型切分为多个子图，整体的推理耗时随着子图数量的增多而增长；模型没有真正的调用昇腾后端，而是自动切换到了CPU上执行，这种情况可以通过输出日志来进行判断。

AI开发平台MODELARTS 推理迁移指导（MindSporeLite）
AI开发平台MODELARTS-性能调优:自助性能调优三板斧

自助性能调优三板斧基于上一步完成的性能测试，为了最大化模型推理性能，首先确保当前使用的CANN版本是最新版本（最新版本请见此处），每个迭代的CANN版本都有一定的性能收益。在此基础上，可以进行三板斧自助工具式性能调优。这些调优过程由大量的项目交付经验总结，帮助您获得模型最佳推理性能，重复性能测试章节可以验证对应的收益情况。自助性能调优三板斧分别为：通过固定shape获取更好的常量折叠、AOE性能自动调优、自动高性能算子生成工具。通过固定shape获取更好的常量折叠在MindIR格式转换时（即执行converter_lite命令时），通过指定具体的静态shape，并且打开--optimize参数指定“ascend_oriented”能够获得更好的常量折叠优化效果。inputShape查看方法请见转换关键参数准备。 Ascend Optimization Engine converter_lite --modelFile=resnet50.onnx --fmk=ONNX --outputFile=resnet50 --saveType=MINDIR --inputShape="input.1:1,3,224,224" --optimize=ascend_oriented 常量折叠是编译器优化中的通用技术之一，在编译节点简化常量表达。通过多数的现代编译器不会真的产生两个乘法的指令再将结果存储下来，取而代之的是会识别出语句的结构，并在编译时期将数值计算出来而不是运行时去计算（在本例子，结果为2,048,000）。 i = 320 * 200 * 32; AI编译器中，常量折叠是将计算图中预先可以确定输出值的节点替换成常量，并对计算图进行一些结构简化的操作，例如ADDN操作，以及在推理过程中的batch normalization操作等。以BN折叠为例，如下表示折叠后获得的性能收益。图1 BN折叠下前向运算性能收益 AOE性能自动调优自动性能调优工具AOE(Ascend Optimization Engine)，可以对于模型的图和算子运行通过内置的知识库进行自动优化，以提升模型的运行效率。开启AOE调优后，模型转换时会自动进行性能调优操作，该过程耗时较长，可能需要数小时。 AOE性能自动优化在模型转换阶段进行配置（即执行converter_lite命令时），通过--configFile参数指定配置文件aoe_config.ini，配置文件通过aoe_mode参数指定调优模式。可选值有： “subgraph tuning”：子图调优。 “operator tuning”：算子调优。 “subgraph tuning, operator tuning”：先进行子图调优，再进行算子调优。推荐先进行子图调优，再进行算子调优，因为先进行子图调优会生成图的切分方式，子图调优后算子已经被切分成最终的shape了，再进行算子调优时，会基于这个最终shape去做算子调优。如果优先算子调优，这时调优的算子shape不是最终切分后的算子shape，不符合实际使用场景。本例同时指定了子图调优和算子调优，工具会先进行子图调优，再进行算子调优。 # aoe_config.ini [ascend_context] aoe_mode="subgraph tuning, operator tuning" 指定--configFile=aoe_config.ini即可自动进行性能优化。 #shell converter_lite --modelFile=resnet50.onnx --fmk=ONNX --device=Ascend --outputFile=resnet50_aoe --saveType=MINDIR --configFile=aoe_config.ini 命令执行成功后，性能自动优化前后的性能对比会打印到控制台上，同时会生成更为详细的json格式调优报告。图2 自动调优输出文件需要注意的是，并不是所有的模型使用性能自动调优都是有收益的。在本例中，ResNet50模型自动调优收益甚微（模型转换时已经做了部分针对性优化），在有些比较复杂的模型场景下可能会有较好的收益。例如VAE_ENCODER模型使用算子调优收益为11.15%。图3 VAE_ENCODER模型使用AOE自动调优在屏幕上显示日志图4 AOE自动调优的输出样例其中： model_baseline_performance表示调优前模型执行时间，单位为ms。 model_performance_improvement表示调优后模型执行时间减少百分比。 model_result_performance表示调优后模型执行时间。 repo_summary中的信息表示调优过程中使用到的知识库算子个数或者追加到知识库的算子个数。 AOE自动调优更多介绍可参考Ascend转换工具功能说明。自动高性能算子生成工具自动高性能算子生成工具AKG（Auto Kernel Generator），可以对深度神经网络模型中的算子进行优化，并提供特定模式下的算子自动融合功能，可提升在昇腾硬件后端上运行模型的性能。 AKG的配置也是在模型转换阶段进行配置（即执行converter_lite命令时），通过指定对应的配置文件akg.cfg，设置对应的akg优化级别，并且在模型转换时参考样例进行对应的配置。 # akg.cfg [graph_kernel_param] opt_level=2 执行命令： # shell converter_lite --fmk=ONNX --modelFile=model.onnx --outputFile=model --configFile=akg.cfg --optimize=ascend_oriented 自动高性能算子生成工具AKG更多介绍可参考图算融合配置说明和MindSpore AKG。

AI开发平台MODELARTS 推理迁移指导（MindSporeLite）
AI开发平台MODELARTS-精度问题概述

精度问题概述随着ChatGPT的推出，大模型迅速成为AI界热点。大模型训练需要强大的算力支撑，涉及数据、模型、框架、算子、硬件等诸多环节。由于规模巨大，训练过程复杂，经常出现loss不收敛的情况（模型精度问题），主要表现为loss曲线起飞或者毛刺等，且模型的下游任务评测效果变差。影响大模型loss收敛的原因是多方面的：首先，数据问题可能导致不收敛，比如数据预处理不完善；其次，模型的训练超参数也同样会导致类似的情况；再者，模型本身的算法设计过程也可能会引入不收敛情况；最后，则是由计算过程导致的模型收敛问题。模型精度（以模型评测结果衡量的各种指标，广义的Model Accuracy），是多种因素共同作用的结果，出现问题的主要表现是训练过程的Loss不收敛或者收敛出问题或者loss收敛却评测集上表现不佳。而计算的数值精度问题，（Computational Precision，Floating-Point Arithmetic Precision等）,则是由于浮点数计算过程的有限字长效应及计算序所带来的近似误差，包括各种计算的数学表达，都会带来结果的近似性。二者是完全不同的两个问题，不能混为一谈。计算数值的近似性一定概率上会影响模型的收敛性，但是影响大模型收敛的原因是复杂且多样的，大模型本身也对计算差异有一定韧性，所以，不能简认地为计算过程的差异一定会导致模型收敛出现问题。算子的数值精度是计算过程的基础，通常认为算子精度问题是大模型精度问题的来源之一，从实际经验看，算子数值精度不足（除去计算错误等BUG问题）所导致的模型收敛问题在整个模型收敛比例里面较低，但其影响会较大，所以，该问题需要引起重视。而且，由于实现过程差异，不同硬件对于同样的计算过程，数值计算结果通常会有差异，比如GPU和CPU之间，GPU各版本之间，数值计算结果都有一定差异，在特定的容限范围内，不会影响模型的最终收敛。所以，计算的数值差异是很常规的现象，并非错误。为了更好地了解这种计算差异，并且能够正确区分正常计算差异和引起模型精度问题的异常差异，本指南提供了算子问题定位工具集详细的使用场景和使用步骤，方便用户自行或在支持下排查可能的数值计算精度问题。当用户将大语言模型或者其他类型深度神经网络的训练从GPU迁移到昇腾AI处理器时，可能出现以下不同现象的模型精度问题。一般包括： Loss曲线与CPU/GPU差异不符合预期。验证准确度与CPU/GPU差异不符合预期。在迁移到NPU环境下训练发现以上问题时，说明精度可能存在偏差，需要进一步做精度调优。下文将分别阐述精度诊断的整体思路和如何借助精度工具进行精度问题的定位。父主题：精度调试

AI开发平台MODELARTS 精度调试
AI开发平台MODELARTS-eagle投机小模型训练:步骤四：执行训练

步骤四：执行训练安装完成后，执行： accelerate launch -m --mixed_precision=bf16 eagle.train.main \ --tmpdir [path of data] \ --cpdir [path of checkpoints] \ --configpath [path of config file] \ --basepath [path of base_model] --bs [batch size] tmpdir：即为步骤三中的outdir，训练data地址 cpdir：为训练生成权重的地址 configpath：为模型config文件的地址 basepath：为大模型权重地址 bs：为batch大小其中，要获取模型config文件，首先到https://github.com/SafeAILab/EAGLE/页找到对应eagle模型地址。图1 EAGLE Weights 以llama2-chat-7B为例，单击进入后，如下图所示config文件，即为对应模型的eagle config文件。图2 eagle config文件

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
AI开发平台MODELARTS-eagle投机小模型训练:步骤五：训练生成权重转换成可以支持vLLM推理的格式

步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。然后在llm_tools/spec_decode/EAGLE文件夹，执行 python convert_eagle_ckpt_to_vllm_compatible.py --base-path 大模型权重地址 --draft-path 小模型权重地址 --base-weight-name 大模型包含lm_head的权重文件名 --draft-weight-name 小模型权重文件名 --base-path：为大模型权重地址，例如 ./llama2-7b-chat --draft-path：小模型权重地址，即步骤四中config文件所在目录，例如 ./eagle_llama2-7b-chat --base-weight-name：为大模型包含lm_head的权重文件名，可以在base-path目录下的model.safetensors.index.json文件获取，例如llama2-7b-chat的权重名为pytorch_model-00001-of-00002.bin 图3 权重文件名 --draft-weight-name为小模型权重文件名，即刚才移动的.bin文件或者.safetensors 文件。

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
AI开发平台MODELARTS-eagle投机小模型训练:步骤三：sharegpt格式数据生成为训练data数据集

步骤三：sharegpt格式数据生成为训练data数据集若使用开源数据集，推荐使用原论文代码仓数据集，下载地址：https://huggingface.co/datasets/Aeala/ShareGPT_Vicuna_unfiltered/blob/main/ShareGPT_V4.3_unfiltered_cleaned_split.json 否则使用第二步生成的开源数据集。 python allocation.py \ --outdir outdir0/sharegpt_0_99_mufp16 \ --end_num 100 \ --used_npus "0,1,2,3,4,5,6,7" \ --model_type llama \ --model_name ./llama-7B \ --data_path data_for_sharegpt.json \ --seed 42 \ --max_length 2048 \ --dtype bfloat16 其中 outdir：生成的训练data 地址 end_num：生成的data总条数 used_npus：使用哪些NPU model_type：使用模型类型目前支持 qwen2 llama1 llama2 及 llama3，其中llama1、2及chat都填写llama model_name：模型地址 data_path：预训练数据集地址即一中生成的文件地址 seed：生成训练data所使用的seed（此处42为开源训练设定参数） max_length：模型的max_length dtype：为模型dtype 默认为bfloat16

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
AI开发平台MODELARTS-eagle投机小模型训练:步骤二：非sharegpt格式数据集转换（可选）

步骤二：非sharegpt格式数据集转换（可选）如果数据集json文件不是sharegpt格式，而是常见的 { "prefix": "AAA" "input": "BBB", "output": "CCC" } 格式，则需要执行convert_to_sharegpt.py 文件将数据集转换为share gpt格式。 python convert_to_sharegpt.py \ --input_file_path data_test.json \ --out_file_name ./data_for_sharegpt.json \ --prefix_name instruction \ --input_name input \ --output_name output \ --code_type utf-8 其中： input_file_path：预训练json文件地址。 out_file_name：输出的sharegpt格式文件地址。 prefix_name：预训练json文件的前缀字段名称（可设置为None，此时预训练数据集只有 input output 两段）输入前缀，（例如：您是一个xxx专家,您需要回答下面问题） input_name：预训练json文件的指令输入字段名称（例如：请问苹果是什么颜色） output_name output：预训练json文件的output字段名称，例如：苹果是红色的。 code_type：预训练json文件编码默认utf-8 当转换为share gpt格式时，prefix和 input会拼接成一段文字，作为human字段，提出问题，而output字段会作为gpt字段，做出回答。

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
AI开发平台MODELARTS-Eagle投机小模型训练:步骤五：训练生成权重转换成可以支持vLLM推理的格式

步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。然后在llm_tools/spec_decode/EAGLE文件夹，执行 python convert_eagle_ckpt_to_vllm_compatible.py --base-path 大模型权重地址 --draft-path 小模型权重地址 --base-weight-name 大模型包含lm_head的权重文件名 --draft-weight-name 小模型权重文件名 --base-path：为大模型权重地址，例如 ./llama2-7b-chat --draft-path：小模型权重地址，即步骤四中config文件所在目录，例如 ./eagle_llama2-7b-chat --base-weight-name：为大模型包含lm_head的权重文件名，可以在base-path目录下的 model.safetensors.index.json 文件获取，例如llama2-7b-chat的权重名为pytorch_model-00001-of-00002.bin 图3 权重文件名 --draft-weight-name 为小模型权重文件名，即刚才移动的.bin文件或者.safetensors文件。

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
AI开发平台MODELARTS-Eagle投机小模型训练:步骤二：非sharegpt格式数据集转换（可选）

步骤二：非sharegpt格式数据集转换（可选）如果数据集json文件不是sharegpt格式，而是常见的如下格式，则需要执行convert_to_sharegpt.py 文件将数据集转换为share gpt格式。 { "prefix": "AAA" "input": "BBB", "output": "CCC" } 执行convert_to_sharegpt.py 文件。 python convert_to_sharegpt.py \ --input_file_path data_test.json \ --out_file_name ./data_for_sharegpt.json \ --prefix_name instruction \ --input_name input \ --output_name output \ --code_type utf-8 其中： input_file_path：预训练json文件地址。 out_file_name：输出的sharegpt格式文件地址。 prefix_name：预训练json文件的前缀字段名称，例如：您是一个xxx专家，您需要回答下面问题。prefix_name可设置为None，此时预训练数据集只有input和output两段输入。 input_name：预训练json文件的指令输入字段名称，例如：请问苹果是什么颜色。 output_name output：预训练json文件的output字段名称，例如：苹果是红色的。 code_type：预训练json文件编码，默认utf-8。当转换为sharegpt格式时，prefix和input会拼接成一段文字，作为human字段，提出问题，而output字段会作为gpt字段，做出回答。

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
AI开发平台MODELARTS-Eagle投机小模型训练:步骤四：执行训练

步骤四：执行训练安装完成后，执行： accelerate launch -m --mixed_precision=bf16 eagle.train.main \ --tmpdir [path of data] \ --cpdir [path of checkpoints] \ --configpath [path of config file] \ --basepath [path of base_model] --bs [batch size] tmpdir：即为步骤三中的outdir，训练data地址 cpdir：为训练生成权重的地址 configpath：为模型config文件的地址 basepath：为大模型权重地址 bs：为batch大小其中，要获取模型config文件，首先到https://github.com/SafeAILab/EAGLE/页找到对应eagle模型地址。图1 EAGLE Weights 以llama2-chat-7B为例，单击进入后，如下图所示config文件，即为对应模型的eagle config文件。图2 eagle config文件

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
安全云脑 SECMASTER-采集节点或采集通道故障，如何处理？:问题定位

问题定位远程登录采集节点所在的E CS 。您可以登录弹性云服务器控制台，在“弹性云服务器”列表中，单击“远程登录”登录主机，详细操作请参见在云服务器控制台上登录主机。如果您的主机已经绑定了弹性IP，您也可以使用远程管理工具（例如：PuTTY、Xshell等）登录主机，并使用root账号在主机中安装组件控制器。执行如下命令，命令查看当前系统的运行状态： top 当显示如下图所示时，则表示ECS中Java进程占用了大量CPU资源。图3 运行状态执行如下命令，查看采集器运行日志： docker logs isap-logstash -f 通过查看日志，定位到当前采集通道filter部分（解析器）配置有误，如下图所示：图4 采集器运行日志执行以下命令，进入采集通道配置文件所在路径。 cd /opt/cloud/logstash/config/files 执行以下命令，查看filter部分是否存在异常。 cat 配置文件名当出现如下图所示内容时，则表示当前filter部分存在异常：图5 filter部分存在异常

安全云脑 SECMASTER
安全云脑 SECMASTER-安全云脑的数据来源是什么？

安全云脑的数据来源是什么？安全云脑基于云上威胁数据和华为云服务采集的威胁数据，通过大数据挖掘和机器学习，分析并呈现威胁态势，并提供防护建议。一方面采集全网流量数据，以及安全防护设备日志等信息，通过大数据智能AI分析采集的信息，呈现资产的安全状况，并生成相应的威胁告警。另一方面汇聚企业主机安全（Host Security Service，HSS）、DDoS高防（Advanced Anti-DDoS，AAD）、 Web应用防火墙（Web Application Firewall，WAF）等安全防护服务上报的告警数据，从中获取必要的安全事件记录，进行大数据挖掘和机器学习，智能AI分析并识别出攻击和入侵，帮助用户了解攻击和入侵过程，并提供相关的防护措施建议。安全云脑通过对多方面的安全数据的分析，为安全事件的处置决策提供依据，实时呈现完整的全网攻击态势。接入数据详细操作请参见接入数据、数据采集。父主题：产品咨询

安全云脑 SECMASTER
安全云脑 SECMASTER-SecMaster与HSS服务的区别？:服务含义区别

服务含义区别安全云脑（SecMaster）是华为云原生的新一代安全运营中心，集华为云多年安全经验，基于云原生安全，提供云上资产管理、安全态势管理、安全信息和事件管理、安全编排与自动响应等能力，可以鸟瞰整个云上安全，精简云安全配置、云防护策略的设置与维护，提前预防风险，同时，可以让威胁检测和响应更智能、更快速，帮助您实现一体化、自动化安全运营管理，满足您的安全需求。企业主机安全（Host Security Service，HSS）是以工作负载为中心的安全产品，集成了主机安全、容器安全和网页防篡改，旨在解决混合云、多云数据中心基础架构中服务器工作负载的独特保护要求。简而言之，SecMaster是呈现全局安全态势的服务，HSS是提升主机和容器安全性的服务。

安全云脑 SECMASTER
安全云脑 SECMASTER-SecMaster与HSS服务的区别？:服务功能区别

服务功能区别 SecMaster通过采集全网安全数据（包括HSS、WAF、AntiDDoS等安全服务检测数据），提供云上资产管理、安全态势管理、安全信息和事件管理、安全编排与自动响应等能力，帮助您实现一体化、自动化安全运营管理，满足您的安全需求。 HSS通过在主机中安装Agent，使用AI、机器学习和深度算法等技术分析主机中风险，并从HSS云端防护中心下发检测和防护任务，全方位保障主机安全。同时可从可视化控制台，管理主机Agent上报的安全信息。表1 SecMaster与HSS主要功能区别功能项共同点不同点资产安全主机资产呈现主机资产的整体安全状态。 SecMaster：仅支持同步HSS主机资产风险信息，呈现各主机资产的整体安全状况。 HSS：不仅支持呈现主机的安全状况，还支持深度扫描主机中的账号、端口、进程、Web目录、软件信息和自启动任务。网站资产 - SecMaster：支持检查和扫描网站安全状态，呈现各网站资产的整体安全状况。 HSS：不支持该功能。漏洞管理应急漏洞公告 - SecMaster：支持同步华为云安全公告信息，及时获取热点安全讯息。 HSS：不支持该功能。主机漏洞呈现主机漏洞扫描结果，管理主机漏洞。 SecMaster：仅支持同步HSS主机漏洞扫描结果，管理主机漏洞。 HSS：支持检测Linux漏洞、Windows漏洞、Web-CMS漏洞、应用漏洞，提供漏洞概览，包括主机漏洞检测详情、漏洞统计、漏洞类型分布、漏洞TOP5和风险服务器TOP5，帮助您实时了解主机漏洞情况。基线检查云服务基线 - SecMaster：针对华为云服务关键配置项，从“安全上云合规检查1.0”、“等保2.0三级要求”、“护网检查”风险类别，了解云服务风险配置的所在范围和风险配置数目。 HSS：不支持该功能。主机基线 - SecMaster：不支持该功能。 HSS：针对主机，提供基线检查功能，包括检测复杂策略、弱口令及配置详情，包括对主机配置基线通过率、主机配置风险TOP5、主机弱口令检测、主机弱口令风险TOP5的统计。

安全云脑 SECMASTER
安全云脑 SECMASTER-安全云脑与其他安全服务之间的关系与区别？

安全云脑与其他安全服务之间的关系与区别？ SecMaster与其他安全防护服务（WAF、HSS、Anti-DDoS、DBSS、AAD）的关系与区别如下：关联： SecMaster：作为安全管理服务，依赖于其他安全服务提供威胁检测数据，进行安全威胁风险分析，呈现全局安全威胁态势，并提供防护建议。其他安全服务：威胁检测数据可以统一汇聚在SecMaster中，呈现全局安全威胁攻击态势。区别： SecMaster：仅为可视化威胁检测和分析的平台，不实施具体安全防护动作，需与其他安全服务搭配使用。其他安全服务：仅展示对应服务的检测分析数据，并实施具体安全防护动作，不会呈现全局的威胁攻击态势。 SecMaster与其他安全防护服务区别，详细内容如表1。表1 SecMaster与其他服务的区别服务名称服务类别关联与区别防护对象功能差异安全云脑（SecMaster）安全管理 SecMaster着重呈现全局安全威胁攻击态势，统筹分析多服务威胁数据和云上安全威胁，并提供防护建议。呈现全局安全威胁攻击态势。 SecMaster功能介绍 Anti-DDoS流量清洗（Anti-DDoS）网络安全 Anti-DDoS集中于异常DDoS攻击流量的检测和防御，相关攻击日志、防护等数据同步给SecMaster。保障企业业务稳定性。 Anti-DDoS功能特性 DDoS高防（AAD）网络安全 AAD将公网流量引流至高防IP，聚焦于大流量的DDoS攻击的检测和防御，相关攻击日志、防护等数据同步给SecMaster。保障企业重要业务连续性。 AAD产品介绍企业主机安全（HSS）主机安全 HSS着手于保障主机整体安全性，检测主机安全风险，执行防护策略，相关告警、防护等数据同步给SecMaster。保障主机整体安全性。 HSS功能特性 Web应用防火墙（WAF）应用安全 WAF服务对网站业务流量进行多维度检测和防护，防御常见攻击，阻断恶意流量攻击，防止对网站造成威胁。相关入侵日志、告警数据等同步给SecMaster，呈现全网Web风险态势。保障Web应用程序的可用性、安全性。 WAF功能特性数据库安全服务（DBSS）数据安全 DBSS着力于数据库访问行为的防护和审计，相关审计日志、告警数据等同步给SecMaster。保障云上数据库安全和资产安全。 DBSS产品介绍父主题：产品咨询

安全云脑 SECMASTER 产品咨询
安全云脑 SECMASTER-组件控制器安装失败，如何处理？:可能原因八：磁盘未做分区

可能原因八：磁盘未做分区安装isap-agent过程中，界面提示“The directory space of /opt is too small”。图16 磁盘未做分区解决方法：在安装界面中执行以下命令： sh /opt/cloud/isap-agent/action/agent_controller_linux.sh partition 更多详细操作请参见磁盘分区。重新安装isap-agent。详细操作请参见安装组件控制器。

安全云脑 SECMASTER 数据采集
安全云脑 SECMASTER-组件控制器安装失败，如何处理？:可能原因七：工作空间不存在或账号权限有误

可能原因七：工作空间不存在或账号权限有误安装isap-agent过程中，界面提示如下信息： install isap-agent failure Tip：Please check the workspace status and reinstall 图15 工作空间不存在或账号权限有误报错提示解决方法：检查当前工作空间是否存在。检查安全云脑最小权限账户（机机账户）是否配置正确。详细操作请参见创建非管理员 IAM 账户。

安全云脑 SECMASTER 数据采集
安全云脑 SECMASTER-组件控制器安装失败，如何处理？:可能原因一：待安装isap-agent的ECS服务器与存储Agent的OBS桶之间网络不通

可能原因一：待安装isap-agent的ECS服务器与存储Agent的OBS桶之间网络不通图1 ECS主机与OBS网络不通解决方法：（可选）方法一：将ECS主机与OBS的网络连通。（可选）方法二：手动将安装脚本以及安装包下载到本地后，再将安装包上传到主机的“/opt/cloud”路径下。登录OBS管理控制台。在左侧导航栏选择“桶列表”，并单击目标桶名称，进入桶对象管理页面。单击目标桶对象名称，进入桶对象详情页面后，下载安装脚本和安装包。通过远程管理工具（如：SecureFX、WinSCP）远程登录目标云服务器。将安装包上传到主机的“/opt/cloud”路径下。

安全云脑 SECMASTER 数据采集

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！