华为云用户手册

AI开发平台MODELARTS-授权修复Lite Server超节点:场景描述

场景描述当Lite Server实例由于不可恢复故障需要进行硬件维护时，会推送计划事件到控制台的事件中心。您可以在计划事件中，查看具体的实例信息、事件类型、事件状态、事件描述等信息，可以授权计划事件发起超节点维护或超节点重部署。超节点是指昇腾Snt9b23资源。超节点维护是授权华为技术支持对故障节点通过人工修理、更换器件等方式恢复故障节点。节点重部署是授权华为运维系统通过自动更换节点的方式恢复故障节点，恢复后的节点除物理设备信息发生变化外，节点名称、节点ID、IP地址等信息与原节点保持一致。

AI开发平台MODELARTS
AI开发平台MODELARTS-开启超节点HCCL通信算子级重执行机制:原理说明

原理说明 Snt9B23超节点的连接系统主要包含HC CS 平面和RoH/RoCE平面两个数据传输平面。在HCCS平面中，L1-1520与L2-1520之间采用光互联技术；在RoH/RoCE平面，超出NPU范围的部分均使用光互联。由于电互联域的故障率相对较低，本机制主要针对光互联域的光模块故障进行处理。具体而言： HCCS平面L1-1520和L2-1520之间的光模块故障。 RoH/RoCE平面出Snt9B23超节点的光模块故障。 HCCS平面针对HCCS平面，L1和L2之间的光模块如果发生闪断或断链，1520设备将自动完成路径切换（前提是存在多路径）。然而，断链可能导致丢包，进而引发业务中断。此时，框架层将回退至上一个checkpoint进行断点续训。通过引入HCCL重执行机制，在1520完成路径切换后，重执行功能可有效降低回退至checkpoint进行断点续训的概率，从而进一步提升业务的连续性和可靠性。 RoH/RoCE平面针对RoH/RoCE平面，协议内置传输层重传机制，可对丢包或闪断提供一定的修复能力。然而，该机制的可靠性仍存在局限性。为提升整体可靠性，本功能在HCCL层面引入了一层重执行机制：当检测到闪断持续超过30秒或发生断链时，系统将通过建立新的传输路径（借轨），在算子级启动重执行流程，进一步保障业务的稳定运行。

AI开发平台MODELARTS
AI开发平台MODELARTS-开启超节点HCCL通信算子级重执行机制:参数配置（HCCL_OP_RETRY_PARAMS）

参数配置（HCCL_OP_RETRY_PA RAM S）环境变量HCCL_OP_RETRY_ENABLE用于配置HCCL算子重执行的具体参数，包括最大重执行次数、第一次重执行的等待时间以及两次重执行的间隔时间。配置示例： export HCCL_OP_RETRY_PARAMS="MaxCnt:3, HoldTime:5000, IntervalTime:1000" 表3 参数说明参数含义类型取值范围默认值单位建议值 MaxCnt 最大重执行次数 uint32 [1, 10] 3 次保持默认值3 HoldTime 从检测到通信算子执行失败到开始第一次重执行的等待时间 uint32 [0, 60000] 5000 ms 保持默认值5000 IntervalTime 两次重执行之间的间隔时间 uint32 [0, 60000] 1000 ms 保持默认值1000 使用约束：仅当通过HCCL_OP_RETRY_ENABLE环境变量开启了HCCL的重执行特性（任一层级的重执行特性开启即可）时，此环境变量才生效。

AI开发平台MODELARTS
AI开发平台MODELARTS-开启超节点HCCL通信算子级重执行机制:参数配置（HCCL_OP_RETRY_ENABLE）

参数配置（HCCL_OP_RETRY_ENABLE）环境变量HCCL_OP_RETRY_ENABLE用于配置是否开启HCCL算子的重执行特性。重执行是指当通信算子执行报SDMA或RDMA CQE类型的错误时，HCCL会尝试重新执行此通信算子。通过此特性，可以有效避免硬件闪断导致的通信中断，提升通信稳定性。支持在以下三个物理层级的通信域中配置重执行特性： L0：Server内通信域 L1：Server间通信域 L2：超节点间通信域配置方法：在运行训练任务前，在Server节点中执行以下命令。 export HCCL_OP_RETRY_ENABLE="L0:0, L1:1, L2:1" 表2 参数说明参数含义取值范围默认值建议取值 L0 Server内通信域 0：Server内通信域的通信任务不开启重执行。 1：Server内通信域的通信任务开启重执行。 0 0 L1 Server间通信域 0：Server间通信域的通信任务不开启重执行，默认值为0。 1：Server间通信域的通信任务开启重执行。 0 1 L2 超节点间通信域 0：超节点间通信域的通信任务不开启重执行，默认值为0。 1：超节点间通信域的通信任务开启重执行。 0 1 注意事项：当L2配置为1时，超节点间通信支持在某一Device网卡故障时使用备用Device网卡进行通信。备用网卡为同一NPU中的另一个Die网卡。如果通信域的创建方式为“基于ranktable”创建通信域，需要在ranktable文件中通过"backup device ip"参数配置备用网卡。如果通信域的创建方式为“基于root广播式”创建通信域，会自动将同一NPU下的两个Die互为备用网卡，无需手动配置。

AI开发平台MODELARTS
AI开发平台MODELARTS-开启超节点HCCL通信算子级重执行机制:场景描述

场景描述针对Snt9B23超节点下光模块故障率高的问题，通过在HCCL通信算子级引入重执行机制，提升系统的稳定性和可靠性。 HCCL（Huawei Collective Communication Library，华为集合通信库）是华为专为昇腾（Ascend）AI处理器设计的分布式通信库，旨在优化多设备（如NPU/GPU）间的高效协作，以加速深度学习模型的分布式训练，适用于需要大规模算力的AI场景。在分布式训练中，HCCL负责协调多个昇腾处理器之间的数据同步（如梯度聚合、参数更新），减少通信开销，提升训练效率。

AI开发平台MODELARTS
AI开发平台MODELARTS-开启超节点HCCL通信算子级重执行机制:约束限制

约束限制仅Snt9B23超节点支持。开启算子重执行会对性能带来轻微的影响。重执行依赖VPC平面（非参数面）网络进行通信域内状态协商，如果VPC平面不同，则无法重执行。对于HCCS平面，如果链路没有恢复，路由未收敛，则无法重执行。重执行依赖故障发生时一个通信域中所有卡都停在同一通信算子处，否则无法重执行，成功率约为95%。使用inplace方式的通信算子可能导致UserIn数据被污染，从而影响重执行的可靠性。尽管重执行支持约80%通信算子的inplace方式，但对于Torch框架中的all_reduce、all_gather和reduce_scatter等算子，重执行仍不支持其inplace操作。 RoH/RoCE平面因为闪断或断链触发的借轨，在同一通信域只允许执行一次，且不支持回切。借轨状态下，业务可持续，但应尽快保存checkpoint，维修故障。对于目前昇腾的执行模式，HCCL重执行的支持范围如下：表1 HCCL重执行的支持范围模式 HCCL通信算子展开方式是否支持单算子 Stars 支持 Ffts+ 支持 Aicpu展开支持通信计算融合(mc2) 不支持图模式全下沉模式，通信算子以展开的tasks合入图不支持全下沉模式，HCCL不参与图执行过程，无法进行重执行 Aicpu展开支持

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server超节点定期压测:故障诊断九：P2P压测

故障诊断九：P2P压测测试指定源头Device到目标Device的HCCS通信链路是否存在硬件故障，并输出测试结果。表21 P2P压测必要参数说明参数说明是否必填 [-s, --stress] 使用该参数进行压力测试，当前支持指定的压力测试有以下几种：片上内存压测、Aicore压测、P2P压测、功耗压测。当items参数指定bandwidth时，支持与-s参数一起使用，表示进行P2P压测。是 [-t, --type] 指测试数据流向的分类。当item参数指定为bandwidth时，且传入-s参数时，此参数才会生效，表示执行p2p压测。当前仅支持带宽类型为p2p的指定。 p2p：测试指定源头Device到目标Device的传输速率和总耗时。是 # 使用示例，P2P压测 ascend-dmi -dg -i bandwidth --type p2p -s 图16 P2P压测示例回显参数说明： PASS：压力测试通过，结果无异常。 SKIP：当前设备不支持P2P压测。 EMERGENCY_WARN：紧急警告，压测结果为不通过，建议联系华为工程师更换硬件。 FAIL：p2p压测执行失败，请联系华为工程师处理。

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server超节点定期压测:故障诊断十：功耗压测

故障诊断十：功耗压测进行EDP/TDP功耗压力测试，并输出诊断结果。 # 使用示例，功耗压测 ascend-dmi -dg -i edp -s -st 60-q ascend-dmi -dg -i tdp -s -st 60-q 图17 功耗压测示例（TDP）图18 功耗压测示例（EDP）回显参数说明： PASS：功耗压力测试结果无异常。 SKIP：当前设备不支持功耗压测。 IMPORTANT_WARN：压测过程中产生芯片告警，请根据描述建议处理。如果仍无法解决，请联系华为工程师处理。 FAIL：功耗压测功能执行失败，请联系华为工程师处理。

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server超节点定期压测:故障诊断二：SignalQuality诊断

故障诊断二：SignalQuality诊断对信号质量进行诊断，并输出诊断结果。 # 使用示例，SignalQuality诊断 ascend-dmi -dg -i signalQuality -q 图9 SignalQuality诊断示例回显参数说明如下： PASS：检测通过，NPU上HCCS和RoCE通信端口的信号质量正常。 SKIP：当前设备不支持眼图诊断。 IMPORTANT_WARN：重要警告。HCCS和RoCE（其中的一项或多项）信号质量有异常，请联系华为工程师处理。 FAIL：眼图检测执行失败。

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server超节点定期压测:故障诊断三：片上内存诊断

故障诊断三：片上内存诊断对高带宽内存进行诊断，并输出诊断结果。 # 使用示例，片上内存诊断 ascend-dmi -dg -i hbm 图10 片上内存诊断示例表19 片上诊断回显参数说明回显状态含义 PASS 片上内存检测通过，无异常。 SKIP 当前硬件形态不支持片上内存检测。 GENERAL_WARN 历史多比特存在隔离页，告警NPU芯片健康管理故障码为0x80E18401，可以继续使用。 IMPORTANT_WARN 当前实时隔离页数与已隔离页数存在差异，必须进行重启，复位npu芯片。 EMERGENCY_WARN 历史多比特隔离页数及设备隔离行过多，告警NPU芯片健康管理故障码为0x80E18402，建议更换备件。相同Stack及PC内的隔离行处于不同Bank的数量 ≥ 4，当前设备运行存在高风险，建议更换备件。相同Stack、相同Sid及不同PC内的隔离行 ≥ 4，当前设备运行存在高风险，建议更换备件。相同Stack、Sid、PC及Bank内的隔离行＞16，当前设备运行存在高风险，建议更换备件。相同Stack、Sid、PC及Bank内，排除4bit及以内相邻的错误地址，其他不同地址的数量＞ 5，当前设备运行存在高风险，建议更换备件。 FAIL 片上内存检测失败，请联系华为工程师处理

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server超节点定期压测:故障诊断六：AiCore诊断

故障诊断六：AiCore诊断对AICore ERROR进行诊断，并输出诊断结果。 # 使用示例，AiCore诊断 ascend-dmi -dg -i aicore -q 图13 AiCore诊断示例回显参数说明： PASS：诊断结果无异常。 SKIP：执行诊断的用户为非root用户；当前设备不支持aicore诊断。 EMERGENCY_WARN：紧急警告，建议更换硬件。 FAIL：Aicore诊断失败，请联系华为工程师处理。

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server超节点定期压测:故障诊断五：片上内存高危地址压测

故障诊断五：片上内存高危地址压测对高带宽内存高危地址进行压力测试，并输出诊断结果。表20 片上内存高危地址压测必要参数说明参数说明是否必填 [-s, --stress] 使用该参数进行压力测试，当前支持指定的压力测试有以下几种：片上内存压测、Aicore压测、P2P压测、功耗压测。是 [-qs, --qs, --quick stress] 指定高带宽内存高危地址快速压测的范围。该参数取值范围为[0，100]。参数推荐值：100。取值为0时，默认对所有高带宽内存地址进行快速压测。需要在包含hbm诊断检查项的场景下，与[-s, --stress]配合使用，不能和[-st, --st, --stress-time]、[--sc, --stress-count]同时使用。是 # 使用示例，片上内存高危地址压测 ascend-dmi -dg -i hbm -s -qs 60-q 图12 片上内存高危地址压测示例回显参数说明： PASS：高带宽内存高危地址快速压测通过，无新增隔离页数。 SKIP：当前设备不支持片上内存高危地址压测。 FAIL：高带宽内存高危地址快速压测失败，有新增隔离页数。

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server超节点定期压测:性能测试六：软硬件版本兼容性测试

性能测试六：软硬件版本兼容性测试软硬件兼容性工具会获取硬件信息、架构、驱动版本、固件版本以及版本软件。软硬件兼容性测试的可用参数说明见表16。 ascend-dmi -c -h 表16 软硬件版本兼容性测试说明参数说明是否必填 [-c, --compatible] 使用该参数进行软硬件版本兼容性检测。如果已安装驱动22.0.0或CANN 6.2.RC1及其以后的版本，执行“-c”参数时，会对NPU固件和驱动、驱动和CANN进行兼容性检测。如果驱动为22.0.0之前的版本且CANN为6.2.RC1之前的版本，执行“-c”参数时，会检测对应的驱动、固件和软件包是否安装。是 [-p, --path] 用户指定检测兼容性的CANN软件包的安装路径，如果不指定，将根据默认安装路径进行测试。指定软件包安装路径的命令示例： ascend-dmi -c -p /home/xxx/Ascend 否软硬件版本兼容性测试使用示例如下： ascend-dmi -c 图7 软硬件版本兼容性测试示例表17 软硬件版本兼容性测试回显参数说明参数说明 System Information 系统信息 Architecture 架构 Type 标卡型号/芯片型号 Compatibility Check Result 兼容性检测结果 Package 包名 Version 版本 Status 状态，会返回如下状态： OK：兼容 INCOMPATIBLE PACKAGE：不兼容 NA：未知状态，可能是获取软件版本失败导致说明非root用户不支持固件兼容性查询，npu-firmware状态会显示为NA。 Innerversion 内部版本号 Dependencies 依赖

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server超节点定期压测:故障诊断

故障诊断查看故障诊断命令可用参数。 ascend-dmi --dg -h 表18 故障诊断参数说明参数说明是否必填 [-dg, --dg, --diagnosis] 使用该参数进行整卡的故障诊断测试。是 [-i, --items] 指定具体的诊断检查项。可指定driver、cann、device、network、bandwidth、aiflops、hbm、signalQuality中的一项或多项，多项时各项之间使用“,”分隔。不传入此参数，则默认执行除aicore和prbs外其他检查项的诊断。否 [-d, --device] 指定需要进行诊断测试的Device ID，Device ID是指昇腾芯片的逻辑ID。可指定一个或多个Device ID，多个时各项之间使用“,”分隔。如果不填写Device ID则默认返回所有Device的诊断结果。否 [-r, --result] 指定压测结果和信息采集结果的保存路径，如：/test。指定的路径需符合安全要求，且不支持包含通配符“*”。如果用户指定结果保存路径，则在指定路径创建ascend_check文件夹，root用户指定的路径，将创建在根目录下，非root用户则创建在其$HOME下；如果不指定路径，则保存在默认路径下，root用户：“/var/log/ascend_check”，非root用户：“$HOME/var/log/ascend_check”。否 [-s, --stress] 使用该参数进行压力测试，当前支持指定的压力测试有以下几种：片上内存压测、Aicore压测、P2P压测、功耗压测。在包含片上内存和功耗的场景下，支持与-st参数一起使用，执行压测的时间以--st指定的时间为准。在包含Aicore检查项的场景下，支持与-sc参数一起使用，执行压测的次数以--sc指定的次数为准。当items参数指定bandwidth时，支持与-t参数一起使用，表示进行P2P压测。否 [-st, --st, --stress-time] 指定EDP、TDP压力测试的时间。取值范围是[60，604800]，单位为秒。需要在包含EDP、TDP压测检查项的场景下，与[-s, --stress]配合使用。需要在包含片上内存诊断检查项的场景下，与[-s, --stress]配合使用。否 [-fmt, --fmt, --format] 指定输出格式，可以为normal或json。如果未指定则默认为normal。当[-fmt, --fmt, --format]后检查项指定json格式输出时，会进行压测结果保存，结果保存在“ascend_check/environment_check_before.txt”文件中，不指定json格式输出时，不保存故障诊断结果。否 [-h, --help] 查看故障诊断命令的可用参数。否

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server超节点定期压测:性能测试五：码流测试

性能测试五：码流测试码流测试主要包含一键式打流和自定义打流。表12 码流测试介绍测试项名称支持的打流方式使用方法一键式打流 CDR环回打流、光模块外接光纤回路器（自环器）打流执行一键式打流命令，Ascend DMI工具将自动完成发送及接收指定device所有lane的码流，一段时间后关闭码流并查询结果。自定义打流 CDR环回打流、光模块外接光纤回路器（自环器）打流、NPU直连打流自定义打流是将一键式打流中的各步骤独立出来，用户可灵活控制打流的TX、RX方向开关和指定打流的具体lane。打流方式主要有以下三种： CDR环回打流：是指单个Device同时发送和接收，可用于检查从NPU的物理serdes端口到CDR单元的信号质量。在打流前请确保光模块在位，然后执行如下命令配置或解除CDR回环。配置CDR回环，t依次取值3和0，一次执行如下命令，其中i表示NPU卡id： hccn_tool -i 0 -scdr -t 3 hccn_tool -i 0 -scdr -t 0 解除CDR回环，t依次取值2和1：一次执行如下命令，其中i表示NPU卡id： hccn_tool -i 0 -scdr -t 2 hccn_tool -i 0 -scdr -t 1 光模块外接光纤回路器（自环器）打流：单个Device同时发送和接收，可用于检查NPU的物理serdes端口到光模块的信号质量，不需要设置环回。 NPU直连打流：NPU A的Serdes端口开启TX方向打流后，数据流通过被测链路到达NPU B的Serdes端口，NPU B的RX方向按照码型比对，统计接收到的数据统计误码情况，可检查两个NPU之间链路的信号质量（仅支持自定义打流）。码流测试的可用参数，参数说明见表13。 ascend-dmi --prbs-check -h 表13 码流测试参数说明参数说明是否必填 [-pc, --pc, --prbs-check] 使用该参数进行prbs码流测试。是 [-d, --device] 指定需要进行码流测试的Device ID。 Device ID是指昇腾AI处理器的逻辑ID，如果不填写则测试全量昇腾NPU芯片的码流。可同时指定多个Device ID，多个之间用逗号隔开。否 [-dur, --dur, --duration] 指定码流测试的时长。参数取值范围为[3，10]，单位为秒。不指定该参数时，默认值为3。否 [--prbs-mode] 是否切换打流状态。 --取值为EN（Enable）：开启。 --取值为DS（Disable）：关闭。取值支持大小写。指定--prbs-mode为EN或DS时，信号发送端和信号接收端两个方向均会生效，无论是否指定--generator-pattern,--generator-lanes,--checker-pattern,--checker-lanes参数。指定--prbs-mode为EN时，支持指定-generator-pattern、--checker-pattern、--generator-lanes、--checker-lanes。指定--prbs-mode为DS时，停止打流。不支持指定-generator-pattern、--checker-pattern、--generator-lanes、--checker-lanes。本参数不支持与--show参数或--clear参数同时指定。是 [--generator-pattern] 指定发送端的码流类型。当前支持测试的码流类型为：prbs7、prbs9、prbs10、prbs11、prbs15、prbs20、prbs23、prbs31。不指定该参数时，默认值为prbs31。指定码型时大小写均可生效，例如prbs7也可以写为PRBS7。本参数不支持与--show参数或--clear参数同时指定。否 [--generator-lanes] 指定发送端的lane。可同时指定1个或多个lane，多个之间用逗号分开。指定多个lane时必须连续指定，如0,1,2或2,1,3，不支持非连续指定。如果不指定，则默认测试所有lanes。本参数不支持与--show参数或--clear参数同时指定。可取值为0、1、2、3。否 [--checker-pattern] 指定接受端的码流类型。当前支持校验的码流类型为：prbs7、prbs9、prbs10、prbs11、prbs15、prbs20、prbs23、prbs31。不指定该参数时，默认值为prbs31。指定码型时大小写均可生效，例如prbs7也可以写为PRBS7。本参数不支持与--show参数或--clear参数同时指定。否 [--checker-lanes] 指定接收端的lane。可同时指定1个或多个lane，多个之间用逗号分开。指定多个lane时必须连续指定，如0,1,2或2,1,3，不支持非连续指定。如果不指定，则默认测试所有lanes。本参数不支持与--show参数或--clear参数同时指定。可取值为0、1、2、3。否 [-show, --show, --show-diagnostic-info] 展示码流测试的结果。本参数不支持与以下参数同时指定：--clear、--prbs-mode、--generator-pattern、--generator-lanes、--checker-pattern、--checker-lanes。展示信息后当前码流测试的结果即会被清空。否 [-clear, --clear, --clear-diagnostic-info] 清空码流测试的结果信息。本参数不支持与以下参数同时指定：--show、--prbs-mode、--generator-pattern、--generator-lanes、--checker-pattern、--checker-lanes。支持除以上参数外的其余参数同时指定。否一键式打流使用示例如下： ascend-dmi -pc -d 9--pattern prbs15 -dur 5 图5 一键式打流示例表14 一键式打流回显参数说明参数说明 device 表示NPU的逻辑ID。 lane 表示RoCE链路的lane通道ID。 error count 误码数，最大值为67092480，表示满误码。 error rate 误码率，当误码率小于10-5为信号质量正常。 alos 值为0表示正常；值为1通常表示输入信号幅度过低。 times 表示打流时长。自定义打流使用示例如下： # 开启Device8和Device9码流测试 ascend-dmi -pc --clear --device 8,9-q # Device8和Device9，发送端为lane0和lane1，码型为prbs20；接收端为lane2和lane3，码型为prbs23 ascend-dmi -pc --prbs-mode EN -q --device 8,9--generator-pattern prbs20 --generator-lanes 0,1--checker-pattern prbs23 --checker-lanes 2,3 # 展示Device8和Device9码流测试结果 ascend-dmi -pc --show-diagnostic-info -d 8,9-q # 关闭Device8和Device9上的打流 ascend-dmi -pc --prbs-mode DS -d 8,9-q # 清空Device8和Device9上的打流结果 ascend-dmi -pc --clear-diagnostic-info -d 8,9-q 图6 自定义打流示例表15 自定义打流回显参数说明参数说明 Lane 对应RoCE链路的lane id。 Check Enable 接收端的check状态。0：关闭，1：开启 Pattern RX方向check的码型。 Error-Bits 误码数，上限为67092480（满误码）。 Bit-Error Rate（BER）误码率，误码数÷总传输bit数×100%。 ALOS 正常打流时需要为0，为1通常表示信号幅度过低；未打流时无意义无需关注。 Period 距离上一次操作控制打流/读取check结果的时间。

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server超节点定期压测:性能测试四：眼图测试

性能测试四：眼图测试用户使用眼图测试功能对网络进行测试，查询当前信号质量。本功能主要用于查询信号质量的具体数据。判断当前端口信号质量是否正常，请执行signalQuality诊断。在同一NPU内，如果已配置CDR回环，请在解除回环后再执行眼图测试。眼图测试的可用参数说明见表9。 ascend-dmi --sq -h 表9 眼图测试参数说明参数说明是否必填 [-sq, --sq, --signal-quality] 查询NPU上的PCIe、HCCS和RoCE通信端口的信号质量。是 [-d, --device] 指定查询的Device ID。指定多个芯片时，使用英文逗号进行分隔。不指定该参数时，默认查询该设备上所有的NPU。否 [-t --type] 指定通信端口的类型。当前支持HCCS和RoCE，指定多个通信端口的类型时，使用英文逗号进行分隔。如果不指定则将查询RoCE的信号质量。否使用示例，查看Device0和Device1的HCCS、RoCE信号质量。图4 眼图测试示例表10 HCCS信号质量回显参数说明参数说明 type 指定通信端口的类型。 device NPU的逻辑ID。 M*（macro port）表示macro端口，例如M0、M1分别表示macro的0号、1号端口。 L*（LANE）表示HCCS链路中的第几条lane，例如L0、L1分别表示第0条和第1条lane。 S（SNR）表示lane的信噪比。 H（HEH）表示lane的半眼高。表11 RoCE信号质量回显参数说明参数说明 type 指定通信端口的类型。 device 表示NPU的逻辑ID。 M*（macro port）表示macro端口，例如M0分别表示maco端口0。 S（SNR）表示lane的信噪比。 H（HEH）表示lane的半眼高。 L*（LANE）表示RoCE链路中的第几条lane，例如L0、L1分别表示第0条和第1条lane。

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server超节点定期压测:性能测试三：功耗测试

性能测试三：功耗测试功耗测试是通过运行单算子模型来检测整卡的功耗信息。功耗测试的可用参数说明见表7。 ascend-dmi -p -h 表7 功耗测试参数说明参数说明是否必填 [-p, --power] 使用该参数进行整卡的功耗测试。是 [-t, --type] 指定算子运算类型，可以为fp16或int8，如果未指定则默认为fp16。否 [-pt, --pt, --pressure-type] 使用该参数指定压力测试的类型。当前支持指定以下2种类型： edp（Estimated Design Power）：EDP功耗压力测试。 tdp（Thermal Design Power）：TDP功耗压力测试。支持和--dur、--it、--pm、-q参数一起使用。不支持和-t参数一起使用。不指定该参数时默认进行整卡的功耗测试。否 [-dur, --dur, --duration] 指运行时间，如果不填写运行时间则默认为600。单位为秒，取值范围为[60，604800]。否 [-it, --it, --interval-times] 指屏幕信息打印刷新的间隔时间，如果不填写间隔时间则默认为5。单位为秒，取值范围为[1, 5]。否 [--skip-check] 传入此参数时会跳过设备健康状态检查。不传入此参数，默认会进行设备健康状态检查。否 [-pm, --pm, --print-mode] 屏幕输出的打印模式，如果不填写打印模式则默认为refresh。打印模式： refresh：每次打印清除历史打印信息。 history：打印保存历史信息。说明 refresh模式下，当芯片数量较多时，建议调小字体使得所有结果都在一个屏幕中，否则可能会显示异常，重复打印部分内容。否使用示例，以执行时间为60s，信息的打印间隔信息为5s，屏幕的输出模式为清除历史记录为例。 ascend-dmi -p --dur 60--it 5--pm refresh 图3 功耗测试示例表8 功耗测试回显参数说明参数说明 Type 标卡型号 Card 卡ID号 Chip 处理器编号 Name 处理器名称 Type 处理器型号 Chip Name 处理器名称 NPU Count NPU的个数 Power 当前整卡或芯片的实际功耗 Health 处理器健康程度 Temperature 处理器当前温度 Device ID 处理器设备逻辑号 AI Core Usage 处理器AI Core的使用率 Voltage 处理器当前电压 Frequency 处理器当前频率

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server超节点定期压测:约束限制

约束限制仅支持超节点Snt9B23。压测使用工具Ascend DMI，其不支持在同一个设备里同时开启多个进程来测试性能数据，多进程测试时，可能导致测试结果不准确或者失败等不可预测情况。性能测试和故障诊断会影响训练或推理业务，执行命令前请确保无业务运行。为保证返回检测结果的正确性和准确性，请单独执行各个检测命令。 Ascend DMI工具只能对在位的NPU卡进行检查，为保证测试结果的准确性，请先执行npu-smi info命令检查NPU卡是否正常在位。

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server超节点定期压测:性能测试一：带宽测试

性能测试一：带宽测试带宽测试主要用于测试总线带宽、内存带宽和总耗时。带宽测试命令的可用参数说明见表3。 ascend-dmi --bw -h 表3 带宽测试参数说明参数说明是否必填 [-bw, --bw, --bandwidth] 使用该参数测试芯片的带宽。支持-bw，但建议使用--bw或--bandwidth。是 [-t, --type] 指测试数据流向的分类。当使用带宽测试功能时，测试的数据流可以分为以下方向，如果不填写数据流方向则默认返回h2d、d2h、d2d。三个方向的带宽和总耗时。 h2d：指数据从Host侧内存通过PCIe总线搬移到Device侧内存，测试整体带宽及总耗时。 d2h：指数据从Device侧内存通过PCIe总线搬移到Host侧内存，测试整体带宽及总耗时。 d2d：指数据从Device侧内存搬移到同一Device侧内存（主要是用于测试Device侧的内存带宽），测试整体带宽及总耗时。 p2p：测试指定源头Device到目标Device的传输速率和总耗时。否 [-s, --size] 指传输数据大小并指定测试结果显示方式。超节点系列产品：d2h/h2d/p2p这3种模式下，最大传输数值为1Byte~4G。指定-s参数后面必须填写数值指定传输数据的大小，不填写属于错误写法。在h2d、d2h、d2d以及p2p且指定-ds和-dd场景：指定-s为定长模式；不指定-s为步长模式，传输数据的默认取值范围为2Byte~32M。否 [-et, --et, --execute-times] 指迭代次数，即内存复制次数。取值范围为[1, 1000]，如果不填写，步长模式下复制次数则默认为5，定长模式下复制次数则默认为40。否 [-d, --device] 指定需要测试带宽的Device ID，Device ID是指昇腾AI处理器的逻辑ID，如果不填写Device ID则默认返回Device 0带宽信息。否 [-ds, --ds, --device-src] 指定p2p测试的源头Device的ID号。必须与[-dd, --dd, --device-dst]参数成对指定；如果与[-dd, --dd, --device-dst]参数同时不指定时，测试全量的昇腾NPU芯片。否 [-dd, --dd, --device-dst] 指定p2p测试的目标Device的ID号。必须与[-ds, --ds, --device-src]参数成对指定；如果与[-ds, --ds, --device-src]参数同时不指定时，测试全量的昇腾NPU芯片。否 [-fmt, --fmt, --format] 指定输出格式，可以为normal或json。如果未指定则默认为normal。否 [-q, --quiet] 指定该参数时，将不再进行防呆提示，用户将默认允许该操作。否使用示例，以测试数据从Device侧传输到同一Device侧的带宽与总耗时为例。 ascend-dmi --bw -t d2d -d 0 图1 带宽测试示例表4 带宽测试回显参数说明参数说明 Host to Device Test 带宽数据流方向。有以下显示可能： Host to Device Test Device to Host Test Device to Device Test Unidirectional Peer to Peer Test Bidirectional Peer to Peer Test Device X : Ascend XXX Device X为当前测试的设备ID，Ascend XXX为处理器类型。0表示源头设备，1表示目标设备。 ID 0→1表示测试Device 0到Device 1的单向P2P带宽。 0↔1表示测试Device 0和Device 1的双向p2p带宽。 Size(Bytes) 传输数据大小，单位为字节。 Execute Times 迭代次数。 Bandwidth(GB/s) 芯片的带宽。 Elapsed Time(us) 总执行时长。

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server超节点定期压测:性能测试二：算力测试

性能测试二：算力测试算力测试通过构造矩阵乘"A(m,k)*B(k,n)"并执行一定次数的方式，根据运算量与执行多次矩阵乘所耗时间来计算整卡或处理器中AI Core的算力值和满算力下实时的功率。算力测试的可用参数说明见表5。表5 算力测试参数说明参数说明是否必填 [-f, --flops] 使用该参数测试整卡或芯片的算力。是 [-t, --type] 指定算子运算类型，可以为fp16、fp32、hf32、bf16和int8，如果未指定则默认为fp16。否 [-d, --device] 指定Device ID，执行该Device ID所在整卡的算力测试，Device ID是指昇腾芯片的逻辑ID，如果不填写Device ID则默认返回Device 0的算力信息。否 [-et, --et, --execute-times] 指定芯片单个AI Core上运行矩阵乘法的执行次数。训练场景：如果不填写执行次数则默认为60。训练场景单位为十万，参数范围为[10，80]。推理场景：如果不填写执行次数则默认为10。推理场景单位为百万，参数范围为[10，80]。否使用示例，在Device 7上，执行算子运算类型为int8，执行次数为600万的算力。 ascend-dmi -f -t int8 -d 7 -et 60-q 图2 算力测试示例表6 算力测试回显参数说明参数说明 Device Device ID。 Execute Times 为单个AI Core执行矩阵乘的次数乘以AI Core的个数计算所得。 Duration(ms) 执行多次矩阵乘所耗费的时间。 TFLOPS@FP16 进行算力测试得到的算力值。FP16为指定的算子运行类型。 Power(W) 满算力下的实时功率。

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server节点一键式压测:约束限制

约束限制当前仅支持Ascend Snt9B节点。创建任务的节点需要安装NodeTaskHub插件，请在创建任务前确保插件安装完毕，具体参见管理Lite Server AI插件。同一时间节点上最多同时支持一个压测任务，任务开始后无法中断，请您规划好任务优先级。请确保待压测节点无业务运行，压测过程中的命令执行可能导致当前业务中断或异常。执行压测前需安装Ascend HDK23.0.0及以后的版本的MCU、驱动和固件，预置操作系统已经默认安装，如果是自定义操作系统，也需确保该软件正常安装。压测任务依赖开发套件包Ascend-docker-runtime，预置操作系统已经默认安装该软件，如果是自定义操作系统，也需确保该软件正常安装。

AI开发平台MODELARTS
AI开发平台MODELARTS-使用CES监控Snt9B23超节点健康状况:操作步骤

操作步骤登录 CES 控制台。创建告警规则模板。图1 创建告警规则模板表1 参数说明属性建议值名称建议以故障等级命名，例如，超节点亚健康。告警类型事件触发规则选择“自定义创建”。其它参数建议如下：事件名称：参考Lite Server支持的事件列表，根据事件影响选择需要关注的事件。告警策略：在5分钟内累计发生4次则只告警一次。注意，不合理的配置可能导致告警过多或响应过慢。告警级别：重要创建告警规则。图2 创建告警规则（类型）图3 创建告警规则（策略）图4 创建告警规则（发送通知）图5 创建告警规则（高级配置）表2 告警规则参数说明属性建议值名称建议采用“超节点名称_故障等级”格式，例如“SuperPod_01_亚健康”。告警类型事件事件类型系统事件事件来源弹性云服务器监控范围指定资源监控对象超节点内所有子节点。单击选择指定资源，搜索超节点名称，勾选所有，单击“确定”。图6 选择指定资源触发规则自定义创建。告警策略勾选引用模板，在下拉列表框中选择第2.创建告警规则模板。步创建的告警模板。发送通知可选，如果希望以短信、邮件、HTTP、HTTPS等方式收到告警通知，打开此开关。注意：消息通知服务会从短信、邮件、HTTP、HTTPS的使用中收费，具体价格请参考产品价格说明。通知对象可选，当允许发送通知时，才会有此选项。建议创建新主题。图7 设置通知对象生效时间可选，当允许发送通知时，才会有此选项。建议采用默认值。触发条件可选，当允许发送通知时，才会有此选项。建议采用默认值。归属企业项目根据实际情况选择。创建主题（可选）图8 创建主题表3 创建主题参数说明属性建议值主题名称建议为显示名的英文。例如，SuperPod-Sub-Health。显示名推送邮件消息时，邮件主题呈现的名称，建议显示故障级别。例如，超节点亚健康。企业项目根据实际情况选择。添加订阅（可选）。创建主题后就可以添加订阅，以收到告警通知。添加订阅后，终端会收到确认订阅的消息通知，单击订阅确认后，才能收到告警通知。图9 添加订阅

AI开发平台MODELARTS
AI开发平台MODELARTS-升级Lite Server中的昇腾驱动固件版本:约束限制

约束限制当前仅支持Ascend Snt9B节点。升级驱动固件过程中会导致业务中断，升级前请保证节点内无业务运行，同时升级完毕后需要重启节点生效。驱动固件升级过程中会同步升级节点内的MCU的配套版本。如果节点内驱动固件版本为官方维护版本，升级失败支持回滚至节点内驱动固件原始版本，如果节点内驱动固件损坏，或者节点内驱动固件版本为非官方维护版本，会导致查询节点内驱动固件失败，该场景下升级任务仍可下发，但如果升级失败无法回滚，需要联系华为运维工程师处理。驱动固件与昇腾软件包（CANN/MindSpore等）有兼容性关系，请确保升级后的驱动固件版本与业务中使用的昇腾软件包的兼容性，可参考表1确认组件兼容性。表1 组件兼容性 CANN版本配套Ascend HDK版本 CANN 8.0.0 Ascend HDK 24.1.0 Ascend HDK 24.1.RC3 Ascend HDK 24.1.RC2 Ascend HDK 24.1.RC1 Ascend HDK 23.0.0/23.0.X

AI开发平台MODELARTS
AI开发平台MODELARTS-管理Lite Server AI插件:场景描述

场景描述节点任务中枢（NodeTaskHub）是深度集成的弹性节点管理插件，为ModelArts Lite Server节点提供批量任务下发与自动化运维能力。支持昇腾软件升级、实时检测、故障诊断等高频操作，降低人工干预风险，保障AI业务流程稳定高效。 Lite Server任务中心提供多种任务模板供用户创建任务，任务下发依赖Lite Server节点中已安装的NodeTaskHub插件。 LIte Server的部分公共镜像中预置了NodeTaskHub插件，在购买LIte Server时可以选择自动安装该插件。如果未安装，可以参考本文手动安装NodeTaskHub插件。

AI开发平台MODELARTS
AI开发平台MODELARTS-Lite Server节点故障诊断:约束限制

约束限制当前仅支持Ascend Snt9B节点。创建任务的节点需要安装NodeTaskHub插件，请在创建任务前确保插件安装完毕，具体参见管理Lite Server AI插件。同一时间节点上最多同时支持一个诊断任务，任务开始后无法中断，请您规划好任务优先级。请确保待诊断节点无业务运行，诊断过程中的命令执行可能导致当前业务中断或异常。执行诊断前需安装Ascend HDK23.0.0及以后的版本的MCU、驱动和固件，预置操作系统已经默认安装，如果是自定义操作系统，也需确保该软件正常安装。诊断任务依赖开发套件包Ascend-docker-runtime，预置操作系统已经默认安装该软件，如果是自定义操作系统，也需确保该软件正常安装。

AI开发平台MODELARTS
AI开发平台MODELARTS-切换或重置Lite Server服务器操作系统:Python封装API方式切换操作系统

Python封装API方式切换操作系统以下为BMS使用Python语言通过API方式切换操作系统的示例代码。 # -*- coding: UTF-8 -*- import requests import json import time import requests.packages.urllib3.exceptions from urllib3.exceptions import InsecureRequestWarning requests.packages.urllib3.disable_warnings(InsecureRequestWarning) class ServerOperation(object): ################################ IAM 认证API################################################# def __init__(self, account, password, region_name, username=None, project_id=None): """ :param username: if IAM user,here is small user, else big user :param account: account big big user :param password: account :param region_name: """ self.account = account self.username = username self.password = password self.region_name = region_name self.project_id = project_id self.ma_endpoint = "https://modelarts.{}.myhuaweicloud.com".format(region_name) self.service_endpoint = "https://bms.{}.myhuaweicloud.com".format(region_name) self.iam_endpoint = "https://iam.{}.myhuaweicloud.com".format(region_name) self.headers = {"Content-Type": "application/json", "X-Auth-Token": self.get_project_token_by_account(self.iam_endpoint)} def get_project_token_by_account(self, iam_endpoint): body = { "auth": { "identity": { "methods": [ "password" ], "password": { "user": { "name": self.username if self.username else self.account, "password": self.password, "domain": { "name": self.account } } } }, "scope": { "project": { "name": self.region_name } } } } headers = { "Content-Type": "application/json" } import json url = iam_endpoint + "/v3/auth/tokens" response = requests.post(url, headers=headers, data=json.dumps(body), verify=True) token = (response.headers['X-Subject-Token']) return token def change_os(self, server_id): url = "{}/v1/{}/baremetalservers/{}/changeos".format(self.service_endpoint, self.project_id, server_id) print(url) body = { "os-change": { "adminpass": "@Server", "imageid": "40d88eea-6e41-418a-ad6c-c177fe1876b8" } } response = requests.post(url, headers=self.headers, data=json.dumps(body), verify=False) print(json.dumps(response.json(), indent=1)) return response.json() if __name__ == '__main__': # 调用API前置准备，初始化认证鉴权信息 server = ServerOperation(username="xxx", account="xxx", password="xxx", project_id="xxx", region_name="cn-north-4") server.change_os(server_id="0c84bb62-35bd-4e1c-ba08-a3a686bc5097")

AI开发平台MODELARTS
AI开发平台MODELARTS-切换或重置Lite Server服务器操作系统:使用BMS Go SDK的方式切换操作系统

使用BMS Go SDK的方式切换操作系统以下为BMS使用Go语言通过SDK方式切换操作系统的示例代码。 package main import ( "fmt" "os" "github.com/huaweicloud/huaweicloud-sdk-go-v3/core/auth/basic" bms "github.com/huaweicloud/huaweicloud-sdk-go-v3/services/bms/v1" "github.com/huaweicloud/huaweicloud-sdk-go-v3/services/bms/v1/model" region "github.com/huaweicloud/huaweicloud-sdk-go-v3/services/bms/v1/region" ) func main() { // 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全； // 本示例以ak和sk保存在环境变量中来实现身份验证为例，运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 ak := os.Getenv("HUAWEICLOUD_SDK_AK") sk := os.Getenv("HUAWEICLOUD_SDK_SK") auth := basic.NewCredentialsBuilder(). WithAk(ak). WithSk(sk). Build() client := bms.NewBmsClient( bms.BmsClientBuilder(). WithRegion(region.ValueOf("cn-north-4")). WithCredential(auth). Build()) keyname := "KeyPair-name" userdata := "aGVsbG8gd29ybGQsIHdlbGNvbWUgdG8gam9pbiB0aGUgY29uZmVyZW5jZQ==" request := &model.ChangeBaremetalServerOsRequest{ ServerId: "****input your bms instance id****", Body: &model.OsChangeReq{ OsChange: &model.OsChange{ Keyname: &keyname, Imageid: "****input your ims image id****", Metadata: &model.MetadataInstall{ UserData: &userdata, }, }, }, } response, err := client.ChangeBaremetalServerOs(request) if err == nil { fmt.Printf("%+v\n", response) } else { fmt.Println(err) } }

AI开发平台MODELARTS
AI开发平台MODELARTS-切换或重置Lite Server服务器操作系统:在BMS控制台切换操作系统

在BMS控制台切换操作系统获取操作系统镜像。由云服务官方提供给客户操作系统镜像，在IMS 镜像服务的共享镜像处进行接收即可，参考如下图操作。图1 共享镜像切换操作系统。对Lite Server资源对应的裸金属服务器，对其进行关机操作，完成关机后，才可以执行切换操作系统动作。在裸金属服务的更多选项中，单击切换操作系统，如下图所示。图2 切换操作系统在切换操作系统界面，选择上一步接收到的共享镜像即可。

AI开发平台MODELARTS
AI开发平台MODELARTS-切换或重置Lite Server服务器操作系统:操作影响

操作影响重置或切换Lite Server节点操作系统的影响如下：系统盘ID变化：切换或重置操作系统后，EVS系统盘ID会变化，和下单时订单中的EVS ID已经不一致，导致无法进行EVS系统盘扩容操作。系统会提示“当前订单已到期，无法进行扩容操作，请续订”。 userdata配置影响：切换操作系统时，userdata的注入可能不会生效，特别是在configdriver模式下。客户需要确保在创建节点时传入userdata参数，或者在切换后手动配置必要的设置。因此切换或者重置操作系统后，建议通过挂载数据盘EVS或挂载SFS盘等方式进行存储扩容。应用和模型影响：切换操作系统可能影响已部署的应用或模型，因为依赖的软件包或库可能需要重新安装或配置。用户需要重新配置必要的依赖项以确保应用正常运行。裸金属服务器风险：对于裸金属服务器，升级操作系统内核或驱动可能导致不兼容，影响系统启动或基本功能。如果需要升级，请联系云服务商确认。用户在进行切换或重置操作系统操作前，应确保节点处于关机状态，检查当前配置，备份重要数据，并在必要时联系技术支持以确认操作的可行性。

AI开发平台MODELARTS
AI开发平台MODELARTS-查看Lite Server服务器详情

查看Lite Server服务器详情在您创建了Lite Server节点后，可以通过管理控制台查看和管理您的Lite Server服务器。本节介绍如何查看Lite Server节点的详细信息，包括名称/ID、规格、镜像等信息。在轻量算力节点 (Lite Server)的节点列表页中，可以查看Server节点的状态、创建时间、计费模式、实例规格名称、核心硬件配置、私网IP地址和绑定的虚拟私有云名称。图1 查看Server节点单击某个Server节点名称，进入到Server节点详情页，可以查看更多信息，如表1所示。表1 详情页参数说明参数名称说明名称 Lite Server服务器的名称。实例规格 Lite Server服务器的规格。 ID Lite Server服务器的ID，可用于在费用中心查询。计费模式 Lite Server服务器当前的计费模式。状态 Lite Server服务器的运行状态。虚拟私有云 Lite Server服务器创建时绑定的虚拟私有云，单击链接可跳转到虚拟私有云详情页。裸金属服务器 Lite Server服务器为一台裸金属服务器，单击链接可跳转至对应裸金属服务器的详情页。镜像 Lite Server服务器的镜像。创建时间 Lite Server服务器的创建时间。更新时间 Lite Server服务器的更新时间。所属订单 Lite Server服务器对应的订单，单击链接可跳转至费用中心。图2 Lite Server服务器详情父主题： Lite Server资源管理

AI开发平台MODELARTS Lite Server资源管理

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！