搜索_华为云

mc2融合算子报错 - AI开发平台ModelArts

mc2融合算子报错 Yi-34B、Qwen1.5系列、GLM4-9B模型执行lora微调策略任务时产生mc2融合算子错误。图1 mc2融合算子错误解决方法修改代码文件：AscendFactory/scripts_modellink/{model_name}/3_training

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
mc2融合算子报错 - AI开发平台ModelArts

mc2融合算子报错 Yi-34B、Qwen1.5系列、GLM4-9B模型执行lora微调策略任务时产生mc2融合算子错误。图1 mc2融合算子错误解决方法修改代码文件：AscendFactory/scripts_modellink/{model_name}/3_training

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
mc2融合算子报错 - AI开发平台ModelArts

mc2融合算子报错 Yi-34B、Qwen1.5系列、GLM4-9B模型执行lora微调策略任务时产生mc2融合算子错误。图1 mc2融合算子错误解决方法修改代码文件：AscendFactory/scripts_modellink/{model_name}/3_training

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
mc2融合算子报错 - AI开发平台ModelArts

mc2融合算子报错 Yi-34B、Qwen1.5系列、GLM4-9B模型执行lora微调策略任务时产生mc2融合算子错误。图1 mc2融合算子错误解决方法修改代码文件：AscendFactory/scripts_modellink/{model_name}/3_training

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
监控资源 - AI开发平台ModelArts
监控资源 - AI开发平台ModelArts

监控资源用户可以通过资源占用情况窗口查看计算节点的资源使用情况，最多可显示最近三天的数据。在资源占用情况窗口打开时，会定期向后台获取最新的资源使用率数据并刷新。操作一：如果训练作业使用多个计算节点，可以通过实例名称的下拉框切换节点。操作二：单击图例“cpuUsage”、“g

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
ModelArts Standard资源监控概述 - AI开发平台ModelArts

delArts所有监控指标。方式三：通过Grafana查看所有监控指标当AOM的监控模板不能满足用户诉求时，用户可以使用Grafana可视化工具来查看与分析监控指标。Grafana支持灵活而又复杂多样的监控视图和模板，为用户提供基于网页仪表面板的可视化监控效果，使用户更加直观地查看到实时资源使用情况。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
监控安全风险 - AI开发平台ModelArts

监控安全风险 ModelArts支持监控ModelArts在线服务和对应模型负载，执行自动实时监控、告警和通知操作。云监控可以帮助用户更好地了解服务和模型的各项性能指标。详细内容请参见ModelArts支持的监控指标。父主题：安全

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
msprobe梯度监控 - AI开发平台ModelArts

msprobe梯度监控梯度监控工具提供了将模型梯度数据导出的能力。使用梯度监控工具，可以实现对训练过程模型每一层梯度信息进行监控，目前支持两种能力：将模型权重的梯度数据导出。这种功能可以将模型权重的梯度值以统计量的形式采集出来，用以分析问题，例如检测确定性问题，使用训练状态监控工具监控NPU训练过程中的确定性计算问题。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
资源池监控 - AI开发平台ModelArts

于当前系统时间，则使用当前系统时间 durationInMinutes：查询时间的跨度分钟数。取值范围大于0并且大于等于(endTimeInMillis - startTimeInMillis) / (60 * 1000) - 1 当开始时间与结束时间都设置为-1时，系统会将结

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询服务监控信息 - AI开发平台ModelArts

查询服务监控信息功能介绍查询服务监控信息。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services/{service_id}/monitor

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
使用Grafana查看AOM中的监控指标 - AI开发平台ModelArts

使用Grafana查看AOM中的监控指标安装配置Grafana 配置Grafana数据源配置仪表盘查看指标数据父主题： ModelArts Standard资源监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_mask

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_mask

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
安装配置Grafana - AI开发平台ModelArts

在Windows上安装配置Grafana 在Linux上安装配置Grafana 在Notebook上安装配置Grafana 父主题：使用Grafana查看AOM中的监控指标

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
在ModelArts控制台查看监控指标 - AI开发平台ModelArts

不一致，请刷新重试。在各模块资源监控页签查看ModelArts监控指标训练作业：用户在运行训练作业时，可以查看多个计算节点的CPU、GPU、NPU资源使用情况。具体请参见训练资源监控章节。在线服务：用户将模型部署为在线服务后，可以通过监控功能查看CPU、内存、GPU等资源使

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
查询服务监控信息 - AI开发平台ModelArts

查询服务监控信息查询当前服务对象监控信息。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式1：根据部署在线服务生成的服务对象进行查询服务监控 1 2 3 4 5 6 7 from

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

使用DCGM监控Lite Server资源场景描述本文主要介绍如何在Lite Server上配置DCGM监控，用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具，提供多种能力，包括主动健康监控、诊断

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
使用CES监控Lite Server资源 - AI开发平台ModelArts

使用CES监控Lite Server资源场景描述 Lite Server的监控能力依赖于CES云监控服务。本文主要介绍如何对接CES云监控服务，对Lite Server上的资源和事件进行监控。监控方案介绍监控概述请参考BMS官方文档。除文档所列支持的镜像之外，目前还支持Ubuntu20

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

Cluster监控指标 Prometheus是一款开源监控工具，ModelArts支持Exporter功能，方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。本章节主要介绍如何通过Prometheus查看Lite Cluster监控指标。约束限制

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源

总条数： 696

上一页
1
2
3
4
5
...
35
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

mc2融合算子报错 - AI开发平台ModelArts

mc2融合算子报错 - AI开发平台ModelArts

mc2融合算子报错 - AI开发平台ModelArts

mc2融合算子报错 - AI开发平台ModelArts

监控资源 - AI开发平台ModelArts

ModelArts Standard资源监控概述 - AI开发平台ModelArts

监控安全风险 - AI开发平台ModelArts

msprobe梯度监控 - AI开发平台ModelArts

资源池监控 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

使用Grafana查看AOM中的监控指标 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

安装配置Grafana - AI开发平台ModelArts

在ModelArts控制台查看监控指标 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线