搜索_华为云

附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
附录：微调训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
监控资源 - AI开发平台ModelArts
监控资源 - AI开发平台ModelArts

操作三：鼠标悬浮在图片上的时间节点，可查看对应时间节点的占用率情况。表1 参数说明参数说明 cpuUsage cpu使用率。 gpuMemUsage gpu内存使用率。 gpuUtil gpu使用情况。 memUsage 内存使用率。 npuMemUsage npu内存使用率。 npuUtil

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

NA 内存物理内存使用率 ma_node_memory_util 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。百分比（Percent） 0～100% 连续2个周期原始值 > 95% 重要排查是否符合业务资源使用预期，如果业务无问题，无须处理。物理内存容量

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

NA 内存物理内存使用率 ma_node_memory_util 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。百分比（Percent） 0～100% 连续2个周期原始值 > 95% 重要排查是否符合业务资源使用预期，如果业务无问题，无须处理。物理内存容量

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

模型转换报错如何查看日志和定位？通过如下的配置项打开对应的模型转换日志，可以看到更底层的报错。如配置以下的环境变量之后，再重新转换模型，导出对应的日志和dump图进行分析：报错日志中搜到“not support onnx data type”，表示MindSpore暂不支持该算子。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
使用CES监控Lite Server资源 - AI开发平台ModelArts

NPU显存使用率 NPU卡的显存使用率 % instance_id，npu npu_util_rate_ai_core NPU卡AI核心使用率 NPU卡的AI核心使用率 % instance_id，npu npu_util_rate_ai_cpu NPU卡AICPU使用率 NPU卡的AI-CPU使用率

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

此时无论DH Cient是否关闭，服务器都可以获取分配IP。当服务器没有网卡配置文件时，DH Client开启，此时服务器会分配私有IP。如果关闭DH Client，则服务器无法获取私有IP。图2 查看NetworkManager配置图3 查看网络配置命令“yum update

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查看Standard专属资源池详情 - AI开发平台ModelArts

源池中的数字，查看关联的资源池。可以查看该网络中可用的IP数量。在扩展信息中可以查看监控、作业、节点、规格、事件、标签，详细介绍见下文。查看资源池中的作业在资源池详情页，切换到“作业”页签。您可以查看该资源池中运行的所有作业，如果当前有作业正在排队，可以查看作业在资源池排队的位置。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
如何获取下载路径？ - AI开发平台ModelArts

训练好的模型是否可以下载或迁移到其他账号？如何获取下载路径？通过训练作业训练好的模型可以下载，然后将下载的模型上传存储至其他账号对应区域的OBS中。获取模型下载路径登录ModelArts管理控制台，在左侧导航栏中选择“模型训练 > 训练作业”，进入“训练作业”列表。在训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 查看作业详情
出现ModelArts.6333错误，如何处理？ - AI开发平台ModelArts

等待几分钟。由于出现此错误，常见原因是内存占用满导致的，您可以尝试使用如下方法，从根本上解决错误。方法1：将Notebook更换为更高规格的资源。方法2：可以参考如下方法调整代码中的参数，减少内存占用。如果代码调整后仍然出现内存不足的情况，请使用方法1。调用sklear

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
配置仪表盘查看指标数据 - AI开发平台ModelArts

选择修改，修改后，单击保存即可生效。修改DashBoard查询数据时间范围图7 修改查询数据时间范围单击右上角图标，即可修改DashBoard整体的数据查询时间。除固定查询时间外的其他panel，都会应用该数据查询时间范围。增加新panel 图8 新增一个panel 单击

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
查询训练作业的运行指标 - AI开发平台ModelArts

运行指标，可选值如下： cpuUsage（CPU使用率）、memUsage（物理内存使用率）、gpuUtil（GPU使用率）、gpuMemUsage（显存使用率）、npuUtil（NPU使用率）、npuMemUsage（NPU显存使用率）。 value Array of numbers

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在Linux上安装配置Grafana - AI开发平台ModelArts

一台可访问外网的Ubuntu服务器。如果没有请具备以下条件：准备一台ECS服务器（建议规格选8U或者以上，镜像选择Ubuntu，建议选择22.04版本，本地存储100G），具体操作请参考《弹性云服务器快速入门》。购买弹性公网IP，并绑定到购买的弹性云服务器ECS上，具体操作请参见《弹性公网IP快速入门》。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

ModelArts”。查看监控图表。查看在线服务监控图表：单击目标在线服务“操作”列的“查看监控指标”。查看模型负载监控图标：单击目标在线服务左侧的，在下拉列表中选择模型负载“操作”列的“查看监控指标”。在监控区域，您可以通过选择时长，查看对应时间的监控数据。当前支持查看近1小时、近

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
查看ModelArts相关审计日志 - AI开发平台ModelArts

ng”、“incident”，只可选择其中一项。时间范围：可选择查询最近七天内任意时间段的操作事件。在需要查看的事件左侧，单击展开该事件的详细信息。单击需要查看的事件“操作”列的“查看事件”，可以在弹窗中查看该操作事件结构的详细信息。更多关于云审计服务事件结构的信息，请参见《云审计服务用户指南》。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用CTS审计ModelArts服务

总条数： 1957

上一页
1
2
3
4
5
...
98
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：训练常见问题 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

监控资源 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

如何获取下载路径？ - AI开发平台ModelArts

出现ModelArts.6333错误，如何处理？ - AI开发平台ModelArts

配置仪表盘查看指标数据 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

在Linux上安装配置Grafana - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

查看ModelArts相关审计日志 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线