搜索_华为云

如何查看ModelArts训练作业资源占用情况？ - AI开发平台ModelArts

如何查看ModelArts训练作业资源占用情况？在ModelArts管理控制台，选择“模型训练>训练作业”，进入训练作业列表页面。在训练作业列表中，单击目标作业名称，查看该作业的详情。您可以在“资源占用情况”页签查看到如下指标信息。 CPU：CPU使用率（cpuUsage）百分比（Percent）。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
查看训练作业资源占用情况 - AI开发平台ModelArts

在训练作业详情页面，单击“资源占用情况”页签查看计算节点的资源使用情况，最多可显示最近三天的数据。在“资源占用情况”窗口打开时，会定期向后台获取最新的资源使用率数据并刷新。操作一：如果训练作业使用多个计算节点，可以通过实例名称的下拉框切换节点。操作二：单击图例“cpuUsage”、“gpuMemU

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查看诊断报告 - AI开发平台ModelArts

对目标集群的6号卡step16与标杆集群的6号卡step16进行了api（cpu侧的torch aten算子任务下发）的性能对比。基于该对比数据，可以判断两张卡上的aten算子是否存在下发性能差异。图8 目标集群profiling数据与标杆集群profiling数据的api下发对比

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
监控资源 - AI开发平台ModelArts
监控资源 - AI开发平台ModelArts

监控资源用户可以通过资源占用情况窗口查看计算节点的资源使用情况，最多可显示最近三天的数据。在资源占用情况窗口打开时，会定期向后台获取最新的资源使用率数据并刷新。操作一：如果训练作业使用多个计算节点，可以通过实例名称的下拉框切换节点。操作二：单击图例“cpuUsage”、“g

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

如何查看ModelArts中正在收费的作业？在ModelArts管理控制台，单击左侧菜单栏的“总览”，您可以在“总览>生产概况”区域查看正在收费的作业。根据实际情况进入管理页面，停止并删除实例。例如，Notebook正在计费，请前往“开发空间 > Notebook”页面，将状态

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
使用Grafana查看AOM中的监控指标 - AI开发平台ModelArts

使用Grafana查看AOM中的监控指标安装配置Grafana 配置Grafana数据源配置仪表盘查看指标数据父主题： ModelArts Standard资源监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

Cluster资源池详情页的配置管理页面中先打开“监控”开关。开通此功能后，兼容Prometheus指标格式的第三方组件可通过API http://<节点IP>:<端口号>/metrics获取ModelArts采集到的指标数据。开通前需要确认使用的端口号，端口号可选取10120~1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
配置仪表盘查看指标数据 - AI开发平台ModelArts

单击右上角图标，即可修改DashBoard整体的数据查询时间。除固定查询时间外的其他panel，都会应用该数据查询时间范围。增加新panel 图8 新增一个panel 单击右上角的'+'图标，即可新增一个panel。新增一个panel后，即可在其中查询相应的数据。将数据源和资源池进行如下的相应选择，即可应用当前DashBoard的对应配置。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
在ModelArts控制台查看监控指标 - AI开发平台ModelArts

在ModelArts控制台查看监控指标在总览页查看ModelArts监控指标在ModelArts控制台的总览页，支持查看生产概况（即总体作业运行数量）、资源占用情况、训练作业资源利用情况。您可以单击生产概况的链接、资源池名称、训练作业，跳转到对应界面查看更多详情。图1 总览页查看监控信息

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
在ModelArts中如何查看OBS目录下的所有文件？ - AI开发平台ModelArts

在ModelArts中如何查看OBS目录下的所有文件？在使用Notebook或训练作业时，需要查看目录下的所有文件，您可以通过如下方式实现：通过OBS管理控制台进行查看。使用当前账户登录OBS管理控制台，去查找对应的OBS桶、文件夹、文件。通过接口判断路径是否存在。在已有

 帮助中心 > AI开发平台ModelArts > 常见问题 > 存储相关
显存溢出错误 - AI开发平台ModelArts

max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。父主题：常见错误原因和解决方法

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。父主题：常见错误原因和解决方法

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
Notebook提示磁盘空间已满 - AI开发平台ModelArts

文件后，会默认放入回收站占用内存，导致磁盘空间不足。磁盘配额不足。处理方法查看虚拟机所使用的存储空间，再查看回收站文件占用内存，根据实际删除回收站里不需要的大文件。在Notebook实例详情页，查看实例的存储容量。执行如下命令，排查虚拟机所使用的存储空间，一般接近存储容量，请排查回收站占用内存。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ - AI开发平台ModelArts

在ModelArts中使用自定义镜像创建在线服务，如何修改端口？当模型配置文件中定义了具体的端口号，例如：8443，创建模型没有配置端口，或者配置了其他端口号，均会导致服务部署失败。您需要把模型中的端口号配置为8443，才能保证服务部署成功。修改默认端口号，具体操作如下：登录ModelArts控制台，左侧菜单选择“模型管理”；

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
在ModelArts的Notebook中使用VS Code如何查看远端日志？ - AI开发平台ModelArts

在ModelArts的Notebook中使用VS Code如何查看远端日志？在VS Code环境中执行Ctrl+Shift+P 搜show logs 选择Remote Server。也可在如下截图的红框处切换至其他的Log 父主题： Standard Notebook

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
查看批量服务的事件 - AI开发平台ModelArts

查看批量服务的事件服务的（从用户可看见部署服务任务开始）整个生命周期中，每一个关键事件点在系统后台均有记录，用户可随时在对应服务的详情页面进行查看。方便用户更清楚的了解服务部署和运行过程，遇到任务异常时，更加准确的排查定位问题。可查看的事件点包括：表1 事件事件类型事件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
如何查看ModelArts的Notebook使用的cuda版本？ - AI开发平台ModelArts

如何查看ModelArts的Notebook使用的cuda版本？执行如下命令查看环境中的cuda版本。 ll /usr/local | grep cuda 举例：图1 查看当前环境的cuda版本如图1所示，当前环境中cuda版本为10.2 父主题： Standard Notebook

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
服务状态一直处于“部署中” - AI开发平台ModelArts

服务状态一直处于“部署中”，查看模型日志未发现服务有明显错误。原因分析一般情况都是模型的端口配置有问题。建议您首先检查创建模型的端口是否正确。处理方法模型的端口没有配置，如您在自定义镜像配置文件中修改了端口号，需要在部署模型时，配置对应的端口号，使新的模型重新部署服务。如何

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
查看在线服务的事件 - AI开发平台ModelArts

查看在线服务的事件服务的（从用户可看见部署服务任务开始）整个生命周期中，每一个关键事件点在系统后台均有记录，用户可随时在对应服务的详情页面进行查看。方便用户更清楚的了解服务部署和运行过程，遇到任务异常时，更加准确的排查定位问题。可查看的事件点包括：表1 事件事件类型事件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
查看ModelArts模型详情 - AI开发平台ModelArts

创建新版本：创建新的模型版本。参数配置除版本外，将默认选择上一个版本的配置信息，您可以对参数配置进行修改。删除：删除对应的模型。说明：如果模型的版本已经部署服务，需先删除关联的服务后再执行删除操作。模型删除后不可恢复，请谨慎操作。单击模型的“版本数量”，可查看版本列表信息。图1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型

总条数： 1320

上一页
1
2
3
4
5
...
66
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何查看ModelArts训练作业资源占用情况？ - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

监控资源 - AI开发平台ModelArts

如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

使用Grafana查看AOM中的监控指标 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

配置仪表盘查看指标数据 - AI开发平台ModelArts

在ModelArts控制台查看监控指标 - AI开发平台ModelArts

在ModelArts中如何查看OBS目录下的所有文件？ - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ - AI开发平台ModelArts

在ModelArts的Notebook中使用VS Code如何查看远端日志？ - AI开发平台ModelArts

查看批量服务的事件 - AI开发平台ModelArts

如何查看ModelArts的Notebook使用的cuda版本？ - AI开发平台ModelArts

服务状态一直处于“部署中” - AI开发平台ModelArts

查看在线服务的事件 - AI开发平台ModelArts

查看ModelArts模型详情 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线