搜索_华为云

如何查看ModelArts训练作业资源占用情况？ - AI开发平台ModelArts

如何查看ModelArts训练作业资源占用情况？在ModelArts管理控制台，选择“模型训练>训练作业”，进入训练作业列表页面。在训练作业列表中，单击目标作业名称，查看该作业的详情。您可以在“资源占用情况”页签查看到如下指标信息。 CPU：CPU使用率（cpuUsage）百分比（Percent）。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ - AI开发平台ModelArts

在ModelArts中使用自定义镜像创建在线服务，如何修改端口？当模型配置文件中定义了具体的端口号，例如：8443，创建模型没有配置端口，或者配置了其他端口号，均会导致服务部署失败。您需要把模型中的端口号配置为8443，才能保证服务部署成功。修改默认端口号，具体操作如下：登录ModelArts控制台，左侧菜单选择“模型管理”；

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

过API http://<节点IP>:<端口号>/metrics获取ModelArts采集到的指标数据。开通前需要确认使用的端口号，端口号可选取10120~10139范围内的任一端口号，请确认选取的端口号在各个节点上都没有被其他应用占用。 Kubernetes下Prometheus对接ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
查看训练作业资源占用情况 - AI开发平台ModelArts

查看训练作业资源占用情况约束限制训练作业的资源占用情况系统会自动保存30天，过期会被清除。如何查看训练作业资源使用详情在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
监控资源 - AI开发平台ModelArts
监控资源 - AI开发平台ModelArts

监控资源用户可以通过资源占用情况窗口查看计算节点的资源使用情况，最多可显示最近三天的数据。在资源占用情况窗口打开时，会定期向后台获取最新的资源使用率数据并刷新。操作一：如果训练作业使用多个计算节点，可以通过实例名称的下拉框切换节点。操作二：单击图例“cpuUsage”、“g

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
在ModelArts控制台查看监控指标 - AI开发平台ModelArts

在ModelArts控制台查看监控指标在总览页查看ModelArts监控指标在ModelArts控制台的总览页，支持查看生产概况（即总体作业运行数量）、资源占用情况、训练作业资源利用情况。您可以单击生产概况的链接、资源池名称、训练作业，跳转到对应界面查看更多详情。图1 总览页查看监控信息

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
Notebook提示磁盘空间已满 - AI开发平台ModelArts

在JupyterLab浏览器左侧导航删除文件后，会默认放入回收站占用内存，导致磁盘空间不足。磁盘配额不足。处理方法查看虚拟机所使用的存储空间，再查看回收站文件占用内存，根据实际删除回收站里不需要的大文件。在Notebook实例详情页，查看实例的存储容量。执行如下命令，排查虚拟机所使用的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
显存溢出错误 - AI开发平台ModelArts

setting max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。父主题：常见错误原因和解决方法

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

setting max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。父主题：常见错误原因和解决方法

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

Looping (output port = input port) 计数值自然数 PortXmitWait infiniband_port_transmit_wait_total The number of ticks during which the port had data to

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
服务状态一直处于“部署中” - AI开发平台ModelArts

服务状态一直处于“部署中”，查看模型日志未发现服务有明显错误。原因分析一般情况都是模型的端口配置有问题。建议您首先检查创建模型的端口是否正确。处理方法模型的端口没有配置，如您在自定义镜像配置文件中修改了端口号，需要在部署模型时，配置对应的端口号，使新的模型重新部署服务。如何修改默认端口号，请

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

很多自定义的业务逻辑，这些逻辑有问题将会导致服务部署或者预测失败，需要能够排查出哪里有问题。处理方法服务部署失败后，进入服务详情界面，查看服务部署日志，明确服务部署失败原因（用户代码输出需要使用标准输入输出函数，否则输出的内容不会呈现到前端页面日志）。根据日志中提示的报错信息找到对应的代码进行定位。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

SQL需要放行的端口。 MySQL 3306 MySQL数据库对外提供服务的端口。 Windows Server Remote Desktop Services 3389 Windows远程桌面服务端口，通过这个端口可以连接Windows弹性云服务器。代理 8080 8080端口常用于W

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

SSH不可用，排查3。在VS Code Terminal里执行如下检查网络。如果网络异常，请执行命令检查端口。 curl -kv telnet://<域名/ip>:<port> 端口有问题，请联系技术支持。端口无问题请继续远端排查。远端排查排查/home/ma-user目录权限是否为755/

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
查询Workflow待办事项 - AI开发平台ModelArts

查询Workflow待办事项功能介绍获取Workflow待办列表。接口约束无调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
API概览 - AI开发平台ModelArts
API概览 - AI开发平台ModelArts

部署服务。查询服务列表查询服务列表。查询服务详情查询服务详情，根据服务ID查询服务详情。启动停止边缘节点服务实例启动停止边缘节点服务实例。更新服务配置更新模型服务。查询服务监控信息查询服务监控信息。查询服务更新日志查询实时服务更新日志。查询服务事件日志

 帮助中心 > AI开发平台ModelArts > API参考
查看ModelArts模型详情 - AI开发平台ModelArts

删除：针对模型的某一版本进行删除。查看模型详情当模型创建成功后，您可以进入模型详情页查看模型的信息。登录ModelArts管理控制台，在左侧菜单栏中选择“模型管理”，进入“自定义模型”列表页面。单击目标模型名称，进入模型详情页面。您可以查看模型的基本信息、模型精度，以及切换页签查看更多信息。表3

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
服务启动失败 - AI开发平台ModelArts

型界面上配置的端口。确认两处端口保持一致。模型创建界面如果不填端口信息，则ModelArts会默认监听8080端口，即镜像代码中启用的端口必须是8080。图2 自定义镜像中的代码开放的端口图3 创建模型界面上配置的端口健康检查配置有问题镜像如果配置了健康检查，服务启动失败，从以下两个方面进行排查：

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
在Linux上安装配置Grafana - AI开发平台ModelArts

确保ECS绑定了弹性公网IP，且对应配置正确（入方向放开TCP协议的3000端口，出方向全部放通）。设置如下：单击ECS服务器名称进入详情页，单击“安全组”页签，单击“配置规则”。单击“入方向规则”，入方向放开TCP协议的3000端口，出方向默认全部放通。在浏览器中输入“http://{弹性

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
在Windows上安装配置Grafana - AI开发平台ModelArts

在Windows的“服务”中，找到Grafana，将其开启，如果已经开启，则直接进入4。登录Grafana。 Grafana默认在本地的3000端口启动，打开链接http://localhost:3000，出现Grafana的登录界面。首次登录用户名和密码为admin，登录成功后请根据提示修改密码。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana

总条数： 1458

上一页
1
2
3
4
5
...
73
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何查看ModelArts训练作业资源占用情况？ - AI开发平台ModelArts

在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

监控资源 - AI开发平台ModelArts

在ModelArts控制台查看监控指标 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

服务状态一直处于“部署中” - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

查询Workflow待办事项 - AI开发平台ModelArts

API概览 - AI开发平台ModelArts

查看ModelArts模型详情 - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

在Linux上安装配置Grafana - AI开发平台ModelArts

在Windows上安装配置Grafana - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线