搜索_华为云

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

Cluster上安装Prometheus开源监控工具，方便用户使用Prometheus工具在Lite Cluster集群内直接采集监控指标数据，具体参见使用Prometheus查看Lite Cluster监控指标章节。本章节主要介绍如何在AOM上查看Lite Cluster监控指标。 AOM上查看已有监控指标登

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
查看Lite Server服务器详情 - AI开发平台ModelArts

Lite Server服务器的名称。实例规格 Lite Server服务器的规格。 ID Lite Server服务器的ID，可用于在费用中心查询。计费模式 Lite Server服务器当前的计费模式。状态 Lite Server服务器的运行状态。虚拟私有云 Lite Serv

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

Cluster监控指标 Prometheus是一款开源监控工具，ModelArts支持Exporter功能，方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。本章节主要介绍如何通过Prometheus查看Lite Cluster监控指标。约束限制

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
配置仪表盘查看指标数据 - AI开发平台ModelArts

uid”，修改json中的uid后单击“Import”。图4 修改uid 导入成功后，在Dashboards下，即可看到导入的视图，单击视图即可打开监控。模板使用导入成功后，单击想查看的模板即可查看响应内容。这里介绍一些常用功能的使用。切换数据源和资源池图5 切换数据源和资源池单

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK 如果需要在个人PC或虚拟机上使用ModelArts SDK，则需要在本地环境中安装ModelArts SDK，安装后可直接调用ModelArts SDK轻松管理数据集、创建ModelArts训练作业及创建AI应用，并将其部署为在线服务。

帮助中心 > AI开发平台ModelArts > SDK参考
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容场景描述本文提供Atlas800训练服务器硬件相关指南，包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器（型号9000）是基于华为鲲鹏920+Sn

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
监控Lite Cluster资源 - AI开发平台ModelArts

监控Lite Cluster资源使用AOM查看Lite Cluster监控指标使用Prometheus查看Lite Cluster监控指标父主题： Lite Cluster资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
启动或停止Lite Server服务器 - AI开发平台ModelArts

已停止/停止失败/启动失败”状态的弹性节点Server可以执行启动操作。停止弹性节点Server：单击“停止”，在弹出的确认对话框中，确认信息无误，然后单击“确定”。只有处于“运行中/停止失败”状态的弹性节点Server可以执行停止操作。停止服务器为“强制关机”方式，会中断您的业务，请确保服务器上的文件已保存。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
监控Lite Server资源 - AI开发平台ModelArts

监控Lite Server资源使用CES监控Lite Server资源使用DCGM监控Lite Server资源父主题： Lite Server资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
在Windows上安装配置Grafana - AI开发平台ModelArts

在Windows上安装配置Grafana 适用场景本章节适用于在Windows操作系统的PC中安装配置Grafana。操作步骤下载Grafana安装包。进入下载链接，单击Download the installer，等待下载成功即可。安装Grafana。双击安装包，按照指示流程安装完成即可。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
切换Lite Server服务器操作系统 - AI开发平台ModelArts

SDK的方式切换操作系统使用Python封装API的方式切换操作系统切换操作系统需满足以下条件：当前裸金属服务器状态为停止状态。目标操作系统必须是该Region下的IMS公共镜像或者私有共享镜像。在BMS控制台切换操作系统获取操作系统镜像。由华为云官方提供给客户操作系统镜像

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

据和算法至OBS（首次使用时需要）。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像需要用Ubuntu 18.04的。 ECS服务器和SFS Turbo需要在同一子网中。操作步骤在ECS服务器中设置华为云镜像源。 sudo sed -i

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败问题现象训练作业的“状态”为“运行失败”。原因分析训练作业的监控内存指标持续升高，导致最后训练作业失败。处理步骤查询训练作业的日志和监控信息，是否存在明确的OOM报错信息。是，训练作业的日志里存在OOM报错，执行2。否，训

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

报的监控数据和监控视图。故障、删除状态的在线服务，无法在云监控中查看其监控指标。当在线服务再次启动或恢复后，即可正常查看。对接云监控之前，用户无法查看到未对接资源的监控数据。具体操作，请参见设置告警规则。登录管理控制台。在“服务列表”中选择“管理与监管 > 云监控服务”，进入“云监控服务”管理控制台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决问题现象在华为云使用GPU裸金属服务器时，服务器绑定EIP（华为云弹性IP服务）后，出现无法ping通弹性公网IP现象。原因分析查看当前GPU裸金属服务器的安全组的入方向规则的配置，发现仅开通了TCP协议的22端口。 ping命令

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？场景描述当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

ssh 上传公钥到服务器。例如用户名为root，服务器地址为192.168.222.213，则将公钥上传至服务器的命令如下： ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.222.213 通过如下命令可以看到客户端写入到服务器的id_rsa

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

以确保所有用户的新会话都不会因为空闲而断开。但是在生产环境或多人使用的公共服务器上，不建议设置TMOUT=0，关闭自动注销功能会带来一定的安全风险。磁盘合并挂载。成功购买裸金属服务器后，服务器上可能会有多个未挂载的nvme磁盘。因此在首次配置环境前，需要完成磁盘合并挂载。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 1924

上一页
1
2
3
4
5
...
97
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

查看Lite Server服务器详情 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

配置仪表盘查看指标数据 - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

监控Lite Cluster资源 - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

监控Lite Server资源 - AI开发平台ModelArts

在Windows上安装配置Grafana - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线