搜索_华为云

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% 原因是代码运行卡死导致被进程清理，GPU显存没有释放；或者代码运行过程中内存溢出导致程序被清理，需要释放下显存，清理GPU，然后重新启动。为了避免进程结束引起的代码未保存，建议您每隔一段时间保存下代码输出至OBS桶或者容器

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件问题现象使用自定义镜像创建训练作业，出现如下报错，提示找不到运行的主文件：no such file or directory。原因分析根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

插在主板上的。 ifconfig能看到的网卡信息吗能看到主板上的网卡信息，即VPC分配的私有IP。若要看RoCE网卡的命令需要执行“hccn_tools”命令查看，参考Atlas 800 训练服务器 1.0.11 HCCN Tool接口参考中的指导。 NPU上的网卡在哪里可以看到，

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用pip install时出现“没有空间”的错误 - AI开发平台ModelArts

使用pip install时出现“没有空间”的错误问题现象在Notebook实例中，使用pip install时，出现“No Space left...”的错误。解决办法建议使用pip install --no-cache ** 命令安装，而不是使用pip install

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
如何将git clone的py文件变为ipynb文件 - AI开发平台ModelArts

如何将git clone的py文件变为ipynb文件在ipynb文件中，执行%load XXX.py命令，即可将py文件内容加载到ipynb中。以“test.py”文件为例，下图展示了如何将“test.py”的文件内容加载到ipynb文件中。图1 test.py文件图2 将“test

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > CodeLab
配置Standard专属资源池可访问公网 - AI开发平台ModelArts

池访问外网，可打通VPC的方式，使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内，实现专属资源池访问外网。前提条件已拥有需要部署SNAT的弹性云服务器。待部署SNAT的弹性云服务器操作系统为Linux操作系统。待部署SNAT的弹性云服务器网卡已配置为单网卡。步骤一：打通VPC

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linu

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在Linux上安装配置Grafana - AI开发平台ModelArts

购买弹性公网IP，并绑定到购买的弹性云服务器ECS上，具体操作请参见《弹性公网IP快速入门》。操作步骤将本地命令复制至ECS服务器请参考如下方法：在ECS桌面单击“复制粘贴”，使用快捷键“Ctrl+V”将命令粘贴至窗口中并单击“发送”，将复制的命令发送至命令行窗口，如下图所示。图3

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
使用pip install时出现“没有空间”的错误 - AI开发平台ModelArts

使用pip install时出现“没有空间”的错误问题现象在Notebook实例中，使用pip install时，出现“No Space left...”的错误。解决办法建议使用pip install --no-cache ** 命令安装，而不是使用pip install

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误
切换Lite Server服务器操作系统 - AI开发平台ModelArts

Server服务器操作系统场景描述 Lite Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
作为调用发起方的客户端无法访问已经获取到的推理请求地址 - AI开发平台ModelArts

作为调用发起方的客户端无法访问已经获取到的推理请求地址问题现象完成在线服务部署且服务处于“运行中”状态后，已经通过调用指南页面的信息获取到调用的server端地址，但是调用发起方的客户端访问该地址不通，出现无法连接、域名无法解析的现象。原因分析在调用指南页签中显示的调用地址都是华

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
启动或停止Lite Server服务器 - AI开发平台ModelArts

启动或停止Lite Server服务器当您暂时不需要使用弹性节点Server的时候，可以通过对运行中的裸金属实例进行停止操作，停止对资源的消耗。当需要使用的时候，对于停止状态的弹性节点Server，可以通过启动操作重新使用弹性节点Server。登录ModelArts管理控制台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

/usr/bin/pip3 /usr/bin/pip 配置pip源。 mkdir -p ~/.pip vim ~/.pip/pip.conf 在“~/.pip/pip.conf”中写入如下内容。 [global] index-url = http://mirrors.myhuaweicloud

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？场景描述当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
Open-Clip基于DevServer适配PyTorch NPU训练指导 - AI开发平台ModelArts

aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

echo $res 上述获取的值*4/300 ，即为当前网卡的接收速率，单位Byte/s。方法2：使用ib_write_bw测试RDMA的读写处理确定带宽服务器A：服务端从mlx4_0网卡接收数据 ib_write_bw -a -d mlx5_0 服务器B：客户端向服务端mlx4_0网卡发送数据。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
删除消息订阅Subscription - AI开发平台ModelArts

bscriptions/{subscription_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 subscription_id

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanag方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

WebUI一般可以分为前端和后端实现两部分，后端的实现模式种类多样，并且依赖了多个的第三方库，当前在WebUI适配时，并没有特别好的方式。在对后端实现比较理解的情况下，建议针对具体的功能进行Diffusers模块的适配与替换，然后针对替换上去的Diffusers，对其pipeline进行昇腾迁移适配，

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 1216

上一页
1
2
3
4
5
...
61
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

使用pip install时出现“没有空间”的错误 - AI开发平台ModelArts

如何将git clone的py文件变为ipynb文件 - AI开发平台ModelArts

配置Standard专属资源池可访问公网 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

在Linux上安装配置Grafana - AI开发平台ModelArts

使用pip install时出现“没有空间”的错误 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

作为调用发起方的客户端无法访问已经获取到的推理请求地址 - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

Open-Clip基于DevServer适配PyTorch NPU训练指导 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

删除消息订阅Subscription - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线