搜索_华为云

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容场景描述本文提供Atlas800训练服务器硬件相关指南，包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器（型号9000）是基于华为鲲鹏920+Sn

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境注意事项本文旨在指导如何在Snt9b裸金属服务器上，进行磁盘合并挂载、安装docker等环境配置。在配置前请注意如下事项：首次装机时需要配置存储、固件、驱动、网络访问等基础内容，这部分配置尽量稳定减少变化。裸机上的开发形

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

ssh 上传公钥到服务器。例如用户名为root，服务器地址为192.168.222.213，则将公钥上传至服务器的命令如下： ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.222.213 通过如下命令可以看到客户端写入到服务器的id_rsa

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
配置Lite Server网络 - AI开发平台ModelArts

单个弹性公网IP用于单个Server服务器：为单台Server服务器绑定一个弹性公网IP，该Server服务器独享网络资源。单个弹性公网IP用于多个Server服务器：一个VPC配置一个EIP（弹性公网IP），通过NAT网关配置进行EIP资源共享，实现该VPC下的所有Server服务器均可以通过该E

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
构造请求 - AI开发平台ModelArts
构造请求 - AI开发平台ModelArts

HTTP方法方法说明 GET 请求服务器返回指定资源。 PUT 请求服务器更新指定资源。 POST 请求服务器新增资源或执行特殊操作。 DELETE 请求服务器删除指定资源，如删除对象等。 HEAD 请求服务器资源头部。 PATCH 请求服务器更新资源的部分内容。当资源不存在的

 帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

此时无论DH Cient是否关闭，服务器都可以获取分配IP。当服务器没有网卡配置文件时，DH Client开启，此时服务器会分配私有IP。如果关闭DH Client，则服务器无法获取私有IP。图2 查看NetworkManager配置图3 查看网络配置命令“yum update -y”或“yum

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

Standard上运行GPU多机多卡训练作业操作流程准备工作：购买服务资源（VPC/SFS/OBS/SWR/ECS）配置权限创建专属资源池（打通VPC） ECS服务器挂载SFS Turbo存储在ECS中设置ModelArts用户可读权限安装和配置OBS命令行工具（可选）工作空间配置模型训练：

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

我的镜像”页面，执行刷新操作后可查看到对应的镜像信息。上传数据和算法至SFS ECS服务器已挂载SFS，请参考在ECS服务器挂载SFS Turbo存储。已经在ECS中设置权限，请参考在ECS中设置ModelArts用户可读权限。已经安装和配置obsutil，请参见安装和配置OBS命令行工具。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
创建Standard专属资源池 - AI开发平台ModelArts

PC的SNAT，需要提交工单联系技术支持在专属资源池VPC的路由中添加指向对等连接的缺省路由。当您开启默认路由后，在打通VPC时，会将ModelArts网络0.0.0.0/0路由作为默认路由，此时无需提交工单添加缺省路由即可完成网络配置。步骤三：创建Standard专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题问题现象创建模型成功后，部署服务失败，如何定位是模型代码编写有问题。原因分析用户自定义镜像或者通过基础镜像导入的模型时，用户自己编写了很多自定义的业务逻辑，这些逻辑有问题将会导致服务部署或者预测失败，需要能够排查出哪里有问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
Lite Server使用流程 - AI开发平台ModelArts

性裸金属服务器，因此可以防止由于密码被拦截、破解造成的账户密码泄露，从而提高弹性裸金属服务器的安全性。说明：为保证云服务器安全，未进行私钥托管的私钥只能下载一次，请妥善保管。虚拟私有云虚拟私有云（Virtual Private Cloud，VPC）为裸金属服务器构建隔离的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
配置Lite Cluster网络 - AI开发平台ModelArts

配置Lite Cluster网络本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档，您可以实现弹性云服务器访问公网的目的。使用华为云账号登录CCE管理控制台。找到购买Cluster资源时选择的CCE集群，单击名称进入CCE集群详情页面，单击“节点管理”页签，在“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

2-0 libnccl2 2.14.3 nccl-test v.2.13.6 docker 20.10.23 RoCE路由配置支持 GP Vnt1裸金属服务器支持的镜像详情 Vnt1规格在北京四、北京一和上海一虽然规格相同，但是产品的配置、发布时间都存在很大差异，因此镜像不能共用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
设置断点续训练 - AI开发平台ModelArts

ckpt的代码，使能读取前一次训练保存的预训练模型。 ModelArts Standard中如何实现断点续训练在ModelArts Standard训练中实现断点续训练或增量训练，建议使用“训练输出”功能。在创建训练作业时，设置训练“输出”参数为“train_url”，在指定的训练输出的数据存储位

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

根据文件名下载文件在服务器执行如下命令，将待下载的文件名枚举出来即可从AI Gallery仓库依次下载多个文件到云服务器的缓存目录下。 gallery-cli download {repo_id} {文件名} {文件名} 其中，“repo_id”如何获取，文件名如何获取。如下所示，表示下载文件“config

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南

总条数： 1375

上一页
1
2
3
4
5
...
69
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

配置Lite Server网络 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

构造请求 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

Lite Server使用流程 - AI开发平台ModelArts

配置Lite Cluster网络 - AI开发平台ModelArts

Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线