搜索_华为云

迁移环境准备 - AI开发平台ModelArts

限，结合配置指导、初始化工具及容器镜像可以快速搭建昇腾开发环境。开通裸金属服务器资源请见DevServer资源开通，在裸金属服务器上搭建迁移环境请见裸金属服务器环境配置指导，使用ModelArts提供的基础容器镜像请见容器环境搭建。父主题： GPU训练业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
创建AI应用成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

创建AI应用成功后，部署服务报错，如何排查代码问题问题现象创建AI应用成功后，部署服务失败，如何定位是模型代码编写有问题。原因分析用户自定义镜像或者通过基础镜像导入的AI应用时，用户自己编写了很多自定义的业务逻辑，这些逻辑有问题将会导致服务部署或者预测失败，需要能够排查出哪里有问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > AI应用管理
启动或停止Lite Server服务器 - AI开发平台ModelArts

确认信息无误，然后单击“确定”。只有处于“运行中/停止失败”状态的弹性节点Server可以执行停止操作。停止服务器为“强制关机”方式，会中断您的业务，请确保服务器上的文件已保存。父主题： Lite Server资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容场景描述本文提供Atlas800训练服务器硬件相关指南，包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器（型号9000）是基于华为鲲鹏920+Sn

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
认证证书 - AI开发平台ModelArts
认证证书 - AI开发平台ModelArts

认证证书合规证书华为云服务及平台通过了多项国内外权威机构（ISO/SOC/PCI等）的安全合规认证，用户可自行申请下载合规资质证书。图1 合规证书下载资源中心华为云还提供以下资源来帮助用户满足合规性要求，具体请查看资源中心。图2 资源中心销售许可证&软件著作权证书另

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用使用场景和构建流程说明用户可以使用ModelArts提供的基础镜像或第三方的镜像来编写Dockerfile，在ECS服务器上构建出完全适合自己的镜像。然后将镜像进行注册，用以创建新的开发环境，满足自己的业务需求。本案例将基于

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanag方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% 原因是代码运行卡死导致被进程清理，GPU显存没有释放；或者代码运行过程中内存溢出导致程序被清理，需要释放下显存，清理GPU，然后重新启动。为了避免进程结束引起的代码未保存，建议您每隔一段时间保存下代码输出至OBS桶或者容器

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

service会优先读取网卡配置文件中的IP设置为主机IP，此时无论DH Cient是否关闭，服务器都可以获取分配IP。当服务器没有网卡配置文件时，DH Client开启，此时服务器会分配私有IP。如果关闭DH Client，则服务器无法获取私有IP。图2 查看NetworkManager配置图3 查看网络配置

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

establish connection to instance xxx: 'ssh' ...”如何解决？问题现象或 VS Code连接Notebook一直提示选择证书，且提示信息除标题外，都是乱码。选择证书后，如上图所示仍然没有反应且无法进行连接。原因分析当前环境未装OpenSSH或

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
在Notebook中添加自定义IPython Kernel - AI开发平台ModelArts

在Notebook中添加自定义IPython Kernel 使用场景当前Notebook默认内置的引擎环境不能满足用户诉求，用户可以新建一个conda env按需搭建自己的环境。本小节以搭建一个“python3.6.5和tensorflow1.2.0”的IPython Kernel为例进行展示。操作步骤创建conda

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 环境配置相关
在Linux上安装配置Grafana - AI开发平台ModelArts

一台可访问外网的Ubuntu服务器。如果没有请具备以下条件：准备一台ECS服务器（建议规格选8U或者以上，镜像选择Ubuntu，建议选择22.04版本，本地存储100G），具体操作请参考《弹性云服务器快速入门》。购买弹性公网IP，并绑定到购买的弹性云服务器ECS上，具体操作请参见《弹性公网IP快速入门》。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建镜像组织在SWR服务页面创建镜像组织。图1 创建镜像组织 Step2 登录ECS服务器根据创建ECS服务器创建完成ECS服务器后，单击“远程登录”，可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

根据文件名下载文件在服务器执行如下命令，将待下载的文件名枚举出来即可从AI Gallery仓库依次下载多个文件到云服务器的缓存目录下。 gallery-cli download {repo_id} {文件名} {文件名} 其中，“repo_id”如何获取，文件名如何获取。如下所示，表示下载文件“config

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像

总条数： 1106

上一页
1
2
3
4
5
...
56
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

迁移环境准备 - AI开发平台ModelArts

创建AI应用成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

认证证书 - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

在Notebook中添加自定义IPython Kernel - AI开发平台ModelArts

在Linux上安装配置Grafana - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线