搜索_华为云

在ModelArts训练代码中，如何获取依赖文件所在的路径？ - AI开发平台ModelArts

在ModelArts训练代码中，如何获取依赖文件所在的路径？由于用户本地开发的代码需要上传至ModelArts后台，训练代码中涉及到依赖文件的路径时，用户设置有误的场景较多。因此推荐通用的解决方案：使用os接口得到依赖文件的绝对路径，避免报错。以下示例展示如何通过os接口获得其他文件夹下的依赖文件路径。文件目录结构：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

_mem.conf至/etc/infiniband/中或nv_peer_mem不在/etc/init.d/中。如果找不到相关文件的问题，可以搜索相关文件在哪里，然后复制到指定目录，例如可执行如下命令： cp /tmp/nvidia-peer-memory-1.3/nv_peer_mem

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？场景描述当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
访问在线服务支持的访问通道 - AI开发平台ModelArts

访问在线服务支持的访问通道通过公网访问通道的方式访问在线服务通过VPC访问通道的方式访问在线服务通过VPC高速访问通道的方式访问在线服务父主题：将模型部署为实时推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

out"如何解决？问题现象原因分析原因分析一：实例配置的白名单IP与本地网络访问IP不符。解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容场景描述本文提供Atlas800训练服务器硬件相关指南，包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器（型号9000）是基于华为鲲鹏920+Sn

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
通过SSH工具远程使用Notebook - AI开发平台ModelArts

通过SSH工具远程使用Notebook 本节操作介绍在Windows环境中使用PuTTY SSH远程登录云上Notebook实例的操作步骤。前提条件创建一个Notebook实例，并开启远程SSH开发，配置远程访问IP白名单。该实例状态必须处于“运行中”，具体参见创建Notebook实例章节。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

步骤二：使用Docker安装和配置正向代理购买弹性云服务器ECS，详情请见购买ECS。镜像可选择Ubuntu最新版本。虚拟私有云选择提前创建好的VPC。申请弹性公网IP EIP，详情请见申请弹性公网IP。将弹性公网IP绑定到ECS，详情请见将弹性公网IP绑定至实例。登录ECS，执行如下命令进行Do

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

Client，无法使用DHCP获取IP。正常情况下裸金属服务器这个参数是被注释的状态。当服务器有网卡配置文件， NetworkManager.service实现将VPC子网分配的私有IP写入网卡配置文件中。NetworkManager.service会优先读取网卡配置文件中的IP设置为主机IP，此时无论DH

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
如何通过docker镜像启动容器？ - AI开发平台ModelArts

如何通过docker镜像启动容器？ Notebook保存后的镜像有Entrypoint参数，如图1。Entrypoint参数中指定的可执行文件或命令会覆盖镜像的默认启动命令，Entrypoint中指定的执行命令内容不在镜像中预置，在本地环境通过docker run启动通过Note

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
使用PyCharm Toolkit插件连接Notebook - AI开发平台ModelArts

成安装。 Step2 创建Notebook实例创建一个Notebook实例，并开启远程SSH开发，配置远程访问IP白名单。该实例状态必须处于“运行中”，具体参见创建Notebook实例章节。 Step3 登录插件使用访问密钥完成登录认证操作如下：打开已安装ToolKit工具

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过PyCharm远程使用Notebook实例
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

选择左侧导航栏的“总览”，单击页面右上角的“登录指令”，在弹出的页面中单击复制登录指令。此处生成的登录指令有效期为24小时，如果需要长期有效的登录指令，请参见获取长期有效登录指令。获取了长期有效的登录指令后，在有效期内的临时登录指令仍然可以使用。登录指令末尾的域名为镜像仓库地址，请记录该地址，后面会使用到。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
读取文件报错，如何正确读取文件 - AI开发平台ModelArts

在ModelArts中，用户的数据都是存放在OBS桶中，而训练作业运行在容器中，无法通过访问本地路径的方式访问OBS桶中的文件。处理方法读取文件报错，您可以使用Moxing将数据复制至容器中，再直接访问容器中的数据。请参见步骤1。您也可以根据不同的文件类型，进行读取。请参见读

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器，单台服务

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

排查/home/ma-user/.ssh目录权限是否为755/750，不是该权限请修改。连接时如果报错密钥无权限，排查密钥是否为自己的密钥（可能使用了重名密钥），请更换密钥后重新连接实例。本地排查检查配置是否正确。打开config文件进行检查：Host必须放在每组配置的第一行，作为每组配置的唯一ID。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
从OBS下载文件夹 - AI开发平台ModelArts

String 下载的源OBS文件夹，必须以“obs://”作为前缀，文件夹后缀必须以"/"结尾。当下载的文件夹下有文件夹且内容为空时，对应路径下不产生对应空文件夹。 dst_local_dir 是 String 下载的目标本地文件夹，下载的目标本地文件夹后缀必须以“/”结尾。表2

帮助中心 > AI开发平台ModelArts > SDK参考 > OBS管理
在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

线。本地构建镜像以linux x86_x64架构的主机为例，您可以购买相同规格的ECS或者应用本地已有的主机进行自定义镜像的制作。购买ECS服务器的具体操作请参考购买并登录弹性云服务器。镜像选择公共镜像，推荐使用ubuntu18.04的镜像。图1 创建ECS服务器-选择X86架构的公共镜像

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
在ModelArts的Notebook中实例重新启动后要怎么连接？ - AI开发平台ModelArts

在ModelArts的Notebook中实例重新启动后要怎么连接？可以在本地的ssh config文件中对这个Notebook配置参数“StrictHostKeyChecking no”和“UserKnownHostsFile=/dev/null”，如下参考所示： Host roma-local-cpu

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook

总条数： 2694

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts训练代码中，如何获取依赖文件所在的路径？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

访问在线服务支持的访问通道 - AI开发平台ModelArts

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

通过SSH工具远程使用Notebook - AI开发平台ModelArts

ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

如何通过docker镜像启动容器？ - AI开发平台ModelArts

使用PyCharm Toolkit插件连接Notebook - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

读取文件报错，如何正确读取文件 - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

从OBS下载文件夹 - AI开发平台ModelArts

在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

在ModelArts的Notebook中实例重新启动后要怎么连接？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线