搜索_华为云

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

out"如何解决？问题现象原因分析原因分析一：实例配置的白名单IP与本地网络访问IP不符。解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

failed”。原因分析可能是所在环境的网络有问题，无法自动下载VS Code Server，请手动安装。解决方法打开VS Code，选择“Help>About”，并记下“Commit”的ID码。确认创建Notebook实例使用的镜像的系统架构，可以在Notebook中打开Terminal，通过命令uname

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
使用SSH连接，报错“Connection reset”如何解决？ - AI开发平台ModelArts

使用SSH连接，报错“Connection reset”如何解决？问题现象原因分析可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。解决方法用户重新进行申请SSH权限。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

locally"超过10分钟以上，如何解决？问题现象原因分析当前本地网络原因，导致远程自动安装VS Code Server时间过长。解决方法打开VS Code，选择“Help>About”，并记下“Commit”的ID码。确认创建Notebook实例使用的镜像的系统架构，可以在Notebook中打开Terminal，通过命令uname

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

处理方法在Euler2.8操作系统，NetworkManagre-config-server是一个无用的软件包，无需安装。执行以下命令卸载NetworkManagre-config-server，并重启NetworkManager服务，重新尝试SSH连接，验证网络是否恢复。 # 卸载

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

802原因为缺少fabricmanager，可能由于以下原因导致nvidia-fabricmanager.service不工作：可能系统资源不足、如内存不足、内存泄露。硬件故障、如IB网络或者GPU互联设备故障等。没安装nvidia-fabricmanager组件或被误卸载。处理方法如果未安装

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
JupyterLab中文件保存失败，如何解决？ - AI开发平台ModelArts

在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。网络环境原因，是否有连接网络代理。解决方法关掉插件然后重新保存。减少文件大小。重新打开jupyter页面。请检查网络。父主题：环境配置故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

资源池的详情页面查看“网络”获取。条件二：SFS Turbo网段不能与172网段重叠，否则会和容器网络发生冲突，因为容器网络使用的是172网段。如果不满足条件，则修改SFS Turbo的VPC网段，推荐网段为10.X.X.X。具体操作请参见修改虚拟私有云网段。如果满足条件，则继续下一步。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
离线训练安装包准备说明 - AI开发平台ModelArts

离线训练安装包准备说明在华为公有云平台，申请的资源一般要求连通网络。因此用户在准备环境时可以运行 scripts/install.sh 直接下载安装资源，或通过 Dockerfile 下载安装资源并构建一个新的镜像。若用户的机器或资源池无法连通网络，并无法git clone下载代

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc - V”显示正确的安装信息，然后使用Pytorch下述命令验证cuda有效性： print(torch.cuda.is_available())

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在ModelArts的Notebook中，访问外网速度不稳定怎么办？ - AI开发平台ModelArts

ModelArts提供了一个免费的共享网络代理服务。借助这个代理，开发者可以更加便捷地下载所需的各类资源，助力开发工作的顺利进行。由于该网络代理免费且共享，其性能会受到实时访问量大小的显著影响。当众多用户同时使用代理进行资源下载时，网络带宽会被大量占用，从而导致代理速度下降，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
专属资源池VPC打通 - AI开发平台ModelArts

“AI专属资源池 > 弹性集群Cluster”，在“网络”页签，单击网络列表中某个网络操作列的“打通VPC”。图1 打通VPC 在打通VPC弹框中，打开“打通VPC”开关，在下拉框中选择可用的VPC和子网。需要打通的对端网络不能和当前网段重叠。图2 打通VPC参数选择如果

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
配置Standard专属资源池可访问公网 - AI开发平台ModelArts

云服务使用SFS Turbo，完成委托权限配置。关联SFS Turbo功能，仅适用于HPC型的文件系统。一个SFS盘最多可关联1个网络。在“网络”页签，单击网络列表中某个网络操作列的“更多 > 关联SFS Turbo”。在“关联SFS Turbo”弹窗中，选择SFS Turbo。如果没有SFS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

上进行训练。镜像中使用的AI引擎是PyTorch，训练使用的资源是专属资源池的Ascend芯片。准备工作准备一套可以连接外部网络，装有Linux系统并安装18.09.7及以上版本docker的虚拟机或物理机用作镜像构建节点，以下称“构建节点”。可以通过执行docker pull、apt-get

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
ModelArts训练专属资源池如何与SFS弹性文件系统配置对等链接？ - AI开发平台ModelArts

ModelArts训练专属资源池如何与SFS弹性文件系统配置对等链接？配置训练专属资源池与SFS弹性文件系统的对等链接，需要资源池打通VPC，使得资源池与SFS弹性文件系统所配置的VPC相同。配置完成后，在创建训练作业时，就可以看到SFS的配置选项。打通VPC步骤请参考打通VPC。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard专属资源池
在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

模型复杂化。对同一个算法复杂化。例如回归模型添加更多的高次项，增加决策树的深度，增加神经网络的隐藏层数和隐藏单元数等。弃用原来的算法，使用一个更加复杂的算法或模型。例如用神经网络来替代线性回归，用随机森林来代替决策树。增加更多的特征，使输入数据具有更强的表达能力。特征

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

Server上配置DCGM监控，用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具，提供多种能力，包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。约束限制仅适用于GPU资源监控。前提条件裸

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
不同机型的对应的软件配套版本 - AI开发平台ModelArts

集群规模：50|200|1000|2000 集群网络模式：容器隧道网络|VPC 分布式训练时仅支持容器隧道网络集群转发模式：iptables|ipvs gpu-beta gpu-driver rdma-sriov-dev-plugin 插件版本匹配关系请见表3。 gp-ant1 RoCE 操作系统：EulerOS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
专属资源池关联SFS Turbo显示异常 - AI开发平台ModelArts

专属资源池关联SFS Turbo时显示异常，关联失败。图1 关联异常图2 报错提示问题现象2 网络操作解除关联SFS Turbo后状态仍显示已关联且无报错信息，而解除关联按钮置灰不可操作。同时该网络的解除关联SFS Turbo按钮置灰不可操作。图3 关联SFS Turbo状态原因分析

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
Lite Cluster高危操作一览表 - AI开发平台ModelArts

升级、回退、卸载os-node-agent。导致驱动升级、故障检测、指标采集、节点运维功能异常。高联系华为云技术支持重装os-node-agent。升级、回退、卸载rdma-sriov-dev-plugin。可能影响容器内使用RDMA网卡。高联系华为云技术支持重装rd

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读

总条数： 1545

上一页
1
2
3
4
5
...
78
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

使用SSH连接，报错“Connection reset”如何解决？ - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

JupyterLab中文件保存失败，如何解决？ - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

在ModelArts的Notebook中，访问外网速度不稳定怎么办？ - AI开发平台ModelArts

专属资源池VPC打通 - AI开发平台ModelArts

配置Standard专属资源池可访问公网 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

ModelArts训练专属资源池如何与SFS弹性文件系统配置对等链接？ - AI开发平台ModelArts

在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

专属资源池关联SFS Turbo显示异常 - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线