检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU A系列裸金属服务器RoCE带宽不足如何解决? 问题现象 GP Ant8支持RoCE网卡, Ubuntu20.04场景,在进行nccl-tests时,总线带宽理论峰值可达90GB/s,但实际测试下来的结果只有35GB/s。 原因分析 “nv_peer_mem”是一个Linu
资源池,如何解决? 问题现象 已购买专属资源池,但创建Notebook时该资源池不可选择,无法创建Notebook。 提示当前专属资源池未初始化开发环境,请到专属资源池页面初始化开发环境。 原因分析 新购买的专属资源池,需要初始化环境才能用于创建Notebook。 解决方法 请到专属资源池页面初始化开发环境。
如何解决训练过程中出现的cudaCheckError错误? 问题现象 Notebook中,运行训练代码出现如下错误。 cudaCheckError() failed : no kernel image is available for execution on the device
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。
常见的磁盘空间不足的问题和解决办法 该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下: 本地数据、文件保存将"/cache"目录空间用完。
报错“Connection permission denied (publickey)”如何解决 问题现象 VS Code连接开发环境时报错“Connection permission denied (publickey). Please make sure the key file
如何解决“在IOS系统里打开ModelArts的Notebook,字体显示异常”的问题? 问题现象 在IOS系统里打开ModelArts的Notebook时,字体显示异常。 解决方法 设置Terminal的“fontFamily”为“Menlo”。 操作步骤 登录ModelArt
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败常见问题
报错“The VS Code Server failed to start”如何解决? 问题现象 解决方法 检查VS Code版本是否为1.78.2或更高版本,如果是,请查看Remote-SSH版本,若低于v0.76.1,请升级Remote-SSH。 打开命令面板(Windows:
创建训练作业时提示“对象目录大小/数量超过限制”,如何解决? 问题分析 创建训练作业选择的代码目录有大小和文件个数限制。 解决方法 将代码目录中除代码以外的文件删除或存放到其他目录,保证代码目录大小不超过128MB,文件个数不超过4096个。 父主题: 创建训练作业
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败故障处理
open”如何解决? 问题现象 原因分析 原因分析一:密钥文件未放在指定路径,详情请参考安全限制或VS Code文档。请参考解决方法一处理。 原因分析二:当操作系统为macOS/Linux时,可能是密钥文件或放置密钥的文件夹权限问题,请参考解决方法二处理。 解决方法 解决方法一: 请将密钥放在如下路径或其子路径下:
发布解决方案 如果你已经注册成为了AI Gallery平台上的合作伙伴,AI Gallery支持发布共享你的解决方案。 在“AI Gallery”页面中,单击右上角“我的Gallery > 我的主页”进入个人中心页面。 左侧菜单栏选择“解决方案”进入解决方案列表页,单击右上方的“发布”,进入发布解决方案页面。
than threshold %dG”如何解决? 问题现象 在Notebook里保存镜像时报错“container size %dG is greater than threshold %dG”。 原因分析 Notebook容器当前的大小超过了阈值。 解决方案 需要减少容器大小。Note
open”如何解决? 问题现象 原因分析 原因分析一:密钥文件未放在指定路径,详情请参考安全限制或VS Code文档。请参考解决方法一处理。 原因分析二:当操作系统为macOS/Linux时,可能是密钥文件或放置密钥的文件夹权限问题,请参考解决方法二处理。 解决方法 解决方法一: 请将密钥放在如下路径或其子路径下:
报错“The VS Code Server failed to start”如何解决? 问题现象 解决方法 检查VS Code版本是否为1.78.2或更高版本,如果是,请查看Remote-SSH版本,如果Remote-SSH版本低于v0.76.1,请升级Remote-SSH。 打开命令面板(Windows:
C:/Users/xx /test.pem: No such file or directory”如何解决? 问题现象 原因分析 密钥文件不存在于该路径下,或者该路径下密钥文件名被修改。 解决方法 重新选择密钥路径。 父主题: VS Code连接开发环境失败故障处理
connect to host xxx.pem port xxxxx: Connection refused”如何解决? 问题现象 原因分析 实例处于非运行状态。 解决方法 请前往ModelArts控制台查看实例是否处于运行状态,如果实例已停止,请执行启动操作,如果实例处于其他状
断开或卡顿,如何解决? 问题现象 MobaXterm成功连接到开发环境后,过一段时间会自动断开。 可能原因 配置MobaXterm工具时,没有勾选“SSH keepalive”或专业版MobaXterm工具的“Stop server after”时间设置太短。 解决方案 打开Mo
connect to host xxx.pem port xxxxx: Connection refused”如何解决? 问题现象 原因分析 网络不通;端口不通。 解决方法 检查实例是否运行。 请前往ModelArts控制台查看实例是否处于运行状态,如果实例已停止,请执行启动操作