检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
后,会默认放入回收站占用内存,导致磁盘空间不足。 磁盘配额不足。 处理方法 查看虚拟机所使用的存储空间,再查看回收站文件占用内存,根据实际删除回收站里不需要的大文件。 在Notebook实例详情页,查看实例的存储容量。 执行如下命令,排查虚拟机所使用的存储空间,一般接近存储容量,请排查回收站占用内存。
使用方式是边用边释放)。 程序运行过程中,产生了core文件,core文件占满了"/"根目录空间。 处理方法 排查数据集大小、数据集解压后的大小,checkpoint保存文件大小,是否占满了磁盘空间。具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小 如数
left on device” 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认的10GB,导致作业训练失败。
not recoverable: exitng now.”如何解决? 问题现象 或 原因分析 可能为/home/ma-user/work磁盘空间不足。 解决方法 删除/home/ma-user/work路径下无用文件。 父主题: VS Code连接开发环境失败常见问题
程序运行过程中,产生了core文件,core文件占满了"/"根目录空间。 本地数据、文件保存将"/cache"目录3.5T空间用完了。 云上训练磁盘空间一般指如下两个目录的磁盘空间: “/”根目录,是docker中配置项“base size”,默认是10G,云上统一改为50G。 “/cache”目录满了,一般是3.5
not recoverable: exitng now.”如何解决? 问题现象 或 原因分析 可能为/home/ma-user/work磁盘空间不足。 解决方法 删除/home/ma-user/work路径下无用文件。 父主题: VS Code连接开发环境失败故障处理
在AI Gallery订阅商品失败怎么办? AI Gallery是在ModelArts的基础上构建的开发者生态社区,提供模型、算法、HiLens技能、数据集等内容的共享。当您订阅商品失败可参照如下方式解决: 请检查您是否完成实名认证。 账号注册成功后,您需要完成“实名认证”才可以
html。 报错500 Notebook JupyterLab页面无法打开,报错500,可能是工作目录work下的磁盘空间满了,请参考Notebook提示磁盘空间已满排查并清理磁盘空间。 报错This site can't be reached 创建完Notebook后,单击操作列的“打开”,报错如下:
html。 报错500 Notebook JupyterLab页面无法打开,报错500,可能是工作目录work下的磁盘空间满了,请参考Notebook提示磁盘空间已满排查并清理磁盘空间。 报错This site can't be reached 创建完Notebook后,单击操作列的“打开”,报错如下:
导入AI应用后部署服务,提示磁盘不足 问题现象 用户在导入AI应用后,部署服务时,提示磁盘空间不足:“No space left on device”。 原因分析 ModelArts部署使用的是容器化部署,容器运行时有空间大小限制,当用户的模型文件或者其他自定义文件,系统文件超过Docker
PC的方式,使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内,实现专属资源池访问外网。 前提条件 已拥有需要部署SNAT的弹性云服务器。 待部署SNAT的弹性云服务器操作系统为Linux操作系统。 待部署SNAT的弹性云服务器网卡已配置为单网卡。 步骤一:打通VPC 通
下载或读取文件报错,提示超时、无剩余空间 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的10GB,导致作业训练失败。
同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器,当用户在云服务器页面修改了裸金属服务器状态后,您可通过“同步”功能,同步其状态至ModelArts。 登录ModelArts管理控制台。 在左侧导航栏中,选择“AI专属资源池 > 弹性节点 Server”,进入“弹性节点
一台可访问外网的Ubuntu服务器。如果没有请具备以下条件: 准备一台ECS服务器(建议规格选8U或者以上,镜像选择Ubuntu,建议选择22.04版本,本地存储100G),具体操作请参考《弹性云服务器快速入门》。 购买弹性公网IP,并绑定到购买的弹性云服务器ECS上,具体操作请参见《弹性公网IP快速入门》。
本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档,您可以实现弹性云服务器访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图1
GPU裸金属服务器无法Ping通如何解决 问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。 ping命令
身份认证与访问控制 身份认证 用户访问ModelArts的方式有多种,包括ModelArts控制台、API、SDK,无论访问方式封装成何种形式,其本质都是通过ModelArts提供的REST风格的API接口进行请求。 ModelArts的接口均需要进行认证鉴权以此来判断是否通过身
使用Gallery CLI配置工具下载文件 在服务器(ModelArts Lite云服务器或者是本地Windows/Linux等服务器)上登录Gallery CLI配置工具后,通过命令“gallery-cli download”可以从AI Gallery仓库下载资源。 命令说明 登录Gallery
获取待上传的文件名 获取待上传的文件在服务器的绝对路径。 上传单个文件 在服务器执行如下命令,可以将服务器上的文件上传到AI Gallery仓库里面。 gallery-cli upload {repo_id} {文件名} 如下所示,表示将服务器上的文件“D:\workplace\m
系统管理员。专属资源池扩容,可参考扩缩容资源池。 如果磁盘空间不够,可以尝试重试,使实例调度到其他节点。如果单实例仍磁盘空间不足,请联系系统管理员,更换合适的规格。 如果是大模型导入的AI应用部署服务,请确保专属资源池磁盘空间大于1T(1000GB)。 父主题: 服务部署