检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
希望提升训练效率,同时减少与对象存储OBS的交互。可通过如下方式进行调整优化。 优化原理 对于ModelArts提供的GPU资源池,每个训练节点会挂载500GB的NVMe类型SSD提供给用户免费使用。此SSD挂载到“/cache”目录,“/cache”目录下的数据生命周期与训练作业生命周期相同,当训练作
满足不同场景的业务需求。云硬盘就类似PC中的硬盘。 存储数据的逻辑 存放的是文件,会以文件和文件夹的层次结构来整理和呈现数据。 存放的是对象,可以直接存放文件,文件会自动产生对应的系统元数据,用户也可以自定义文件的元数据。 存放的是二进制数据,无法直接存放文件,如果需要存放文件,需要先格式化文件系统后使用。
据和算法至OBS(首次使用时需要)。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像需要用Ubuntu 18.04的。 ECS服务器和SFS Turbo需要在同一子网中。 操作步骤 在ECS服务器中设置华为云镜像源。 sudo sed -i
启动或停止Lite Server服务器 当您暂时不需要使用弹性节点Server的时候,可以通过对运行中的裸金属实例进行停止操作,停止对资源的消耗。当需要使用的时候,对于停止状态的弹性节点Server,可以通过启动操作重新使用弹性节点Server。 登录ModelArts管理控制台。
存,导致磁盘空间不足。 磁盘配额不足。 处理方法 查看虚拟机所使用的存储空间,再查看回收站文件占用内存,根据实际删除回收站里不需要的大文件。 在Notebook实例详情页,查看实例的存储容量。 执行如下命令,排查虚拟机所使用的存储空间,一般接近存储容量,请排查回收站占用内存。 cd
供了多个CIDR网段的选项,用户可以根据自己的实际情况进行选择。虚拟私有云VPC是一套为实例构建的逻辑隔离的、由用户自主配置和管理的虚拟网络环境。为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境,提升用户资源的安全性,简化用户的网络部署。 登录Mod
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 问题现象 在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7,使用Pytorch2.0时出现如下错误: CUDA
在Notebook上安装配置Grafana 适用场景 本章节适用于在ModelArts Standard的Notebook中安装配置Grafana。 前提条件 已创建CPU或GPU类型的Notebook实例,并处于运行中。 打开Terminal。 操作步骤 在Terminal中依
服务器资源id。 type String DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String 服务器所属的超节点资源id。 表4 Endpoints 参数 参数类型 描述 allowed_access_ips
服务器资源id。 type String DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String 服务器所属的超节点资源id。 表4 Endpoints 参数 参数类型 描述 allowed_access_ips
--device=/dev/davinci7 //npu卡设备 --device=/dev/davinci_manager //davinci相关的设备管理的设备 --device=/dev/devmm_svm //管理设备 --device=/dev/hisi_hdc //管理设备 -v /usr/local
服务器资源id。 type String DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String 服务器所属的超节点资源id。 表4 Endpoints 参数 参数类型 描述 allowed_access_ips
单个弹性公网IP用于单个Server服务器:为单台Server服务器绑定一个弹性公网IP,该Server服务器独享网络资源。 单个弹性公网IP用于多个Server服务器:一个VPC配置一个EIP(弹性公网IP),通过NAT网关配置进行EIP资源共享,实现该VPC下的所有Server服务器均可以通过该E
服务器资源id。 type String DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String 服务器所属的超节点资源id。 表5 Endpoints 参数 参数类型 描述 allowed_access_ips
服务器资源id。 type String DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String 服务器所属的超节点资源id。 表9 Endpoints 参数 参数类型 描述 allowed_access_ips
在ModelArts Standard上运行GPU训练作业的场景介绍 不同AI模型训练所需要的数据量和算力不同,在训练时选择合适的存储及训练方案可提升模型训练效率与资源性价比。ModelArts Standard支持单机单卡、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求。 ModelArts
在SWR服务页面创建镜像组织。 图2 创建镜像组织 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图3 复制登录指令 修改并上传镜像。 在ECS中输入上一步的登录指令后,使用下列示例命令: docker tag {image_url}
在SWR服务页面创建镜像组织。 图2 创建镜像组织 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中复制临时登录指令,即可完成登录。 图3 复制登录指令 修改并上传镜像。 在ECS中输入上一步的登录指令后,使用下列示例命令: docker tag {image_url}
Turbo中单击右上角的“创建文件系统”,如果能正常打开页面,表示当前用户具备SFS的操作权限。 验证ECS权限。 在左上角的服务列表中,选择ECS服务,进入ECS管理控制台。 在ECS管理控制台,单击右上角的“购买弹性云服务器”,如果能正常打开页面,表示当前用户具备ECS的操作权限。 验证VPC权限。
对Lite Server资源对应的裸金属服务器,对其进行关机操作,完成关机后,才可以执行切换操作系统动作。 在裸金属服务的更多选项中,单击切换操作系统,如下图所示。 图2 切换操作系统 在切换操作系统界面,选择上一步接收到的共享镜像即可。 使用BMS Go SDK的方式切换操作系统 以下为