-
如何通过docker启动Notebook保存后的镜像 - AI开发平台ModelArts
如何通过docker启动Notebook保存后的镜像 Notebook保存后的镜像有Entrypoint参数,如图1。
-
Step1 准备Docker机器并配置环境信息 - AI开发平台ModelArts
Step1 准备Docker机器并配置环境信息 准备一台具有Docker功能的机器,如果没有,建议申请一台弹性云服务器并购买弹性公网IP,并在准备好的机器上安装必要的软件。 ModelArts提供了ubuntu系统的脚本,方便安装docker。
-
NPU Snt9B裸金属服务器docker网络配置方案 - AI开发平台ModelArts
桥接模式(Bridge) docker容器默认为该模式。容器使用独立network Namespace,并连接到docker0虚拟网卡。
-
GP Vnt1裸金属服务器的Docker模式环境搭建 - AI开发平台ModelArts
apt-get update apt-get install -y nvidia-container-toolkit nvidia-ctk runtime configure --runtime=docker systemctl restart docker 验证Docker模式环境是否安装成功
-
Step3 注册新镜像 - AI开发平台ModelArts
登录后使用docker push命令进行推送,如下: docker push swr.cn-north-4.myhuaweicloud.com/sdk-test/pytorch_1_8:v1 完成后即可在SWR上看到该镜像。
-
使用基础镜像构建新的训练镜像 - AI开发平台ModelArts
安装Docker。如果docker images命令可以执行成功,表示Docker已安装,此步骤可跳过。 以linux x86_64架构的操作系统为例,获取Docker安装包。您可以使用以下指令安装Docker。
-
导入AI应用对于镜像大小限制 - AI开发平台ModelArts
处理方法 公共资源池容器Docker size的大小最大支持10G,专属资源池Docker size的大小最大支持30G。 如果使用的是OBS导入或者训练导入,则包含基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和。
-
Step2 制作自定义镜像 - AI开发平台ModelArts
Step2 制作自定义镜像 这一节描述如何编写一个Dockerfile,并据此构建出一个新镜像在Notebook创建实例并使用。关于Dockerfile的具体编写方法,请参考官网。 前提条件 已参考Step1 准备Docker机器并配置环境信息完成docker机器准备。
-
DCGM监控方案 - AI开发平台ModelArts
5、安装Grafana 运行社区最新发行的Grafana版本: docker run -d -p 3000:3000 grafana/grafana-oss 在BMS页面打开Grafana所在节点的安全组配置,添加入方向规则,允许外部访问3000、9090端口: 在浏览器地址栏输入
-
NPU Snt9B裸金属服务器多机免密互通解决方案 - AI开发平台ModelArts
NPU Snt9B裸金属服务器多机免密互通解决方案 问题现象 在使用华为云Snt9B裸金属服务器多机多docker容器进行SSH免密互通时,发现免密互通失败。
-
场景描述 - AI开发平台ModelArts
裸机上的开发形式建议开发者启动独立的Docker容器作为个人开发环境。Snt9b的裸机包含8卡算力资源,一般来说多人可以共用这个裸机完成开发与调测工作。多人使用为了避免冲突,建议各自在自己的docker容器中进行独立开发,并提前规划好每个人使用的具体卡号,避免相互影响。
-
线下容器镜像构建及调试 - AI开发平台ModelArts
docker和linux的文件交互命令如下: docker cp data/ 39c9ceedb1f6:/cache/ 数据准备完成后,启动训练的脚本,查看训练是否能够正常拉起。
-
容器镜像拉取 - AI开发平台ModelArts
的容器镜像,包含mindspore 2.2.0 + mindspore-lite 2.2.0 + Ascend CANN Toolkit 7.0.1 docker pull swr.cn-southwest-2.myhuaweicloud.com/atelier/mindspore
-
容器化个人调测环境搭建 - AI开发平台ModelArts
通常为了避免机器重启后环境丢失,建议将已经配好的环境保存成新的镜像,命令如下: # 查看需要保存为镜像的容器ID docker ps # 保存镜像 docker commit 容器ID 自定义镜像名:自定义镜像tag # 查看已保存的镜像 docker images
-
在k8s集群配置Ascend使用环境 - AI开发平台ModelArts
pkill -9 python ps -ef 图21 关闭训练进程 父主题: k8s Cluster资源配置
-
镜像过大,卸载原来的包重新打包镜像,或者把原有的数据集从镜像中删除,最终镜像会变小吗? - AI开发平台ModelArts
因为Docker镜像的层原因,当前的镜像是基于原来的镜像制作,而原来的镜像层数是无法改变的,层不变的情况下,大小是不变的,卸载包或者删除数据集,会新增镜像层,镜像反而会变大,这和传统概念的存储不一样。 父主题: FAQ
-
使用ma-cli image get-image查询ModelArts已注册镜像 - AI开发平台ModelArts
使用ma-cli image get-image查询ModelArts已注册镜像 Dockerfile一般需要提供一个基础镜像的地址,目前支持从docker hub等开源镜像仓拉取公开镜像,以及SWR的公开或私有镜像。
-
Notebook基础镜像列表 - AI开发平台ModelArts
Notebook基础镜像列表 ModelArts开发环境提供Docker容器镜像,可作为预构建容器运行。
-
镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决? - AI开发平台ModelArts
原因分析 镜像保存本质是通过在资源集群节点上的agent中进行了docker commit,再配合一系列自动化操作来上传和更新管理数据等。每次Commit都会带来额外的一些开销,层数越多镜像越大,如果多次保存后就会有存储显示没那么大,但是镜像已经很大了。
-
日志提示“No space left on device” - AI开发平台ModelArts
分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No Space left on device”。