检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用从容器镜像中选择创建模型时,在构建镜像环节,需要采用业界公开的可信基础镜像,例如来自OpenEuler,Ubuntu等的发布镜像,镜像运行用户需要创建非root普通用户,不能采用root用户直接运行。
import os os.system("ulimit -c 0") 排查数据集大小,checkpoint保存文件大小,是否占满了磁盘空间。 必现的问题,使用本地Pycharm远程连接Notebook调试。
_7.0.1-py_3.9-euler_2.10.7-aarch64-snt9b Ascend snt9b Notebook、训练、推理部署 mindspore_2.1.0-cann_6.3.2-py_3.7-euler_2.10.7-aarch64-snt9b Ascend snt9b
注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。 图1 购买ECS Step2 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
本例的Dockerfile将基于MindSpore基础镜像mindspore1.7.0-cann5.1.0-py3.7-euler2.8.3,升级到cann 5.1.RC2和MindSpore1.8.1,构建一个面向AI任务的镜像。
-euler_2.10.7-aarch64-snt9b 2024-07-27 基于昇腾715商发版本,cann更新至8.0.rc2,配套驱动Ascend HDK 24.1.RC2 pytorch_1.11.0-cann_8.0.rc2-py_3.9-euler_2.10.7-aarch64
*archive.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list && \ sed -i "s@http://.
docker pull swr.cn-southwest-2.myhuaweicloud.com/os-public-repo/bert_pretrain_mindspore:v1 docker tag swr.cn-southwest-2.myhuaweicloud.com/os-public-repo
注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。 图1 购买ECS 创建镜像组织。 在SWR服务页面创建镜像组织。 图2 创建镜像组织 安装Docker。 检查docker是否安装。
_2.8.3-aarch64 tensorflow_1.15.0-cann_5.1.0-py_3.7-euler_2.8.3-aarch64 pytorch_1.8.1-cann_5.1.0-py_3.7-euler_2.8.3-aarch64 父主题: Ascend相关问题
-euler_2.10.7-aarch64-snt9b 贵阳一 pytorch_1.11.0-cann_6.3.2-py_3.7-euler_2.10.7-aarch64-snt9b 可通过如下方式接入Notebook开发环境进行调试。
自动搜索目前仅支持“tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64”和“pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64”镜像 添加训练约束。
DevServer权限 表1 DevServer细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 创建DevServer实例 POST /v1/{project_id}/dev-servers modelarts:devserver:create ecs
DevServer管理 查询用户所有DevServer实例列表 创建DevServer 查询DevServer实例详情 删除DevServer实例 实时同步用户所有DevServer实例状态 启动DevServer实例 停止DevServer实例
Lite Cluster&Server介绍 ModelArts Lite基于软硬件深度结合、垂直优化,构建开放兼容、极致性价比、长稳可靠、超大规模的云原生AI算力集群,提供一站式开通、网络互联、高性能存储、集群管理等能力,满足AI高性能计算等场景需求。目前其已在大模型训练推理、自动驾驶
因此推荐通用的解决方案:使用os接口得到依赖文件的绝对路径,避免报错。 以下示例展示如何通过os接口获得其他文件夹下的依赖文件路径。
监控Lite Server资源 使用CES监控Lite Server资源 使用DCGM监控Lite Server资源 父主题: Lite Server资源管理
释放Lite Server资源 针对不再使用的Lite Server资源,可以删除/退订以释放资源。停止计费相关介绍请见停止计费。 删除“按需计费”的Lite Server资源 登录ModelArts管理控制台。 在左侧导航栏中,选择“AI专属资源池 > 弹性节点 Server”,
Lite Server资源开通 图1 Server资源开通流程图 表1 Server资源开通流程 阶段 任务 准备工作 1、申请开通资源规格。 2、资源配额提升。 3、基础权限开通。 4、配置ModelArts委托授权。 5、创建虚拟私有云。 6、创建密钥对。(可选,若为密码登录方式则不需要
Lite Server使用流程 ModelArts Lite Server提供多样化的xPU裸金属服务器,赋予用户以root账号自主安装和部署AI框架、应用程序等第三方软件的能力,为用户打造专属的云上物理服务器环境。用户只需轻松选择服务器的规格、镜像、网络配置及密钥等基本信息,即可迅速创建弹性裸金属服务器