检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
中没有安装Python,可从Python官网下载并安装合适的Python版本。Python版本需大于3.7.x版本且小于3.10.x版本,推荐使用3.7.x版本。 在本地环境执行命令python --version,显示如下内容说明Python已安装。 C:\Users\xxx>python
资源选择推荐 不同AI模型训练所需要的数据量和算力不同,在训练时选择合适存储及训练方案可提升模型训练效率与资源性价比。ModelArts支持单机单卡、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求。针对第一次使用ModelArts的用户,本文提供端到端案例指导,帮助您快
ascendfactory-cli方式启动(推荐) 相对于之前demo.sh方式启动(历史版本)的启动方式,本章节新增了通过benchmark工具启动训练的方式。此方式训练完成后json日志或打屏日志直接打印性能结果,免于计算,方便用户验证发布模型的质量。并且新的训练方式将统一管
认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。 图1 购买ECS Step2 创建镜像组织 在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3 安装Docker
认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。 图1 购买ECS Step2 创建镜像组织 在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3 安装Docker
认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。 图1 购买ECS Step2 创建镜像组织 在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3 安装Docker
认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。 图1 购买ECS Step2 创建镜像组织 在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3 安装Docker
执行训练任务(推荐) 新的训练方式将统一管理训练日志、训练结果和训练配置,使用yaml配置文件方便用户根据自己实际需求进行修改。推荐用户使用该方式进行训练。 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训
文件传输(推荐) 该接口支持上传本地文件和文件夹至OBS,支持下载OBS文件和文件夹至本地,推荐使用该接口。 示例代码 在ModelArts Notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 from modelarts
执行训练任务(推荐) 新的训练方式将统一管理训练日志、训练结果和训练配置,使用yaml配置文件方便用户根据自己实际需求进行修改。推荐用户使用该方式进行训练。 权重文件支持以下组合方式,用户根据自己实际要求选择: 训练stage 不加载权重 增量训练:加载权重,不加载优化器(默认开启)
执行训练任务(推荐) 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
础MindSpore或PyTorch框架和开发调测工具链,推荐用户直接使用该镜像,用户也可以使用自己的业务镜像或昇腾AscendHub提供的镜像。如果镜像中预置的软件版本不是您期望的版本,可以自行安装替换。 开发形式推荐通过容器中暴露的SSH端口以远程开发的模式(VSCode SSH
昇腾云服务6.3.910版本说明(推荐) 本文档主要介绍昇腾云服务6.3.910版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。 配套的基础镜像 芯片 镜像地址 获取方式 镜像软件说明 配套关系 Snt9B 西南-贵阳一 PyTorch: swr
资源规格要求: 计算规格:不同模型训练推荐的NPU卡数请参见不同模型推荐的参数与NPU卡数设置。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡。 Ascend: 8*ascend-snt9b表示昇腾8卡。 推荐使用“西南-贵阳一”Region上的昇腾资源。
启动或停止Lite Server服务器 当您暂时不需要使用弹性节点Server的时候,可以通过对运行中的裸金属实例进行停止操作,停止对资源的消耗。当需要使用的时候,对于停止状态的弹性节点Server,可以通过启动操作重新使用弹性节点Server。 登录ModelArts管理控制台。
查看Lite Server服务器详情 在您创建了Lite Server服务器后,可以通过管理控制台查看和管理您的Lite Server服务器。本节介绍如何查看Lite Server服务器的详细信息,包括名称/ID、规格、镜像等信息。 在弹性节点Server的节点列表页中,可以查看
不同模型推荐的参数与NPU卡数设置 表1 不同模型推荐的参数与NPU卡数设置 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gr
不同模型推荐的参数与NPU卡数设置 表1 不同模型推荐的参数与NPU卡数设置 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gr
同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器,当用户在云服务器页面修改了裸金属服务器状态后,您可通过“同步”功能,同步其状态至ModelArts。 登录ModelArts管理控制台。 在左侧导航栏中,选择“AI专属资源池 > 弹性节点 Server”,进入“节点”列表页面。
切换Lite Server服务器操作系统 场景描述 Lite Server为一台弹性裸金属服务器,您可以使用BMS服务提供的切换操作系统功能,对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式: 在BMS控制台切换操作系统 使用BMS Go SDK的方式切换操作系统