检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;
模型列表和权重文件。 本章节介绍如何使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel,W8A16 per-channel Step1 环境准备 在节点自定义目录${node_path}下创建config.yaml文件 apiVersion:
AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel, W8A16
模型列表和权重文件。 本章节介绍如何使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel,W8A16 per-channel Step1 环境准备 在节点自定义目录${node_path}下创建config.yaml文件 apiVersion:
由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;
由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;
空间迁移包括资源池迁移和网络迁移,具体方法可见下文说明。 资源池工作空间迁移 登录ModelArts管理控制台,选择“AI专属资源池 > 弹性集群Cluster”,进入“Standard资源池”页面。 在资源池列表中,选择目标资源池右侧操作列的“ > 工作空间迁移”。 在弹出的“
ECS获取基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:C
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
解决问题。 问题定位 您可以参考以下步骤,查看资源池创建失败的报错信息,并根据相应的解决方法解决问题: 登录ModelArts控制台,单击弹性集群,单击资源池列表上方的“操作记录”查看创建失败的资源池。 单击“操作记录”中失败状态的报错信息。 图1 查看报错信息 解决方法 Mod
通过打通VPC,可以方便用户跨VPC使用资源,提升资源利用率。 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,在“网络”页签,单击网络列表中某个网络操作列的“打通VPC”。 图1 打通VPC 在打通VPC弹框中,打开“打通VP
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
如果之前给ModelArts创过委托授权,此处可以更新授权。 进入到ModelArts控制台的“资源管理>AI专属资源池>弹性节点Server”页面,查看是否存在授权缺失的提示。 图4 弹性节点Server权限缺失提示 如果有授权缺失,根据提示,单击“此处”更新委托。根据提示选择“追加至已有授权
local_dir = "/home/ma-user/work/qwen-14b" mox.file.copy_parallel(obs_dir, local_dir) 实际操作如下图所示。 图1 上传OBS文件到Notebook的代码示例 Step3 启动推理服务 配置需要使用的NPU卡为
1,构建一个面向AI任务的镜像。 加载镜像模板后,Dockerfile文件自动加载,在“.ma/upgrade_ascend_mindspore_1.8.1_and_cann_5.1.RC2”路径下,双击Dockerfile文件打开,内容参考如下,根据实际需求修改: #The following
kpoints中最大迭代次数(iter_000xxxx)Megatron格式权重文件。 lora微调不支持断点续训 启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持
kpoints中最大迭代次数(iter_000xxxx)Megatron格式权重文件。 lora微调不支持断点续训 启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持
在ModelArts控制台开通自动续费 包年/包月的Standard专属资源池和弹性集群Lite Cluster资源池在购买时或购买成功后支持开通自动续费。 购买时开通自动续费 在ModelArts控制台“AI专属资源池 > 弹性集群Cluster”页面中的Standard资源池页签中,单击“购
Client、OBS Client。 OBS管理概述 ModelArts SDK支持对OBS的SDK接口进行调用,包括创建OBS桶,上传/下载文件和文件夹,删除OBS对象和桶。 ModelArts SDK具体操作管理请参见如下章节: 数据管理 训练管理 模型管理 服务管理 介绍使用ModelArts