检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
13.0-de803ac9 INFO:root:Using OBS-Python-SDK-3.1.2 INFO:root:Using MoXing-v1.13.0-de803ac9 INFO:root:Using OBS-Python-SDK-3.1.2 原因分析 Pytorch
info”,完整输出下图内容则为正常。 如果命令未按照下图完整输出(比如命令报错或只输出了上半部分没有展示下面的进程信息),则需要先尝试恢复npu-smi工具(提交工单联系华为云技术支持),将npu-smi恢复后,再进行新版本的固件驱动安装。 图6 检查npu-smi工具 工具检查正常后,进行固件和驱动安装。 固件和驱动安装时,注意安装顺序:
Adviso主页面 提交性能诊断任务 如果您的NPU性能数据存放在OBS上,Source选择OBS,Path输入OBS地址,格式如obs://bucket1/profiling_dir1,单击Submit按钮。界面参考下图。 图4 分析OBS上的性能数据 如果您的NPU性能数据存放在Noteb
能profiling数据在OBS上,通常需要将TB或者GB级别的profiling数据下载至本地后才能使用msprof-analyze进行分析,大量数据的下载耗时以及对本地大规格存储盘的要求容易导致分析受阻。基于本章节的分析插件,自动串联高性能挂载OBS至ModelArts环境(
多机多卡:大数据量(1T训练数据)、高算力场景(4台8卡Vnt1),存储方案使用“SFS(存放数据)+普通OBS桶(存放代码)”,采用分布式训练。 表1 不同场景所需服务及购买推荐 场景 OBS SFS SWR DEW ModelArts VPC ECS EVS 单机单卡 按需购买。(并行文件系统)
"https://test.obs.{ma_endpoint}.com:443/DATASETS/input/145862135_ab710de93c_n.jpg......", "preview": "https://test.obs.{ma_endpoint}
想要训练更多的epochs(追加30个epochs),假设上一个训练作业的输出目录为“obs://my_bucket/train_url”,则设置参数“checkpoint_url=obs://my_bucket/train_url/last.pt”,并设置参数epochs=8
在ModelArts控制台左侧导航栏中找到“资源管理 > AI专属资源池 > 弹性集群Cluster”,在“Lite资源池”页签中,单击某个资源池名称,进入资源池详情。 单击左侧“配置管理”,进入资源池配置管理页面。 图1 配置管理 在镜像预热中单击编辑图标,填写镜像预热信息。 表1
/user/config/jobstart_hccl.json 多卡训练时,需要依赖“rank_table_file”做卡间通信的配置文件,该文件自动生成,pod启动之后文件地址。为“/user/config/jobstart_hccl.json”,“/user/config/jobstart_hccl
3 打印如下信息,表示上传镜像成功。 图5 成功上传镜像 Step8 注册镜像 镜像上传至SWR成功后,在ModelArts控制台的“镜像管理”页面中单击“注册镜像”。 图6 在ModelArts控制台注册镜像 在镜像源中,选择上一步中上传到SWR自有镜像仓中的镜像名,作为模型推
离线训练安装包准备说明 在华为公有云平台,申请的资源一般默认连通网络。因此用户在准备环境时可以运行 scripts/install.sh 直接下载安装资源,或通过 Dockerfile 下载安装资源并构建一个新的镜像。 若用户的机器或资源池无法连通网络,并无法git clone下
ook页面,关闭ModelArts管理控制台页面。然后,重新打开管理控制台,打开之前无法使用的Notebook,此时的Notebook仍会保留无法使用之前的所有变量空间。 如果重新打开的Notebook仍然无法使用,则进入ModelArts管理控制台页面的Notebook列表页面
ook页面,关闭ModelArts管理控制台页面。然后,重新打开管理控制台,打开之前无法使用的Notebook,此时的Notebook仍会保留无法使用之前的所有变量空间。 如果重新打开的Notebook仍然无法使用,则进入ModelArts管理控制台页面的Notebook列表页面
在进行数据标注前,需要创建相应类型的数据集。具体步骤参考创建数据集。 操作步骤 登录ModelArts管理控制台,在左侧菜单栏中选择“数据准备> 数据标注”,进入“数据标注”管理页面。 在数据标注管理页面,单击页面右上角“创建标注作业”,进入“创建标注作业”页面,根据需求创建不同类型的标注作业。
A050801 节点管理 节点运维 资源预留。 节点被标记为备机,并具有备机污点。 A050802 节点管理 节点运维 未知错误。 节点被标记为具有未知故障污点。 A200001 节点管理 驱动升级 GPU升级。 节点正在执行GPU驱动升级。 A200002 节点管理 驱动升级 NPU升级。
/home/ma-user/etc/ssh_host_rsa_key0 将准备好的sshd启动脚本文件上传至OBS的训练代码目录下。 创建自定义镜像训练作业。 “代码目录”选择存有sshd启动脚本文件的OBS地址。 “启动命令”需要适配sshd启动脚本,如下所示: bash ${MA_JOB_DI
Dockerfile中的"https://${bucket_name}.obs.cn-north-4.myhuaweicloud.com/${folder_name}/pytorch.tar.gz",需要替换为1中pytorch.tar.gz在OBS上的路径(需将文件设置为公共读)。 进入Docker
数据库名称:根据选择的DWS集群,填写数据所在的数据库名称。 表名称:根据选择的数据库,填写数据所在的表。 用户名:输入DWS集群管理员用户的用户名。 密码:输入DWS集群管理员用户的密码。 从DWS导入数据,需要借助DLI的功能,如果用户没有访问DLI服务的权限,需根据页面提示创建DLI的委托。
3 打印如下信息,表示上传镜像成功。 图5 成功上传镜像 Step8 注册镜像 镜像上传至SWR成功后,在ModelArts控制台的“镜像管理”页面中单击“注册镜像”。 图6 在ModelArts控制台注册镜像 在镜像源中,选择上一步中上传到SWR自有镜像仓中的镜像名,作为模型推
3 打印如下信息,表示上传镜像成功。 图7 成功上传镜像 Step8 注册镜像 镜像上传至SWR成功后,在ModelArts控制台的“镜像管理”页面中单击“注册镜像”。 图8 在ModelArts控制台注册镜像 在镜像源中,选择上一步中上传到SWR自有镜像仓中的镜像名,作为模型推