检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
job_name:可选参数,训练任务名,便于区分和记忆。 本地分布式训练任务开始后,SDK会依次帮助用户完成以下流程: 将训练脚本打包成zip文件,上传到3中指定的obs_path中。 如果训练数据保存在Notebook中,则将其打包成zip文件并上传到指定的obs_path中。 创建一个附属
相关章节 创建单机多卡的分布式训练(DataParallel):介绍单机多卡数据并行分布式训练原理和代码改造点。 创建多机多卡的分布式训练(DistributedDataParallel):介绍多机多卡数据并行分布式训练原理和代码改造点。 示例:创建DDP分布式训练(PyTorch+
分布式模型训练 分布式训练功能介绍 创建单机多卡的分布式训练(DataParallel) 创建多机多卡的分布式训练(DistributedDataParallel) 示例:创建DDP分布式训练(PyTorch+GPU) 示例:创建DDP分布式训练(PyTorch+NPU) 父主题:
任务,给出了单机训练和分布式训练改造(DDP)的代码。直接执行代码为多节点分布式训练且支持CPU分布式和GPU分布式,将代码中的分布式改造点注释掉后即可进行单节点单卡训练。 训练代码中包含三部分入参,分别为训练基础参数、分布式参数和数据相关参数。其中分布式参数由平台自动入参,无需
创建单机多卡的分布式训练(DataParallel) 本章节介绍基于PyTorch引擎的单机多卡数据并行训练。 MindSpore引擎的分布式训练参见MindSpore官网。 训练流程简述 单机多卡数据并行训练流程介绍如下: 将模型复制到多个GPU上 将一个Batch的数据均分到每一个GPU上
选择OBS桶中训练code文件夹所在路径,例如“obs://test-modelarts/code/”。 启动命令 输入镜像的Python启动命令,例如: bash ${MA_JOB_DIR}/code/torchrun.sh 代码示例 文件目录结构如下所示,将以下文件上传至OBS桶中:
文件传输(推荐) 该接口支持上传本地文件和文件夹至OBS,支持下载OBS文件和文件夹至本地,推荐使用该接口。 示例代码 在ModelArts Notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 from modelarts
在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练? ModelArts会帮用户生成RANK_TABLE_FILE文件,可通过环境变量查看文件位置。 在Notebook中打开terminal,可以运行如下命令查看RANK_TABLE_FILE: 1 env
”目录下的“*.log”文件将会被自动上传至ModelArts训练作业的日志目录(OBS)。如果本地相应目录没有生成大小>0的日志文件,则对应的父级目录也不会上传。因此,PyTorch NPU的plog日志是按worker存储的,而不是按rank id存储的(这是区别于MindSpore的)。目前,PyTorch
桶中的文件。 处理方法 读取文件报错,您可以使用Moxing将数据复制至容器中,再直接访问容器中的数据。请参见步骤1。 您也可以根据不同的文件类型,进行读取。请参见读取“json”文件、读取“npy”文件、使用cv2库读取文件和在MXNet环境下使用torch包。 读取文件报错,
variable is used in loss computation. 原因分析 分布式Tensorflow不能使用“tf.variable”要使用“tf.get_variable”。 处理方法 请您将“启动文件”中的“tf.variable”替换为“tf.get_variable”。 父主题:
下载OBS文件? 在Notebook中可以通过调用ModelArts的Moxing接口或者SDK接口与OBS交互,将Notebook中的文件上传至OBS,或者下载OBS中的文件至Notebook中。 图1 Notebook中上传下载OBS文件 使用OBS客户端上传文件的操作指导:上传文件
在ModelArts中如何查看OBS目录下的所有文件? 在使用Notebook或训练作业时,需要查看目录下的所有文件,您可以通过如下方式实现: 通过OBS管理控制台进行查看。 使用当前账户登录OBS管理控制台,去查找对应的OBS桶、文件夹、文件。 通过接口判断路径是否存在。在已有的No
训练失败。 实际存储空间足够,却依旧报错“No Space left on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引表,短时间内创建较多文件时,会导致索引表达到上限,进而报错。 触发条件和下面的因素有关: 文件名越长,文件数量的上限越小
clone的py文件变为ipynb文件? 问题描述 在ModelArts的Notebook中如何将git clone的py文件变为ipynb文件? 处理方法 在ipynb文件中,执行%load XXX.py命令,即可将py文件内容加载到ipynb中。 以“test.py”文件为例,下图展示了如何将“test
解析Manifest文件 解析Manifest文件,支持本地和OBS。如果是OBS,需要Session信息。 manifest.parse_manifest(manifest_path, encoding='utf-8') 示例代码 通过Manifest路径来解析获取Manifest的信息。
MoXing如何访问文件夹并使用get_size读取文件夹大小? 问题现象 使用MoXing无法访问文件夹。 使用MoXing的“get_size”读取文件夹大小,显示为0。 原因分析 使用MoXing访问文件夹,需添加参数:“recursive=True”,默认为False。 处理方法
nal的文件和OBS的文件之间的关系是什么? JupyterLab目录的文件与Terminal中work目录下的文件相同。即用户在Notebook中新建的,或者是从OBS目录中同步的文件。 挂载OBS存储的Notebook,JupyterLab目录的文件可以与OBS的文件进行同步
如图所示为8卡,pod配置成功。 图4 查看卡信息 查看卡间通信配置文件,执行以下命令。 cat /user/config/jobstart_hccl.json 多卡训练时,需要依赖“rank_table_file”做卡间通信的配置文件,该文件自动生成,pod启动之后文件地址。为“/user/config/jobstart_hccl
查看YAML”查看节点配置信息。 查看节点的yaml文件里“cce.kubectl.kubernetes.io/ascend-rank-table”字段是否有值。 如图所示,表示有值,节点已开启topo文件和ranktable文件的下发。否则,联系技术支持处理。 图5 查看节点的yaml文件 父主题: Lite