检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
称 图1 dev_pipeline.sh添加代码位置和内容 在llm_train/AscendSpeed/scripts/tools的路径下,新建脚本文件get_rank_table.py ,具体代码如下所示。 import os import re import sys import
Manifest文件编写规范要求较多,推荐使用OBS目录导入方式导入新数据。一般此功能常用于不同区域或不同账号下ModelArts的数据迁移,即当您已在某一区域使用ModelArts完成数据标注,发布后的数据集可从输出路径下获得其对应的Manifest文件。在获取此Manifest文件后,可将此数据集导入其
obs_path=base_bucket_path + 'train/') 参数解释: code_dir:必选参数,训练脚本所在的目录。在训练任务调测的情况下,必须是notebook中的目录,不能是OBS目录。 boot_file:必选参数,训练启动文件路径,路径格式为基于code_dir目录的相
资源池的主资源id,通常提供给cbc使用。 os.modelarts/tenant.domain.id String 资源池的租户id,记录资源池创建在哪个租户账号下。 表15 PoolMetaAnnotations 参数 参数类型 描述 os.modelarts/description String 资源池的描述信息。
join("directory_path/metrics.json", create_dir=False))) # 相关metrics信息由作业的脚本代码自行输出到配置的路径下 ], spec=wf.steps.JobSpec( resource=wf.steps.JobResource(
--image-name String 否 查询指定镜像名称的镜像详情。 -wi / --workspace-id String 否 查询指定工作空间下的镜像信息。 -pn / --page-num Int 否 镜像页索引,默认是第1页。 -ps / --page-size Int 否 每页显示的镜像数量,默认是20。
RDMA重传(跨节点通信):对应html中的“Communication Retransmission Analysis”。当网络通信配置出现冲突情况下,RDMA通信传输可能出现重传,导致通信耗时异常大幅增加。 具体介绍如下: BandWidth Contention Analysis 下图
dl=1 将权重vgg16-397923af.pth复制到 /home/ma-user/.cache/torch/hub/checkpoints/下,这个文件夹需要自己创建。 cp weights/vgg16-397923af.pth /home/ma-user/.cache/torch
String 否 算法的代码目录下载到训练容器内的本地路径。 --user-command String 否 自定义镜像执行命令。需为/home下的目录。 当code-dir以file://为前缀时,当前字段不生效。 --pool-id String 否 训练作业选择的资源池ID。可在
OUTPUT_SAVE_DIR /home/ma-user/work/AscendFactory/saved_dir_for_output/ 【必改】该路径下统一保存生成的 CKPT、PLOG、LOG 文件。如果用户需要修改,可添加并自定义该变量。 ASCEND_PROCESS_LOG_PATH