检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理性能,因此请在有图编译缓存文件的前提下启动服务。另外,当启动服务时的模型或者参数发生改变时,请删除
训练脚本说明 Yaml配置文件参数配置说明 模型NPU卡数、梯度累积值取值表 各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明 录制Profiling 父主题: 主流开源大模型基于Lite Server适配LlamaFactory PyTorch
训练脚本说明 Yaml配置文件参数配置说明 模型NPU卡数、梯度累积值取值表 各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明 录制Profiling 父主题: 主流开源大模型基于Lite Server适配LlamaFactory PyTorch
json文件中的图片路径为数据集相对路径,例如qwenvl_dataset/new_single_bar/Chongqing.jpeg。 上传数据集至OBS 准备数据集。 在创建OBS桶创建的桶下创建文件夹用以存放数据,例如在桶standard-qwenvl-7b中创建文件夹training_data。
modelarts.pth 执行如下命令删除用户使用的python环境中的modelarts.pth文件。 # /xxx/modelarts.pth 指用户通过第一步查出来的文件路径 rm -rf /xxx/modelarts.pth 父主题: 自定义镜像故障
自动学习:停止因运行自动学习作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 Workflow:停止因运行Workflow作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 Notebook:删除Notebook实例。删除存储到OBS中的数据及OBS桶。 停止Not
/home/ma-user/ws/save_dir/llama2-70B_sft_lora_4096 【必改】。训练任务结束生成日志及权重文件目录。根据实际情况决定 SHELL_FOLDER $(dirname $(readlink -f "$0")) 表示执行脚本时的路径。 MODEL_NAME
/home/ma-user/ws/save_dir/llama2-70B_sft_lora_4096 【必改】。训练任务结束生成日志及权重文件目录。根据实际情况决定 SHELL_FOLDER $(dirname $(readlink -f "$0")) 表示执行脚本时的路径。 MODEL_NAME
fork/exec /home/ma-user/modelarts/bin/detect/ascend_check: no such file or directory" file="ascend_check.go:56" Command=bootstrap/run Component=ma-training-toolkit
th kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能,不需要此json文件,此时scale系数默认为1,但是可能会造成精度下降。 父主题: 推理模型量化
t1),存储方案使用“OBS的并行文件系统(存放数据和代码)”。 单机多卡:中等数据量(50G左右训练数据)、中等算力场景(8卡Vnt1),存储方案使用“SFS(存放数据和代码)”。 多机多卡:大数据量(1T训练数据)、高算力场景(4台8卡Vnt1),存储方案使用“SFS(存放数
JupyterLab常用功能介绍 在JupyterLab使用Git克隆代码仓 在JupyterLab中创建定时任务 上传文件至JupyterLab 下载JupyterLab文件到本地 在JupyterLab中使用MindInsight可视化作业 在JupyterLab中使用TensorBoard可视化作业
打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应修改重要参数表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。
节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。
节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件。 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。
在ModelArts中使用Moxing复制数据时如何定义路径变量? 问题描述 mox.file.copy_parallel(src_obs_dir=input_storage,'obs://dyyolov8/yolov5_test/yolov5-7.0/datasets'), m
th kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能,不需要此json文件,此时scale系数默认为1,但是可能会造成精度下降。 父主题: 推理模型量化
ry目录过大,导致tensorboard加载summary导致OOM。 处理方法 检查summary目录是否存在其他文件,如有请删除。 检查summary目的文件是否过大(比如大于5GB),如果有请减小summary。 父主题: OBS操作相关故障
选择OBS桶中训练code文件夹所在路径,例如“obs://test-modelarts/code/”。 启动命令 输入镜像的Python启动命令,例如: bash ${MA_JOB_DIR}/code/torchrun.sh 代码示例 文件目录结构如下所示,将以下文件上传至OBS桶中:
ain_mindspore:v1 bert_pretrain_mindspore:v1 在主机上新建config.yaml文件。 config.yaml文件用于配置pod,本示例中使用sleep命令启动pod,便于进入pod调试。您也可以修改command为对应的任务启动命令(如“python