检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
train /home/ma-user/ws/llm_train/LLaMAFactory/demo.yaml 执行多机启动命令(可选) 多台机器执行训练启动命令如下。 多机执行命令为:sh demo.sh <MASTER_ADDR=xx.xx.xx.xx> <NNODES=4> <NODE_RANK=0>
执行训练任务(历史版本) 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
Notebook无法执行代码,如何处理? 当Notebook出现无法执行时,您可以根据如下几种情况判断并处理。 如果只是Cell的执行过程卡死或执行时间过长,如图1中的第2个和第3个Cell,导致第4个Cell无法执行,但整个Notebook页面还有反应,其他Cell也还可以单击
用户执行huaweicloud.com相关API超时 问题现象 用户在Notebook里通过request请求接口时超时:GET pangu-xxx.cn-southwest-2.myhuaweicloud.com。 原因分析 在Notebook中访问公网需要通过代理,访问huawei
ain/AscendSpeed 下执行启动脚本。先修改以下命令中的参数,再复制执行 启动训练脚本可使用以下两种启动命令,二选一即可,其中区别如下: 传递参数形式:将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为:sh scripts/llama2/0_pl_lora_13b
ain/AscendSpeed 下执行启动脚本。先修改以下命令中的参数,再复制执行 启动训练脚本可使用以下两种启动命令,二选一即可,其中区别如下: 传递参数形式:将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为:sh scripts/llama2/0_pl_lora_13b
ain/AscendSpeed 下执行启动脚本。先修改以下命令中的参数,再复制执行 启动训练脚本可使用以下两种启动命令,二选一即可,其中区别如下: 传递参数形式:将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为:sh scripts/llama2/0_pl_lora_13b
ain/AscendSpeed 下执行启动脚本。先修改以下命令中的参数,再复制执行 启动训练脚本可使用以下两种启动命令,二选一即可,其中区别如下: 传递参数形式:将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为:sh scripts/llama2/0_pl_lora_13b
处理方法 进入到“Terminal”界面。在“/tmp”目录下,执行命令du -sh *,查看该目录下的空间占用情况。 sh-4.3$cd /tmp sh-4.3$du -sh * 4.0K core-js-banners 0 npm-19-41ed4c62 6
构建条件节点控制分支执行 功能介绍 主要用于执行流程的条件分支选择,可以简单的进行数值比较来控制执行流程,也可以根据节点输出的metric相关信息决定后续的执行流程。主要应用场景如下: 可以用于需要根据不同的输入值来决定后续执行流程的场景。例如:需要根据训练节点输出的精度信息来决
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本 (2)执行nvidia-smi失败,提示Failed
训练速度突然下降以及执行nvidia-smi卡顿如何解决? 问题现象 在高性能8卡GPU的裸金属上的训练任务突然变慢,以前1个epoch约2小时执行完成,最近1个epoch需要2天才能执行完成,并且执行“nvidia-smi”也明显变很卡顿。 原因分析 根据现象描述可能出现了nvidia-smi
配置节点参数控制分支执行 功能介绍 支持单节点通过参数配置或者获取训练输出的metric指标信息来决定执行是否跳过,同时可以基于此能力完成对执行流程的控制。 应用场景 主要用于存在多分支选择执行的复杂场景,在每次启动执行后需要根据相关配置信息决定哪些分支需要执行,哪些分支需要跳过,
件方便用户根据自己实际需求进行修改。 权重文件支持以下组合方式,用户根据自己实际要求选择: 训练stage 不加载权重 增量训练:加载权重,不加载优化器 断点续训:加载权重+优化器 sft、dpo model_name_or_path=xxx train_from_scratch=true
in/AscendSpeed 下执行启动脚本,先修改以下命令中的参数,再复制执行。 启动训练脚本可使用以下两种启动命令,二选一即可,其中区别如下: 传递参数形式:将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为:sh scripts/llama2/0_pl_sft_13b
in/AscendSpeed 下执行启动脚本,先修改以下命令中的参数,再复制执行。 启动训练脚本可使用以下两种启动命令,二选一即可,其中区别如下: 传递参数形式:将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为:sh scripts/llama2/0_pl_sft_13b
in/AscendSpeed 下执行启动脚本,先修改以下命令中的参数,再复制执行。 启动训练脚本可使用以下两种启动命令,二选一即可,其中区别如下: 传递参数形式:将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为:sh scripts/llama2/0_pl_sft_13b
in/AscendSpeed 下执行启动脚本,先修改以下命令中的参数,再复制执行。 启动训练脚本可使用以下两种启动命令,二选一即可,其中区别如下: 传递参数形式:将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为:sh scripts/llama2/0_pl_sft_13b
在ipynb文件中,执行%load XXX.py命令,即可将py文件内容加载到ipynb中。 以“test.py”文件为例,下图展示了如何将“test.py”的文件内容加载到ipynb文件中。 图1 test.py文件 图2 将“test.py”文件内容加载到.ipynb文件里 图3
/home/ma-user/ws/llm_train/AscendFactory/scripts_llamafactory/demo.yaml 执行多机启动命令(可选) 多台机器执行训练启动命令如下。 多机执行命令为:sh demo.sh <MASTER_ADDR=xx.xx.xx.xx> <NNODES=4> <NODE_RANK=0>