检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图1 创建训练作业 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh .
图1 创建训练作业 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh .
图1 创建训练作业 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh .
图1 创建训练作业 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh .
Step3 创建服务启动脚本 run_vllm.sh脚本示例如下。
Step3 创建服务启动脚本 run_vllm.sh脚本示例如下。
用户使用torch报错Unexpected error from cudaGetDeviceCount 问题现象 在Notebook执行兼容gpu的脚本时报错不兼容,但是通过nvcc --version排查显示是兼容。
unzip AscendCloud-3rdLLM-6.3.905-*.zip 运行推理构建脚本build.sh文件,自动获取ascend_vllm_adapter文件夹中提供的vLLM相关算子代码。
需检查并保证下载的数据集train2014文件夹与训练脚本均在工作目录${container_work_dir}下。
curl -fsSL get.docker.com -o get-docker.sh sh get-docker.sh 如果docker images命令可以执行成功,表示Docker已安装,此步骤可跳过。 启动docker。
处理方法 按照issues中的说明,应该是环境中的库冲突了,因此在启动脚本最开始之前,添加如下代码。
bash build.sh 2、运行“examples/quantize.py”文件进行模型量化,量化时间和模型大小有关,预计30分钟~3小时。
例如: nohup train.sh > output.log 2>&1 & tail -f output.log 父主题: VS Code连接开发环境失败故障处理
pip install diffusers==0.21.2 Step6 启动训练服务 执行如下命令启动训练脚本diffusers_lora_train.sh。
# 通过utils.sh脚本自动配置python环境 source /home/ma-user/modelarts/run/utils.sh # 安装py-spy pip install py-spy # 如果超时提示connection broken by 'ProxyError
默认为output_qwen --num_train_epochs: 训练轮数,默认为5 #配置修改完成后保存退出,执行训练脚本 bash finetune/finetune_ds.sh > log_dir/xx.log #保存训练日志 训练后的产物路径说明如下。
修改以下脚本中NpuLogCollection的参数,将ak、sk、obs_dir替换为前面步骤中获取到的值,然后把该脚本上传到要收集NPU日志的节点上。
例如: nohup train.sh > output.log 2>&1 & tail -f output.log 父主题: VS Code连接开发环境失败常见问题
bash infer_demo.sh 推理结果如下所示: 父主题: AIGC模型训练推理
在Notebook中打开terminal,可以运行如下命令查看RANK_TABLE_FILE: 1 env | grep RANK 在训练作业中,您可以在训练启动脚本的首行加入如下代码,把RANK_TABLE_FILE的值打印出来: 1 os.system('env | grep