检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
首先通过在PyTorch训练脚本中插入dump接口,跟踪计算图中算子的前向传播与反向传播时的输入与输出,然后再使用子命令compare进行比对生成比对表格。
请参考JupyterLab主页介绍、在JupyterLab中新建ipynb文件,新建一个ipynb文件然后执行脚本。 挂载脚本代码示例如下。更多API参数介绍请参考动态挂载OBS。
前提条件 使用MindSpore引擎编写训练脚本时,为了保证训练结果中输出Summary文件,您需要在脚本中添加收集Summary相关代码。 将数据记录到Summary日志文件中的具体方式请参考收集Summary数据。
自动迁移工具使用指导 训练业务代码适配昇腾PyTorch代码适配 PyTorch Analyse 迁移分析工具,可以使用工具扫描用户的训练脚本,识别出源码中不支持的torch API和cuda API信息。 包含在cann toolkit中。
GPU A系列裸金属服务器,单台服务器GPU间是走NVLINK,可以通过相关命令查询GPU拓扑模式: nvidia-smi topo -m 图1 查询GPU拓扑模式 操作步骤 使用以下脚本测得GPU服务器内NVLINK带宽性能。
FROM {image_url} COPY --chown=ma-user:ma-group diffusers /home/ma-user/diffusers RUN cd /home/ma-user/diffusers && sh prepare.sh COPY --chown
cd /home_host tar -zxvf git-lfs-linux-arm64-v3.2.0.tar.gz cd git-lfs-3.2.0 sh install.sh 设置git配置去掉ssl校验。
请准备好训练脚本,并上传至OBS目录。训练脚本开发指导参见开发用于预置框架训练的代码。 在训练代码中,用户需打印搜索指标参数。 已在OBS创建至少1个空的文件夹,用于存储训练输出的内容。 由于训练作业运行需消耗资源,确保账户未欠费。
如果推理脚本里使用了其他脚本文件,则必须一起打包在gallery_inference文件夹里上传,否则会导致推理失败。 “requirements.txt” 非必选文件,环境配置文件,定义了项目依赖的python包。
Step2 准备训练文件和推理文件 针对此案例,ModelArts提供了需使用的训练脚本、推理脚本和推理配置文件。请参考如下文件内容。
training_files 否 TrainingFiles Object 训练脚本在OBS中的路径,具体请参考TrainingFiles初始化。
Step2 准备训练文件和推理文件 针对此案例,ModelArts提供了需使用的训练脚本、推理脚本和推理配置文件。请参考如下文件内容。
如果文件较大,可以保存成多个“.tar”包,在入口脚本中调用多进程进行并行解压数据。不建议把散文件保存到OBS上,这样会导致下载数据很慢。
pip install -r requirements.txt 执行精度测试启动脚本eval_test.py,具体操作命令如下,可以根据参数说明修改参数。
建立线程池发送请求,并汇总结果 ├── service_predict.py # 发送请求的服务 执行精度测试启动脚本eval_test.py,具体操作命令如下,可以根据参数说明修改参数。
处理方法 如果在训练作业的工作目录下有core文件生成,可以在启动脚本最前面加上如下代码,来关闭core文件产生。 import os os.system("ulimit -c 0") 排查数据集大小,checkpoint保存文件大小,是否占满了磁盘空间。
其他文件 当使用自定义模型微调时,可能还会有一些其他微调产物,这是由自定义模型的训练脚本文件train.py决定的,如果训练脚本定义了归档其他训练产物,就会在此处呈现。 父主题: AI Gallery(新版)
启动训练脚本可以观察运行效果。 图4 chatGLM-6b pTuning训练入口导入自动迁移工具 自动迁移适合没有使用CUDA高阶能力的简单场景,如果涉及自定义算子、主动申请GPU显存等操作,则需要额外进行手动迁移适配。 手动迁移解决报错问题。
利用率日志及权重文件,如qwen2.5-7b日志: qwen2.5-7b-sft-4096-lora-313T-20241028_164746-0.txt qwen2.5-7b-sft-4096-lora-313T-20241028_164746-npu_info-0.txt 执行精度比较脚本
利用率日志及权重文件,如qwen2.5-7b日志: qwen2.5-7b-sft-4096-lora-313T-20241028_164746-0.txt qwen2.5-7b-sft-4096-lora-313T-20241028_164746-npu_info-0.txt 执行精度比较脚本