检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
最后,请参考查看日志和性能章节查看LoRA微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.909)
最后,请参考查看日志和性能章节查看LoRA微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907)
最后,请参考查看日志和性能章节查看LoRA微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.908)
查看运行记录:查看工作流历史运行的参数以及状态记录。 如何运行一条工作流,请您参考运行第一条Workflow。 Workflow的构成 工作流是对一个有向无环图的描述。开发者可以通过Workflow进行有向无环图(Directed Acyclic Graph,DAG)的开发。
3 配置Lite Server软件环境 不同镜像中预安装的软件不同,您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。当Server服务器中预装的软件无法满足业务需求时,您可在Server服务器中配置所需要的软件环境。
先远程登录到所选的镜像,使用“nvcc -V”查看目前镜像自带的CUDA版本。 重装torch等,需要注意选择与上一步版本相匹配的版本。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。
图1 总览 单击进入专属资源池详情页面,查看作业列表。 观察队头是否有其他作业在排队,如果已有作业在排队,则新建的作业需要继续等待。 图2 作业排队列表 如果通过排查计算,发现资源确实足够,则考虑可能由于资源碎片化导致的。
图2 TensorBoard界面(1) Step4 查看训练看板中的可视化数据 训练看板是TensorBoard的可视化组件的重要组成部分,而训练看板的标签包含:标量可视化、图像可视化和计算图可视化等。 更多功能介绍请参见TensorBoard官网资料。
获取方法请参见查询训练作业列表。 表2 Query参数 参数 是否必选 参数类型 描述 offset 否 Integer 数据条目偏移量。 limit 否 Integer 指定每一页返回的最大条目数,取值范围[1,100],默认为50。
# 找到训练进程的PID ps -ef # 查看进程12345的进程堆栈 # 如果是8卡的训练作业,一般用此命令依次去查看主进程起的对应的8个进程的堆栈情况 py-spy dump --pid 12345 父主题: 管理模型训练作业
查看详细日志 查看详细耗时日志可以辅助定位性能瓶颈,但会影响推理性能。如需开启,配置以下环境变量。
sh scripts/llama2/0_pl_sft_13b.sh <MASTER_ADDR=localhost> <NNODES=1> <NODE_RANK=0> sh scripts/llama2/0_pl_sft_13b.sh localhost 1 0 训练完成后,请参考查看日志和性能章节查看
专属资源池创建成功后,可在查看Standard专属资源池详情中查看专属资源池的详细信息。 如果专属资源池的规格与您的业务不符,可通过扩缩容Standard专属资源池来调整专属资源池的规格。
输出转换后权重文件保存路径: 权重转换完成后,在 /home/ma-user/ws/saved_dir_for_output/llama2-13b/saved_models/pretrain_hf/ 目录下查看转换后的权重文件。
挂载成功后,可以在Notebook实例详情页查看到挂载结果。 代码调试。 打开Notebook,打开Terminal,进入步骤7中挂载的目录。
如果上述方法还出现了错误,可以去notebook里面调试打印CUDA_VISIBLE_DEVICES变量,或者用以下代码测试,查看结果是否返回的是True。
添加所有者:在同一窗口中,单击“添加”,在弹出的新窗口中,单击“主体”后面的“选择主体”,弹出“选择用户,计算机,服务账户或组”窗口,单击“高级”,输入用户名, 单击“立即查找”按钮,显示用户搜索结果列表。 选择您的用户账户,然后单击“确定”(大约四个窗口)以关闭所有窗口。
您可以查看数据集的基本信息,并在左侧查看版本演进信息及其发布时间。 设置当前版本 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。 在数据集列表中,单击操作列的“更多 > 版本管理”,进入数据集“版本管理”页面。
输出转换后权重文件保存路径: 权重转换完成后,在/home/ma-user/work/llm_train/saved_dir_for_output/llama2-13b/saved_models/pretrain_hf/目录下查看转换后的权重文件。
scripts/llama2/0_pl_lora_13b.sh <MASTER_ADDR=localhost> <NNODES=1> <NODE_RANK=0> sh scripts/llama2/0_pl_lora_13b.sh localhost 1 0 训练完成后,请参考查看日志和性能章节查看