检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图1 训练输出设置 PyTorch版reload ckpt PyTorch模型保存有两种方式。
图1 yaml样例 根据以下步骤修改yaml文件: 数据集选择:dataset和processed_data_dir参数二选一,详解如下: 参数 示例值 参数说明 dataset 【预训练:pt】预训练数据集相对或绝对地址 【微调:sft】微调数据集相对或绝对地址 训练时指定的输入数据路径
图1 等待模型载入 最后,请参考查看日志和性能章节查看预训练的日志和性能。 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.910)
图1 等待模型载入 最后,请参考查看日志和性能章节查看预训练的日志和性能。 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.911)
如果设置为"true",则在训练结束后,将损失曲线保存为图片 overwrite_output_dir true 是否覆盖输出目录。如果设置为"true",则在每次训练开始时,都会清空输出目录,以便保存新的训练结果。
图1 等待模型载入 最后,请参考查看日志和性能章节查看预训练的日志和性能。 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.908)
图1 等待模型载入 最后,请参考查看日志和性能章节查看预训练的日志和性能。 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.909)
图1 复制登录指令 由于使用的容器引擎是containerd,不再是docker,因此需要改写复制的登录指令,将docker进行替换,使用nerdctl工具。 # docker login 替换为: nerdctl login 步骤五 修改并上传镜像 1.
图1 复制登录指令 由于使用的容器引擎是containerd,不再是docker,因此需要改写复制的登录指令,将docker进行替换,使用nerdctl工具。 # docker login 替换为: nerdctl login 步骤五 修改并上传镜像 1.
图1 复制登录指令 由于使用的容器引擎是containerd,不再是docker,因此需要改写复制的登录指令,将docker进行替换,使用nerdctl工具。 # docker login 替换为: nerdctl login 步骤五 修改并上传镜像 1.
图1 复制登录指令 由于使用的容器引擎是containerd,不再是docker,因此需要改写复制的登录指令,将docker进行替换,使用nerdctl工具。 # docker login 替换为: nerdctl login 步骤五 修改并上传镜像 1.
kubectl exec -it {pod_name} bash ${pod_name}:pod名,例如图1${pod_name}为yourapp-87d9b5b46-c46bk。
图1 微调产物示例 表3 微调产物说明 文件名 文件说明 gallery_train文件夹 自定义模型的模型训练文件,仅当使用自定义模型微调时才会有这个微调产物,内容和预训练模型里的gallery_train文件一致。
如果推理需要使用npu加速图片预处理,需要安装torchvision_npu,可放到镜像制作脚本里面。
可根据自己要求适配 cutoff_len 4096 文本处理时的最大长度,此处为4096,用户可根据自己要求适配 dataset 指令监督微调/ppo:alpaca_en_demo rm/dpo:dpo_en_demo 多模态数据集(图像):mllm_demo,identity 【
通信时需要指定网口名称, export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称 图1
通信时需要指定网口名称, export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称 图1
常见案例:训练最后一个epoch卡死 问题现象 通过日志查看数据切分是否对齐,如果未对齐,容易导致部分进程完成训练退出,而部分训练进程因未收到其他进程反馈卡死,如下图同一时间有的进程在epoch48,而有的进程在epoch49。
可根据自己要求适配 cutoff_len 4096 文本处理时的最大长度,此处为4096,用户可根据自己要求适配 dataset 指令监督微调/ppo:alpaca_en_demo rm/dpo:dpo_en_demo 多模态数据集(图像):mllm_demo,identity 【
可根据自己要求适配 cutoff_len 4096 文本处理时的最大长度,此处为4096,用户可根据自己要求适配 dataset 指令监督微调/ppo:alpaca_en_demo rm/dpo:dpo_en_demo 多模态数据集(图像):mllm_demo,identity 【