检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
介绍如何进行预训练,包括训练数据处理、超参配置、训练任务、性能查看。 微调训练 SFT全参微调 介绍如何进行SFT全参微调、超参配置、训练任务、性能查看。 LoRA微调训练 介绍如何进行LoRA微调、超参配置、训练任务、性能查看。 父主题: 主流开源大模型基于Lite Server适配ModelLink
/home/ma-user/ws/processed_for_ma_input/llama2-13b/converted_weights_TP${TP}PP${PP} 目录下查看转换后的权重文件。 Megatron转HuggingFace参数说明 训练完成的权重文件默认不会自动转换为Hugging Face格式权重
<NODE_RANK=0> sh scripts/llama2/0_pl_sft_13b.sh localhost 1 0 训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。 父主题: 主流开源大模型基于Lite Server适配PyTorch NPU训练指导(6.3.905)
REBOOT_FAILED: 重启失败; CHANGINGOS: 切换操作系统中: CHANGINGOS_FAILED: 切换操作系统失败: REINSTALLINGOS: 重装操作系统中: REINSTALLINGOS_FAILED。重装操作系统失败。 vpc_id String 实例所在虚拟私有云ID。
任务提交成功后,单击“查看服务详情”,等待服务状态变为“运行中”时,表示服务部署成功。预计时长4分钟左右。 图3 服务部署成功 步骤四:预测结果 在线服务部署完成后,单击“预测”页签。 在“预测”页签,单击“上传”,上传一个测试图片,单击“预测”查看预测结果。此处提供一个样例图片供预测使用。
<NODE_RANK=0> sh scripts/llama2/0_pl_lora_13b.sh localhost 1 0 训练完成后,请参考查看日志和性能章节查看LoRA微调训练的日志和性能。 父主题: 主流开源大模型基于Lite Server适配PyTorch NPU训练指导(6.3.905)
processed_for_ma_input/llama2-13b/converted_weights_TP${TP}PP${PP}目录下查看转换后的权重文件。 Megatron转HuggingFace参数说明 训练完成的权重文件默认不会自动转换为Hugging Face格式权重
String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 表2 Query参数 参数 是否必选 参数类型 描述 offset 否 Integer 数据条目偏移量。 limit 否 Integer
图28 使用自定义镜像创建训练作业 查看训练日志。 在单击“Apply and Run”按钮后,训练的日志可以在PyCharm窗口中实时展示。也可以单击Event Log中的控制台链接,转调到网页端中查看训练日志。 图29 在PyCharm中查看训练日志 终止训练作业。 如果想要在
添加所有者:在同一窗口中,单击“添加”,在弹出的新窗口中,单击“主体”后面的“选择主体”,弹出“选择用户,计算机,服务账户或组”窗口,单击“高级”,输入用户名, 单击“立即查找”按钮,显示用户搜索结果列表。 选择您的用户账户,然后单击“确定”(大约四个窗口)以关闭所有窗口。 图1 添加所有者 完成所有操作后,再次关闭并打开VS
务类型管理页面。 在服务列表中,单击目标服务操作列的“修改”,修改服务基本信息,然后根据提示提交修改任务。 当修改了服务的某些参数配置时,系统会自动重启服务使修改生效。在提交修改服务任务时,如果涉及重启,会有弹窗提醒。批量服务参数说明请参见将模型部署为批量推理服务。 方式二:通过服务详情页面修改服务信息
代理和网络配置。 检查模型是否启动成功或者模型处理单个消息的时长。因APIG(API网关)的限制,模型单次预测的时间不能超过40S,超过后系统会默认返回Timeout错误。 父主题: 服务预测
com/deep-learning/tf-1.13.2:latest 图2 上传镜像 完成镜像上传后,在“容器镜像服务控制台>我的镜像”页面可查看已上传的自定义镜像。 “swr.example.com/deep-learning/tf-1.13.2:latest”即为此自定义镜像的“SWR_URL”。
#检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward
支持1~90个字符,请勿在描述中输入涉政、迷信、违禁等相关敏感词,否则发布审核无法通过。 可见范围 “所有用户可见”:表示公开资产,所有用户都可以查看该资产。 “指定用户可见”:输入账号名、账号ID或用户昵称搜索并选择用户,使其可见该资产。 可用范围 选择是否启用“申请用户可用”。 勾选
在对专属资源池有一定了解后,如果您需要创建一个自己的专属资源池,您可参考创建Standard专属资源池来进行创建。 专属资源池创建成功后,可在查看Standard专属资源池详情中查看专属资源池的详细信息。 如果专属资源池的规格与您的业务不符,可通过扩缩容Standard专属资源池来调整专属资源池的规格。
执行训练启动命令后,等待模型载入,当出现“training”关键字时,表示开始训练。训练过程中,训练日志会在最后的Rank节点打印。 图1 等待模型载入 更多查看训练日志和性能操作,请参考查看日志和性能章节。 父主题: 主流开源大模型基于Lite Server适配PyTorch NPU训练指导(6.3.905)
m_train/saved_dir_for_output/llama2-13b/saved_models/。 训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。 父主题: 主流开源大模型基于Lite Server适配PyTorch NPU训练指导(6.3.906)
) pip install py-spy 查看堆栈。py-spy工具的具体使用方法可参考py-spy官方文档。 # 找到训练进程的PID ps -ef # 查看进程12345的进程堆栈 # 如果是8卡的训练作业,一般用此命令依次去查看主进程起的对应的8个进程的堆栈情况 py-spy
是否必选 参数类型 描述 action 是 Integer 验收行为。可选值如下: 0:通过全部样本 1:驳回全部样本 2:取消验收 3:查看验收冲突的样本列表 4:只通过单张验收通过的样本及未验收的样本 5:只通过单张验收通过的样本 overwrite_last_result 否