检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.908)
场景介绍 方案概览 本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的微调方案,包括SFT全参微调、LoRA微调、DPO训练方案。 DPO(Direct Preference
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.909)
推理精度测试 本章节介绍如何进行推理精度测试,数据集是ceval_gen、mmlu_gen、math_gen、gsm8k_gen、humaneval_gen。 前提条件 确保容器可以访问公网。 Step1 配置精度测试环境 获取精度测试代码。精度测试代码存放在代码包AscendC
场景介绍 方案概览 本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的不同训练阶段方案,包括指令监督微调、DPO偏好训练、RM奖励模型训练、PPO强化训练方案。 DPO(Direct
准备工作 准备环境 准备代码 准备数据 准备镜像环境 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.909)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.909)
LoRA微调训练 前提条件 已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS。 Step1 创建训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendSpeed代码目录。
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.909)
LoRA微调训练 前提条件 已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS。 Step1 创建训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的 llm_train/AscendSpeed
准备Notebook ModelArts Notebook云上云下,无缝协同,更多关于ModelArts Notebook的详细资料请查看开发环境介绍。 本案例中的训练作业需要通过SFS Turbo挂载盘的形式创建,因此需要将上述数据集、代码、权重文件从OBS桶上传至SFS Turbo中。
训练的权重转换说明 以llama2-13b举例,使用训练作业运行0_pl_pretrain_13b.sh脚本。脚本同样还会检查是否已经完成权重转换的过程。 若已完成权重转换,则直接执行预训练任务。若未进行权重转换,则会自动执行scripts/llama2/2_convert_mg_hf
准备Notebook ModelArts Notebook云上云下,无缝协同,更多关于ModelArts Notebook的详细资料请查看开发环境介绍。本案例中使用ModelArts的开发环境Notebook部署推理服务进行调试,请按照以下步骤完成Notebook的创建。 登录M
实践概述 在实际业务中,考虑到机房故障问题,需要将服务部署在不同的可用区中以提高可用性。 但是,在不同可用区部署组件时每个组件都必须按需配置一遍,存在操作复杂、容易出错的问题。而且需要在组件创建完成后立即部署运行,并不支持创建后按需部署的需求。如果组件配置错误,会导致部署失败,需要删除后重新创建并部署。
设置弹性伸缩-HPA策略 弹性伸缩-HPA是Kubernetes内置组件,实现Pod水平自动伸缩的功能,即Horizontal Pod Autoscaling。在Kubernetes社区HPA功能的基础上,增加了应用级别的冷却时间窗和扩缩容阈值等功能。 前提条件 仅容器部署方式部
设置微服务引擎备份与恢复 ServiceStage控制台提供备份与恢复功能,可对微服务引擎的数据,包括微服务、契约、配置、账号角色信息进行备份与恢复。 您可自定义备份策略,对微服务引擎进行定期备份,也支持手动对微服务引擎进行备份。 背景介绍 每个微服务引擎专享版最多有15个成功的
系统管理概述 同一个微服务引擎可能会有多个用户共同使用,而不同的用户根据其责任和权限,需要具备不同的微服务引擎访问和操作权限。 开启了“安全认证”的微服务引擎专享版,通过微服务控制台提供了基于RBAC(Role-Based Access Control,基于角色的访问控制)的系统管理功能。
解绑LTS日志组 已关联的LTS日志组如果不再使用,可以解绑。 前提条件 组件已关联LTS日志组,请参考关联LTS日志组。 解绑LTS日志组 登录ServiceStage控制台。 选择以下任意方式进入组件“运行日志”页面: 在“应用管理”页面,单击组件所属应用名称,在“组件列表”
配置泳道组流量入口网关路由(基于内容配置) 根据实际业务需要,您可以基于内容配置泳道组流量入口网关路由。 仅灰度泳道支持基于内容配置网关路由。 前提条件 待操作泳道组已创建成功并关联流量入口网关,请参考创建泳道组。 待操作泳道组下已创建灰度泳道,请参考创建灰度泳道。 配置泳道组流量入口网关路由(基于内容配置)