检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.909)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.910)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.910)
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite Server上的预训练和全量微调方案。训练框架使用的是ModelLink。 本方案目前仅适用于部分企业客户,完成本方案
虚拟私有云 VPC:是用户在华为云上申请的隔离的、私密的虚拟网络环境。用户可以基于VPC构建独立的云上网络空间,配合弹性公网IP、云连接、云专线等服务实现与Internet、云内私网、跨云私网互通,帮您打造可靠、稳定、高效的专属云上网络。 弹性公网IP EIP:提供独立的公网IP资源,包
技术架构调研:通过技术架构调研问卷,全面了解客户的计算、存储、网络资源状况,为后续资源部署及云上网络规划奠定基础。 安全架构调研:识别出客户系统的安全风险,包括潜在的攻击面、漏洞及威胁,协助企业优化安全策略,强化访问控制与身份验证机制,提升系统安全性及员工安全意识。 业务架构调研:通过业务架构
采集主机性能 迁移中心支持对主机资源进行性能数据采集,获取源端主机的CPU、内存负载、磁盘IOPS,内网出入流量,网络出入包速率,网络连接数等性能信息。在后续进行目的端规格评估时,可以根据采集到的源端主机实际性能负载推荐目的端主机CPU核数、内存大小等性能规格。 本文介绍在应用详
迁移。 数据传输时间=实际数据量/实际网络带宽 表2为1TB数据使用网络带宽传输的时间估计,请根据实际数据量估算数据传输时间,如果数据不能在预估的时间内完成传输,请考虑扩大网络带宽。 数据库 非生产系统数据库可以使用SMS离线迁移 生产系统数据库使用数据库备份恢复或者其他数据库原生工具
必须禁用端口的自动协商功能,同时必须手动配置端口速率和全双工模式。 用户侧网络需端到端支持 802.1Q VLAN 封装。 用户侧设备必须支持BGP,且不能使用64512(该AS号华为已使用)。 典型拓扑 用户侧网络通过单专线接入华北-北京四区域,在华北-北京四区域创建了VPC。 VPC创建请参考《虚拟私有云用户指南》。
双工模式。 用户侧网络需端到端支持 802.1Q VLAN 封装。 典型拓扑 用户侧网络通过单专线接入华北-北京四区域,在华北-北京四区域创建了VPC。 VPC创建请参考《虚拟私有云用户指南》。 本方案中使用拓扑信息如下: 表1 地址信息 网络 网段 用户侧网络 10.1.123
有镜像切换的操作系统),请先安装密码重置插件。 请勿删除重置密码进程“CloudResetPwdAgent”和“CloudResetPwdUpdateAgent”,否则,会导致一键式重装密码功能不可用。 云耀云服务器使用的VPC网络DHCP不能禁用。 云耀云服务器网络正常通行。 操作步骤
在进行二次开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows 7以上版本。 运行环境:Windows系统或Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。 安装JDK 开发和运行环境的基本配置,版本要求如下:
mode String 参数解释: 容器网络类型。 约束限制: 只可选择一个容器网络类型。 取值范围: overlay_l2:容器隧道网络,通过OVS(OpenVSwitch)为容器构建的overlay_l2网络。 vpc-router:VPC网络,使用ipvlan和自定义VPC路由
跨应用/子系统,多设备自动化协同。 开放架构,及时享受云计算的前沿技术和服务。 功能丰富灵活,多行业完整解决方案,已成功服务众多行业客户。 开源MQTT提供了基本的功能,构筑完整解决方案时需要开发人员基于开源能力进行开发。而开发人员对开源代码进行侵入式修改,容易在开源中间件升级时遗漏修改的部分导致现网事故。
TP×PP×CP)的值进行整除。 Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断
修改MRS集群节点操作系统用户密码 该任务指导用户定期修改MRS集群节点操作系统用户omm、ommdba、root的登录密码,以提升系统运维安全性。各节点操作系统用户无需设置为统一的密码。 默认集群操作系统用户密码有效期为90天,如果需要修改操作系统用户密码有效期,可以参考修改MRS操作系统用户密码有效期进行配置。
sh ./scripts/llama2/0_pl_sft_13b.sh 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断
sh ./scripts/llama2/0_pl_sft_13b.sh 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断
系统诊断 实时查看系统内核,CPU、内存、磁盘、网卡等资源情况。 操作步骤 使用系统管理员sysadmin账号登录实例Web控制台。 在左侧导航栏,选择“系统管理 > 系统运维”,单击“系统诊断”。 单击“诊断命令”的下拉框,选择您需要诊断的服务。 诊断项目包括内核版本、CPU&
AT+CGDCONT=1, CTNB是什么? CTNB指设备中NB卡的APN,目前NB卡不支持自定义模式,APN需从NB网络服务商获取。 父主题: 设备集成(联通用户专用)