检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备工作 准备环境 准备代码 准备镜像环境 DockerFile构建镜像(可选) 准备数据(可选) 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.911)
训练脚本说明 Yaml配置文件参数配置说明 模型NPU卡数、梯度累积值取值表 各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明 录制Profiling 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.911)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.911)
准备工作 准备环境 准备代码 准备数据 准备镜像 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.912)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.912)
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
训练脚本说明 训练启动脚本说明和参数配置【旧】 训练tokenizer文件说明 断点续训和故障快恢说明 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.912)
准备工作 准备环境 准备代码 准备镜像环境 DockerFile构建镜像(可选) 准备数据(可选) 父主题: 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.3.912)
训练脚本说明参考 训练参数配置说明【旧】 训练tokenizer文件说明 断点续训和故障快恢说明 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.912)
不同模型推荐的参数与NPU卡数设置 表1 不同模型推荐的参数与NPU卡数设置 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gr
如果您使用的是专属资源池,则训练作业就不再进行单独计费。由专属资源池进行收费。 Standard中模型部署为服务后如何收费? ModelArts支持将模型按照业务需求部署为服务。训练类型不同,部署后的计费方式不同。 将模型部署为服务时,根据数据集大小评估模型的计算节点个数,根据实际编码情况选择计算模式。 具体
创建自定义策略时,建议将项目级云服务和全局级云服务拆分为两条策略,便于授权时设置最小授权范围。此处的“Policy1”为项目级云服务、“Policy2”为全局级云服务。了解更多。 将自定义策略授权给开发者用户组user_group。 在统一身份认证服务控制台的左侧菜单栏中,选择“用
“inference”。 “数据特征指标”:在右侧下拉框中勾选需要展示的指标。详细指标说明请参见支持分析指标及其说明。 选择完成后,页面将自动呈现您选择对应版本及其指标数据,您可以根据呈现的图表了解数据分布情况,帮助您更好的处理您的数据。 查看分析任务的历史记录。 在数据特征分析
完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。 华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的IaaS、PaaS和SaaS各类各项云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这
ModelArts的API或SDK支持模型下载到本地吗? ModelArts的API和SDK不支持模型下载到本地,但训练作业输出的模型是存放在对象存储服务(OBS)里面的,您可以通过OBS的API或SDK下载存储在OBS中的文件,具体请参见从OBS下载文件。 父主题: API/SDK
表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS 10 非必填。表示训练step迭代次数,会进行自动计算得出。 SEED 1234 随机种子数。每次数据采样时,保持一致。 SAVE_INTERVAL 1000 用于模型中间版本地保存。 当
表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS 10 非必填。表示训练step迭代次数,会进行自动计算得出。 SEED 1234 随机种子数。每次数据采样时,保持一致。 SAVE_INTERVAL 1000 用于模型中间版本地保存。 当
model_len访问推理服务,服务端响应200,见图3。 客户端仍返回报错Response payload is not completed,见图4。 图2 服务端返回报错Response payload is not completed 图3 服务端响应200 图4 仍返回报错Response
total_metric_values属性列表 参数 参数类型 说明 f1_score Float 训练作业模型总召回。仅限部分预置算法使用,会自动生成,仅供参考。 recall Float 训练作业模型总召回率。 precision Float 训练作业模型总精确率。 accuracy