搜索_华为云

kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtype类型是"float8_e

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
配置Lite Server网络 - AI开发平台ModelArts

AT网关以及默认路由。购买弹性公网IP。登录华为云管理控制台。在左侧服务列表中，单击“网络 > 弹性公网IP EIP”，进入弹性公网IP页面。单击“购买弹性公网IP”。参数配置可使用默认值，单击“立即购买”。在产品配置信息确认页面，再次核对弹性公网IP信息，阅读并勾选“弹性公网IP服务声明”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
精度校验 - AI开发平台ModelArts
精度校验 - AI开发平台ModelArts

bin") 将基准模型的输出保存到文本文件。本例中输出节点名称为output_node_name，输出节点的shape为“(1, 1000)”，因此一共有两维，对应的输出文件为“output_node_name 2 1 1000”，再加上输出的值即可。 # 基于原始pth模型前向推理。 output

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
执行训练任务 - AI开发平台ModelArts

gradient_accumulation_steps 8 可修改。指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可根据自己要求适配。取值可参考表1中梯度累积值列。 num_train_epochs 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
执行训练任务 - AI开发平台ModelArts

gradient_accumulation_steps 8 可修改。指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可根据自己要求适配。取值可参考表1中梯度累积值列。 num_train_epochs 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
执行训练任务 - AI开发平台ModelArts

gradient_accumulation_steps 8 可修改。指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可根据自己要求适配。取值可参考表1中梯度累积值列。 num_train_epochs 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
Yaml配置文件参数配置说明 - AI开发平台ModelArts

文件将保存在这个目录下 logging_steps 2 用于指定模型训练过程中，多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 save_steps 5000 指定模型训练过程中，每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务 plot_loss

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练作业卡死检测 - AI开发平台ModelArts

"INFO"，查看NCCL DEBUG信息。问题现象1 日志中还未出现NCCL DEBUG信息时已卡死。解决方案1 检查代码，检查是否有参数中未传入“master_ip”和“rank”参数等问题。问题现象2 分布式训练的日志中，发现有的节点含有GDR信息，而有的节点无GDR信息，导致卡死的原因可能为GDR。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
训练参数配置说明【旧】 - AI开发平台ModelArts

context并行的参数设置：TP×PP×CP的值要被NPU数量（word_size）整除。 TP×CP的值要被模型参数中 num_attention_heads 整除。 MBS（micro-batch-size）、GBS（global-batch-size）的设置：需要遵循GBS/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
训练参数配置说明【旧】 - AI开发平台ModelArts

context并行的参数设置：TP×PP×CP的值要被NPU数量（word_size）整除。 TP×CP的值要被模型参数中 num_attention_heads 整除。 MBS（micro-batch-size）、GBS（global-batch-size）的设置：需要遵循GBS/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
训练的数据集预处理说明 - AI开发平台ModelArts

GeneralPretrainHandler：默认。用于预训练时的数据预处理过程中，将数据集根据key值进行简单的过滤。 GeneralInstructionHandler：用于sft、lora微调时的数据预处理过程中，会对数据集full_prompt中的user_prompt进行mask操作。 --seq-length：要处理的最大seq

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

环境变量的值，进入到 /home/ma-user/ws/llm_train/AscendSpeed/ModelLink 路径中，再执行python命令。方法二：用户直接编辑scripts/llama2/1_preprocess_data.sh脚本，自定义环境变量的值，并在脚本的首行中添加

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
数据处理场景介绍 - AI开发平台ModelArts

处理一些无效值。例如在深度学习领域，可以根据用户输入的正样本和负样本，对数据进行清洗，保留用户想要的类别，去除用户不想要的类别。数据选择：数据选择一般是指从全量数据中选择数据子集的过程。数据可以通过相似度或者深度学习算法进行选择。数据选择可以避免人工采集图片过程中引入的重复图

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
使用Notebook进行代码调试 - AI开发平台ModelArts

只有处于“运行中”状态的Notebook，才可以执行打开、停止操作。一个账户最多创建10个Notebook。创建Notebook实例注册镜像。登录ModelArts控制台，在左侧导航栏选择“镜像管理”，进入镜像管理页面。单击“注册镜像”，镜像源即为推送到SWR中的镜像。请将完

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
导出ModelArts数据集中的数据到AI Gallery - AI开发平台ModelArts

设置此数据集的公开权限。可选值有： “公开”：表示所有使用AI Gallery的用户都可以查看且使用该资产。 “指定用户”：表示仅特定用户可以查看及使用该资产。 “仅自己可见”：表示只有当前账号可以查看并使用该资产。查看数据集资产发布信息在数据集列表中，单击某个数据集名称进入数据集详情页。选中右上角“发布

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导出ModelArts数据集中的数据
训练性能测试 - AI开发平台ModelArts

5-7b-sft-4096-lora-313T-20241028_164746-0.txt，打印吞吐值及训练参数 qwen2.5-7b-sft-4096-lora-313T-20241028_164746-npu_info-0.txt，打印训练过程中AICORE利用率执行性能比较脚本进入test-benchmark目录执行命令:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
训练性能测试 - AI开发平台ModelArts

5-7b-sft-4096-lora-313T-20241028_164746-0.txt，打印吞吐值及训练参数 qwen2.5-7b-sft-4096-lora-313T-20241028_164746-npu_info-0.txt，打印训练过程中AICORE利用率执行性能比较脚本进入test-benchmark目录执行命令:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
demo.sh方式启动（历史版本） - AI开发平台ModelArts

gradient_accumulation_steps 8 可修改。指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可根据自己要求适配。取值可参考表1中梯度累积值列。 num_train_epochs 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
发布Workflow到ModelArts - AI开发平台ModelArts

steps=[job_step], storages=[output_storage] ) 用户需要完成上述代码中**部分的配置，主要涉及以下三项。统一存储：output_storage对象的default值，需填写一个已存在的OBS路径，路径格式为：/OBS桶名称/文件夹路径/。数据集对象：使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 发布Workflow
创建Standard专属资源池 - AI开发平台ModelArts

当资源池创建成功后，资源池的状态会变成“运行中”，当“节点个数”中的“可用”和“总数”值大于0时，资源池才能下发任务。可以将鼠标放在“创建中”字样上，查看当前创建过程详情。如果单击查看详情，可跳转到“操作记录”中。可以在资源池列表左上角“操作记录”中查看资源池的任务记录。常见问题创

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理

总条数： 1332

上一页
1
...
62
63
64
...
67
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

kv-cache-int8量化 - AI开发平台ModelArts

配置Lite Server网络 - AI开发平台ModelArts

精度校验 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

数据处理场景介绍 - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

导出ModelArts数据集中的数据到AI Gallery - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

demo.sh方式启动（历史版本） - AI开发平台ModelArts

发布Workflow到ModelArts - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线