搜索_华为云

网卡名称错误 - AI开发平台ModelArts

0f5 # 多机之间使用gloo通信时需要指定网口名称， export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
网卡名称错误 - AI开发平台ModelArts

0f5 # 多机之间使用gloo通信时需要指定网口名称， export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
网卡名称错误 - AI开发平台ModelArts

0f5 # 多机之间使用gloo通信时需要指定网口名称， export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
网卡名称错误 - AI开发平台ModelArts

0f5 # 多机之间使用gloo通信时需要指定网口名称， export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调、超参配置、训练任务、性能查看。 LoRA微调训练介绍如何进行LoRA微调、超参配置、训练任务、性能查看。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911）
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

用户的唯一不重复的ID值，必选。 excel_addr: 待处理的excel文件的地址，必选。 dataset_name: 处理后的数据集名称，必选。 proportion: 测试集所占份数，范围[1,9]，可选。 test_count: 测试集的个数，范围[1,处理后数据集总长度 - 1]，可选。(用户在输入test_count时，要小于

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

用户的唯一不重复的ID值，必选。 excel_addr: 待处理的excel文件的地址，必选。 dataset_name: 处理后的数据集名称，必选。 proportion: 测试集所占份数，范围[1,9]，可选。 test_count: 测试集的个数，范围[1,处理后数据集总长度 - 1]，可选。(用户在输入test_count时，要小于

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

LoRA，本文档主要支持全参数（Full）和LoRA、LoRA+。 LoRA(Low-Rank Adaptation)：这种策略主要针对如何在保持模型大部分参数固定的同时，通过引入少量可训练参数来调整模型以适应特定任务。 LoRA+(Efficient Low Rank Adaptation

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
上传OBS文件到JupyterLab - AI开发平台ModelArts

致上传失败。方式二：打开OBS File Browser选择OBS文件路径，然后单击“上传”，开始上传文件。图4 上传OBS文件异常处理提示文件上传失败，有以下三种常见场景。异常场景1 图5 文件上传失败可能原因： OBS路径没有设置为具体的文件路径，设置成了文件夹。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发 > 上传文件至JupyterLab
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调、超参配置、训练任务、性能查看。 LoRA微调训练介绍如何进行LoRA微调、超参配置、训练任务、性能查看。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907）
非分离部署推理服务 - AI开发平台ModelArts

--distributed-executor-backend：多卡推理启动后端，可选值为"ray"或者"mp"，其中"ray"表示使用ray进行启动多卡推理，"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。高阶参数说明： --enable-prefi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

LoRA，本文档主要支持全参数（Full）和LoRA、LoRA+。 LoRA(Low-Rank Adaptation)：这种策略主要针对如何在保持模型大部分参数固定的同时，通过引入少量可训练参数来调整模型以适应特定任务。 LoRA+(Efficient Low Rank Adaptation

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

用户的唯一不重复的ID值，必选。 excel_addr: 待处理的excel文件的地址，必选。 dataset_name: 处理后的数据集名称，必选。 proportion: 测试集所占份数，范围[1,9]，可选。 test_count: 测试集的个数，范围[1,处理后数据集总长度 - 1]，可选。(用户在输入test_count时，要小于

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
创建Workflow训练作业节点 - AI开发平台ModelArts

该节点通过对算法、输入、输出的定义，实现ModelArts作业管理的能力。主要用于数据处理、模型训练、模型评估等场景。主要应用场景如下：当需要对图像进行增强，对语音进行除噪等操作时，可以使用该节点进行数据的预处理。对于一些物体检测，图像分类等模型场景，可以根据已有的数据使用该节点进行模型的训练。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite Server 支持配置的存储方案请参考配置Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
LoRA微调训练 - AI开发平台ModelArts

境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。 Step2 修改训练超参配置以Llama2-70b和Llama2-13

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905）
执行SFT全参微调训练任务 - AI开发平台ModelArts

境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。步骤二修改训练超参配置以Llama2-70b和Llama2-13b的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910）

总条数： 1270

上一页
1
...
27
28
29
...
64
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

网卡名称错误 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

上传OBS文件到JupyterLab - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

创建Workflow训练作业节点 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

执行SFT全参微调训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线