搜索_华为云

附录：指令微调训练常见问题 - AI开发平台ModelArts

States、Gradient、Model Parameter分布到不同的NPU 增加卡数重新训练，未解决找相关人员定位。问题2：访问容器目录时提示Permission denied 由于在容器中没有相应目录的权限，会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开，执行命令如下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
SFT全参微调训练任务 - AI开发平台ModelArts

Step3 启动训练脚本修改超参值后，再启动训练脚本。其中 Llama2-70b建议为4机32卡训练。多机启动以 Llama2-70b为例，多台机器执行训练启动命令如下。进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下执行启动脚本。示例：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）
推理精度测试 - AI开发平台ModelArts

#安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字确保容器内通网，未通网需要配置$config_proxy_str，$config_pip_s

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
模型的自定义镜像制作流程 - AI开发平台ModelArts

json文件中apis定义的url一致，当镜像启动时可以直接访问。下面是mnist镜像的访问示例，该镜像内含mnist数据集训练的模型，可以识别手写数字。其中listen_ip为容器IP，您可以通过启动自定义镜像，在容器中获取容器IP。请求示例 curl -X POST \

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
DockerFile构建镜像（可选） - AI开发平台ModelArts

_train/AscendFactory 构建新镜像： docker build -t <镜像名称>:<版本名称> . 如无法访问公网则需配置代理，增加`--build-arg`参数指定代理地址确保访问公网。 docker build --build-arg "https_proxy=http://xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 准备工作
ModelArts入门实践 - AI开发平台ModelArts

Standard平台上进行训练。镜像中使用的AI引擎是Pytorch，训练使用的资源是CPU或GPU。面向熟悉代码编写和调测的AI工程师，同时熟悉docker容器知识从 0 制作自定义镜像并用于训练（MindSpore+Ascend）本案例介绍如何从0开始制作镜像，并使用该镜像在ModelArts

帮助中心 > AI开发平台ModelArts > 快速入门
ECS中构建新镜像 - AI开发平台ModelArts

互联网git clone，请确保ECS可以访问公网 docker build -t <镜像名称>:<版本名称> . 如果无法访问公网，则可以配置代理，增加`--build-arg`参数指定代理地址，可访问公网。 docker build --build-arg "https_proxy=http://xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
ECS中构建新镜像 - AI开发平台ModelArts

互联网git clone，请确保ECS可以访问公网 docker build -t <镜像名称>:<版本名称> . 如果无法访问公网，则可以配置代理，增加`--build-arg`参数指定代理地址，可访问公网。 docker build --build-arg "https_proxy=http://xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
镜像过大，卸载原来的包重新打包镜像，最终镜像会变小吗？ - AI开发平台ModelArts

镜像过大，卸载原来的包重新打包镜像，最终镜像会变小吗？不会，反而会变大。因为Docker镜像的层原因，当前的镜像是基于原来的镜像制作，而原来的镜像层数是无法改变的，层不变的情况下，大小是不变的，卸载包或者删除数据集，会新增镜像层，镜像反而会变大，这和传统概念的存储不一样。父主题：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
DockerFile构建镜像（可选） - AI开发平台ModelArts

/home/ma-user/ws/llm_train/LLaMAFactory 构建新镜像： docker build -t <镜像名称>:<版本名称> . 如无法访问公网则需配置代理，增加`--build-arg`参数指定代理地址确保访问公网。 docker build --build-arg "https_proxy=http://xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

执行如下命令，根据“config.yaml”创建并启动pod。容器启动后会自动执行训练作业。 kubectl apply -f config.yaml 执行如下命令，检查pod启动情况。如果显示“1/1 running”状态代表启动成功。 kubectl get pod 图3 启动成功的回显执行如下命令

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
自定义镜像使用场景 - AI开发平台ModelArts

自定义镜像功能关联服务介绍容器镜像服务容器镜像服务（Software Repository for Container，SWR）是一种支持镜像全生命周期管理的服务，提供简单易用、安全可靠的镜像管理功能，帮助您快速部署容器化服务。您可以通过界面、社区CLI和原生API上传、下载和管理容器镜像。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
上传数据至OBS（首次使用时需要） - AI开发平台ModelArts

已经在OBS上创建好普通OBS桶，请参见创建普通OBS桶。已经安装obsutil，请参考下载和安装obsutil。参考线下容器镜像构建及调试章节，构建容器镜像并调试，镜像构建及调试与单机单卡相同。上传镜像，参考单机单卡训练的上传镜像章节操作。操作步骤登录Imagenet数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
推理精度测试 - AI开发平台ModelArts

包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。约束限制确保容器可以访问公网。当前的精度测试仅适用于语言模型精度验证，不适用于多模态模型的精度验证。多模态模型的精度验证，建议使用开源MME数据集和工具（GitHub

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
推理精度测试 - AI开发平台ModelArts

包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。约束限制确保容器可以访问公网。当前的精度测试仅适用于语言模型精度验证，不适用于多模态模型的精度验证。多模态模型的精度验证，建议使用开源MME数据集和工具（GitHub

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
infiniband驱动的安装 - AI开发平台ModelArts

下载驱动参考如下Dockerfile中，以在容器镜像中安装infiniband驱动。 USER root # copy MLNX_OFED_LINUX-4.3-1.0.1.0-ubuntu16.04-x86_64.tgz to docker image RUN tar xzvf MLNX_OFED_LINUX-4

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像构建容器镜像并调试镜像构建及调试与单机单卡相同。具体操作，请参考线下容器镜像构建及调试。上传镜像请参考单机单卡训练的上传镜像章节操作。父主题：单机多卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

Label名字 Label描述容器级别指标 pod_name 容器所属pod的名字。 pod_id 容器所属pod的ID。 node_ip 容器所属的节点IP值。 container_id 容器ID。 cluster_id 集群ID。 cluster_name 集群名称。 container_name

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
执行训练任务（推荐） - AI开发平台ModelArts

户使用该方式进行训练。步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务

总条数： 2178

上一页
1
...
14
15
16
...
109
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：指令微调训练常见问题 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

模型的自定义镜像制作流程 - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

ModelArts入门实践 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

镜像过大，卸载原来的包重新打包镜像，最终镜像会变小吗？ - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

自定义镜像使用场景 - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

上传数据至OBS（首次使用时需要） - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

infiniband驱动的安装 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线