搜索_华为云

环境准备 - AI开发平台ModelArts
环境准备 - AI开发平台ModelArts

Snt9b单卡规格，配搭ARM处理器，适合深度学习场景下的模型训练和调测 ModelArts提供了面向推理迁移工作的预置镜像，其中包含了最新商用版驱动、昇腾软件开发库，迁移工具链等。预置镜像可以做到即开即用，用户也可以基于预置镜像构建自定义环境内容。 ModelArts支持的昇腾迁移预置镜像如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
设置断点续训练 - AI开发平台ModelArts

页面，开启“自动重启”开关。训练环境预检测失败、或者训练容器硬件检测故障、或者训练作业失败时会自动重新下发并运行训练作业。 PyTorch版reload ckpt PyTorch模型保存有两种方式。仅保存模型参数 state_dict = model.state_dict() torch

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

Service，并且提供在线的测试UI与监控能力，服务一直保持运行。 batch为批量服务，批量服务可对批量数据进行推理，完成数据处理后自动停止。 edge表示边缘服务，通过华为云智能边缘平台，在边缘节点将模型部署为一个Web Service，需提前在IEF（智能边缘服务）创建好节点。 vpc_id 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
增量模型训练 - AI开发平台ModelArts

目录时，系统在训练作业启动前，自动将数据存储位置中的Checkpoint文件下载到训练容器的本地目录。图1 训练输出设置 PyTorch版reload ckpt PyTorch模型保存有两种方式。仅保存模型参数 state_dict = model.state_dict() torch

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

ADD run.sh /home/mind/ CMD /bin/bash /home/mind/run.sh 完成镜像构建后，将镜像注册至华为云容器镜像服务SWR中，用于后续在ModelArts上部署推理服务。使用适配后的镜像在ModelArts部署在线推理服务。在obs中创

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
执行微调训练任务 - AI开发平台ModelArts

是否使用chatglm4-9b、falcon-11b模型。是，更新配置或命令。 chatglm4-9b，更新transformers为4.41.2版本。 pip install transformers==4.41.2 falcon-11b，参考falcon-11B模型替换文件。否，忽略此步骤，执行下一步。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
附录：训练常见问题 - AI开发平台ModelArts

Error: No module named 'tyro'" 错误截图：报错原因：未指定tyro依赖包版本，导致安装依赖为最新0.9.0版本导致与其他依赖冲突解决措施：任务前容器内更新'tyro'版本为0.8.14或以下版本 pip install tyro==0.8.14 父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
附录：训练常见问题 - AI开发平台ModelArts

Error: No module named 'tyro'" 错误截图：报错原因：未指定tyro依赖包版本，导致安装依赖为最新0.9.0版本导致与其他依赖冲突解决措施：任务前容器内更新'tyro'版本为0.8.14或以下版本 pip install tyro==0.8.14 父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

No module named 'multipart'"报错：截图如下：解决措施：可更新python-multipart为0.0.12版本，具体步骤如下：启动训练任务前更新python-multipart版本： pip install python-multipart==0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
准备镜像环境 - AI开发平台ModelArts

行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。 # 下载 nerdctl 工具，注意使用的是1.7.6 arm64版本 wget https://github.com/containerd/nerdctl/releases/download/v1.7.6/nerdctl-1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备镜像环境 - AI开发平台ModelArts

行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。 # 下载 nerdctl 工具，注意使用的是1.7.6 arm64版本 wget https://github.com/containerd/nerdctl/releases/download/v1.7.6/nerdctl-1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备镜像环境 - AI开发平台ModelArts

行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。 # 下载 nerdctl 工具，注意使用的是1.7.6 arm64版本 wget https://github.com/containerd/nerdctl/releases/download/v1.7.6/nerdctl-1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备镜像环境 - AI开发平台ModelArts

行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。 # 下载 nerdctl 工具，注意使用的是1.7.6 arm64版本 wget https://github.com/containerd/nerdctl/releases/download/v1.7.6/nerdctl-1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
精度调优前准备工作 - AI开发平台ModelArts

荐在条件允许的前提下配套安装最新商发版本的昇腾开发套件CANN Toolkit、昇腾驱动以及torch_npu包。具体操作，请参考昇腾商用版资源下载指导。数据集。需要排查是否使用的训练数据集存在差异。初始权重。需要排查是否加载的初始权重有差异，建议加载相同的初始权重。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
附录：训练常见问题 - AI开发平台ModelArts

Error: No module named 'tyro'" 错误截图：报错原因：未指定tyro依赖包版本，导致安装依赖为最新0.9.0版本导致与其他依赖冲突解决措施：任务前容器内更新'tyro'版本为0.8.14或以下版本 pip install tyro==0.8.14 问题7：训练过程中报“an

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
VS Code一键连接Notebook - AI开发平台ModelArts

安装过程预计1~2分钟，安装完成后右下角会弹出对话框，请单击“Reload Window and Open”。本文以VS Code 1.78.2版本的操作为例，其他版本的VS Code可能不会弹出“Reload Window and Open”，请直接执行5。图6 Reload Window

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
查看ModelArts模型详情 - AI开发平台ModelArts

部署：将模型发布为在线服务、批量服务或边缘服务。发布：将模型发布至AI Gallery，详情请参见发布ModelArts模型。删除：针对模型的某一版本进行删除。查看模型详情当模型创建成功后，您可以进入模型详情页查看模型的信息。登录ModelArts管理控制台，在左侧菜单栏中选择“模型管理”，进入“自定义模型”列表页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
创建训练作业版本 - AI开发平台ModelArts

String 训练作业的日志OBS输出路径URL，默认为空。如：“/usr/train/”。 pre_version_id 是 Long 训练作业前一版本的ID。可通过查询训练作业版本列表中查找“version_id”。 user_image_url 否 String 自定义镜像训练作业

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

$PYTHON_SCRIPT \ $PYTHON_ARGS " echo $CMD $CMD torchrun.sh内容如下： PyTorch 2.1版本需要将“rdzv_backend”参数设置为“static：--rdzv_backend=static”。 #!/bin/bash # 系统默认环境变量，不建议修改

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
推理性能测试 - AI开发平台ModelArts

性能benchmark验证使用到的脚本存放在代码包AscendCloud-3rdLLM-xxx.zip的llm_tools/llm_evaluation（6.3.905版本）目录中。代码目录如下: benchmark_tools ├── benchmark_parallel.py # 评测静态性能脚本 ├──

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）

总条数： 895

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

环境准备 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

VS Code一键连接Notebook - AI开发平台ModelArts

查看ModelArts模型详情 - AI开发平台ModelArts

创建训练作业版本 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线