搜索_华为云

InternVL2基于LIte Server适配PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

插件代码包 AscendCloud-6.3.910软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.912 版本。说明：

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
查询服务详情 - AI开发平台ModelArts

String 批量任务输入数据的OBS路径。 dest_path String 批量任务输出结果的OBS路径。 req_uri String 批量任务中调用的推理路径。 mapping_type String 输入数据的映射类型，取值为：file或csv。 mapping_rule Map

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

n\python**\lib\site-packages\pip (python *.*) 在Windows环境中，如果提示“不是内部或外部命令”，请您在“环境变量”中设置“Path”，增加Python和pip的安装路径，具体步骤如下。pip的安装路径一般为Python所在目录的Scripts文件夹。

帮助中心 > AI开发平台ModelArts > SDK参考
Standard支持的AI框架 - AI开发平台ModelArts

”导入模型，则支持如下常用引擎及版本的模型包。标注“推荐”的Runtime来源于统一镜像，后续统一镜像将作为主流的推理基础镜像。统一镜像中的安装包更齐全，详细信息可以参见推理基础镜像列表。推荐将旧版镜像切换为统一镜像，旧版镜像后续将会逐渐下线。待下线的基本镜像不再维护。统

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
精度调优前准备工作 - AI开发平台ModelArts

Parallelism）是大规模深度学习训练中常用的并行模式，它会在每个进程(设备)或模型并行组中维护完整的模型和参数，但在每个进程上或模型并行组中处理不同的数据。因此，数据并行非常适合大数据量的训练任务。 TP：张量并行也叫层内并行，通过将网络中的权重切分到不同的设备，从而降低单个设备的显存消耗，使得超大规模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

路由加速的原理是改变rank编号，所以代码中对rank的使用要统一。将训练作业完成如下修改后，启动训练作业即可实现网络加速。将训练启动脚本中的“NODE_RANK="$VC_TASK_INDEX"”修改为“NODE_RANK="$RANK_AFTER_ACC"”。将训练启动脚本中的“MASTER_

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
训练启动脚本说明和参数配置 - AI开发平台ModelArts

1_preprocess_data.sh 、2_convert_mg_hf.sh 中的具体python指令运行。本代码中有许多环境变量的设置，在下面的指导步骤中，会展开进行详细的解释。若用户希望自定义参数进行训练，可直接编辑对应模型的训练脚本，可编辑参数以及详细介绍如下。以 llama2-70b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
自动学习训练作业失败 - AI开发平台ModelArts

针对物体检测作业，排查思路请参见确保OBS中的数据存在、检查OBS的访问权限、检查图片是否符合要求、检查标注框是否符合要求（物体检测）。针对预测分析作业，排查思路请参见确保OBS中的数据存在、检查OBS的访问权限、预测分析作业失败的排查思路。确保OBS中的数据存在如果存储在OBS中的图片或数据被删除

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
训练启动脚本说明和参数配置 - AI开发平台ModelArts

1_preprocess_data.sh 、2_convert_mg_hf.sh 中的具体python指令运行。本代码中有许多环境变量的设置，在下面的指导步骤中，会展开进行详细的解释。如果用户希望自定义参数进行训练，可直接编辑对应模型的训练脚本，可编辑参数以及详细介绍如下。以下参数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
Lite Cluster资源配置流程 - AI开发平台ModelArts

在CCE集群详情页面，单击“节点管理”页签，在“节点”页签中单击需要登录的节点名称，跳转至弹性云服务器页面。图8 节点管理单击“远程登录”，在弹出的窗口中，单击“CloudShell登录”。图9 远程登录在CloudShell中设置密码等参数后，单击“连接”即可登录节点，Clou

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
Llama 3.2-Vision基于Lite Server适配Pytorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

插件代码包 AscendCloud-6.3.912软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.912 版本。说明：

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
Standard资源池功能介绍 - AI开发平台ModelArts

可能排队。专属资源池支持打通用户的网络，在该专属资源池中运行的作业可以访问打通网络中的存储和资源。例如，在创建训练作业时选择打通了网络的专属资源池，训练作业创建成功后，支持在训练时访问SFS中的数据。专属资源池支持自定义物理节点运行环境相关的能力，例如GPU/Ascend驱动的自助升级，而公共资源池暂不支持。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
推理部署计费项 - AI开发平台ModelArts

专属资源池的费用请参考专属资源池计费项。 - - 存储资源对象存储OBS 用于存储批量部署服务的输入和输出数据。具体费用可参见对象存储价格详情。注意：存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除，则会按照OBS的计费规则进行持续计费。按需计费包年/包月创建桶不收取费用，按实际使用的存储容量和时长收费

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

Code，选择“Help>About”，并记下“Commit”的ID码。确认创建Notebook实例使用的镜像的系统架构，可以在Notebook中打开Terminal，通过命令uname -m查看。下载对应版本的vscode-server，根据Commit码和Notebook实例镜像架构下载。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

ME=pytorch Dockerfile中的"https://${bucket_name}.obs.cn-north-4.myhuaweicloud.com/${folder_name}/pytorch.tar.gz"，需要替换为1中pytorch.tar.gz在OBS上的路径（需将文件设置为公共读）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
创建节点池 - AI开发平台ModelArts

创建节点池功能介绍创建节点池。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/pools/{pool_name}/nodepools

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
迁移环境准备 - AI开发平台ModelArts

环境开通指导请参考DevServer资源开通；环境配置指导请参考Snt9B裸金属服务器环境配置指南。本文基于方式二的环境进行操作，请参考方式二中的环境开通和配置指导完成裸机和容器开发初始化配置。注意业务基础镜像选择Ascend+PyTorch镜像。配置好的容器环境如下图所示：图1

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
模型训练计费项 - AI开发平台ModelArts

专属资源池的费用请参考专属资源池计费项。 - - 存储资源对象存储OBS 用于存储模型训练的输入和输出数据。具体费用可参见对象存储价格详情。注意：存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除，则会按照OBS的计费规则进行持续计费。按需计费包年/包月创建桶不收取费用，按实际使用的存储容量和时长收费

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
变更计费模式 - AI开发平台ModelArts

计费模式变更目前仅支持按需计费转包周期（即包年/包月）。公共资源池不能单独购买，不支持变更计费模式。专属资源池计费模式为“按需计费”。只有订购实例状态是“使用中”的资源才能变更资费。计费模式变更只支持以专属资源池为粒度进行整体变更，不支持以规格为粒度进行部分变更。一个专属资源池的所有节点，必须为

 帮助中心 > AI开发平台ModelArts > 计费说明
NPU日志收集上传 - AI开发平台ModelArts

的OBS桶目录“obs_dir”，该目录用于后续配置的脚本中。图2 租户名ID和IAM用户名ID 准备日志收集上传脚本。修改以下脚本中NpuLogCollection的参数，将ak、sk、obs_dir替换为前面步骤中获取到的值，然后把该脚本上传到要收集NPU日志的节点上。 import

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理

总条数： 1642

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

InternVL2基于LIte Server适配PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

Standard支持的AI框架 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

自动学习训练作业失败 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

Llama 3.2-Vision基于Lite Server适配Pytorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

Standard资源池功能介绍 - AI开发平台ModelArts

推理部署计费项 - AI开发平台ModelArts

VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

创建节点池 - AI开发平台ModelArts

迁移环境准备 - AI开发平台ModelArts

模型训练计费项 - AI开发平台ModelArts

变更计费模式 - AI开发平台ModelArts

NPU日志收集上传 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线