搜索_华为云

附录：微调训练常见问题 - AI开发平台ModelArts

O-1，Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推，重新训练如未解决则执行下一步。 - ZeRO-0 数据分布到不同的NPU - ZeRO-1 Optimizer States分布到不同的NPU - ZeRO-2 Optimizer States、Gradient分布到不同的NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
昇腾云服务6.3.906版本说明 - AI开发平台ModelArts

算子依赖包：AscendCloud-OPP 获取路径：Support-E 说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。支持的特性表1 本版本支持的特性说明分类软件包特性说明参考文档三方大模型，包名：AscendCloud-LLM

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

为在线服务。当前支持“在线服务”、“批量服务”和“边缘服务”。确认信息填写无误，单击“立即创建”，完成模型的创建。在模型列表中，您可以查看刚创建的模型及其对应的版本。当模型状态变更为“正常”时，表示模型导入成功。在此页面，您还可以创建新版本、快速部署服务、发布模型等操作。后续操作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
msprobe精度比对 - AI开发平台ModelArts

通过pip安装msprobe工具。 # shell pip install mindstudio-probe 获取NPU和标杆的dump数据。 PyTorch训练脚本插入dump接口方式如下： from msprobe.pytorch import PrecisionDebugger

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
不同机型的对应的软件配套版本 - AI开发平台ModelArts

eulerosv2r9.x86_64 架构类型：x86 RDMA：Remote Direct Memory Access（RDMA）是一种直接内存访问技术，将数据直接从一台计算机的内存传输到另一台计算机。 RoCE：RDMA over Converged Ethernet（RoCE）是一种网络协议，允许应用通过以太网实现远程内存访问。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
将AI Gallery中的模型部署为AI应用 - AI开发平台ModelArts

在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据，AI Gallery会基于资产和资源情况分析该任务是否支持设置“商品数量”，用户可以基于业务需要选择任务所需的资源卡数。在“运行时长控制”选择是否指定运行时长。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
PD分离部署使用说明 - AI开发平台ModelArts

duler访问P、D实例时走不必要的网关。前提条件已完成推理环境镜像制作，具体参见准备推理环境。步骤一：生成ranktable 介绍如何生成ranktable，以1p1d-tp2分离部署模式为例。当前1p1d分离部署模式，全量节点和增量节点分别占用2张卡，一共使用4张卡。配置tools工具根目录环境变量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 分离部署
PD分离部署使用说明 - AI开发平台ModelArts

duler访问P、D实例时走不必要的网关。前提条件已完成推理环境镜像制作，具体参见准备推理环境。步骤一：生成ranktable 介绍如何生成ranktable，以1p1d-tp2分离部署模式为例。当前1p1d分离部署模式，全量节点和增量节点分别占用2张卡，一共使用4张卡。配置tools工具根目录环境变量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 分离部署
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

登录ModelArts管理控制台，在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”，在“弹性集群”页面，选择“Lite资源池”页签，查看资源池列表。单击某个资源池操作列的“扩缩容”对资源池进行扩缩容。对于为包周期资源池，此按钮为“扩容”，如果需要缩容，请进入到包周期资源池详情页对节点进行退订操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
身份认证与访问控制 - AI开发平台ModelArts

为了完成AI计算的各种操作，ModelArts在AI计算任务执行过程中需要访问用户的其他服务，例如训练过程中，需要访问OBS读取用户的训练数据。在这个过程中，就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发，ModelArts代表用户访问任何云服务之前

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

r_private_ip}:3128" } 代理服务器IP即步骤二：使用Docker安装和配置正向代理中创建的ECS私有IP，获取方式请见查看弹性云服务器详细信息。图4 ECS私有IP 调用公网地址时，使用服务URL进行业务请求，如： https://e8a048ce25136addbbac23ce6132a

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
扩缩容Standard专属资源池 - AI开发平台ModelArts

修改容器引擎空间大小登录ModelArts管理控制台，在左侧菜单栏中选择“AI专属资源池 > 弹性集群Cluster”，进入“Standard资源池”页签，查看资源池列表。在旧版资源池迁移到新版资源池的过程中，资源池状态显示为“受限”。此时，资源池无法进行扩缩容和退订。单击某个资源池操作列右侧

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
导入模型 - AI开发平台ModelArts
导入模型 - AI开发平台ModelArts

导入模型导入模型功能包括：初始化已存在的模型，根据模型ID生成模型对象。创建模型。模型对象的属性，请参见查询模型详情。示例模型文件以PyTorch为例，编写模型文件。PyTorch模型包结构可参考模型包规范介绍。 OBS桶/目录名 ├── resnet │ ├── model

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
删除服务 - AI开发平台ModelArts
删除服务 - AI开发平台ModelArts

删除服务删除服务存在如下两种删除方式。根据部署在线服务生成的服务对象删除服务。根据查询服务对象列表返回的服务对象删除服务。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式

 帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
获取自动化搜索作业yaml模板的信息 - AI开发平台ModelArts

AutoSearch算法类型，中文描述。 algorithm_names Array of strings 该算法类型下所有算法的名称。请求示例查询自动化搜索作业支持的yaml配置模板的信息 GET https://endpoint/v2/{project_id}/training-j

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
获取训练作业支持的公共规格 - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 flavor_type 否 String 查询训练作业规格的类型，不填为查询所有。枚举值： CPU GPU Ascend 请求参数无响应参数状态码：200 表3 响应Body参数参数参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
附录：训练常见问题 - AI开发平台ModelArts

O-1，Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推，重新训练如未解决则执行下一步。 - ZeRO-0 数据分布到不同的NPU - ZeRO-1 Optimizer States分布到不同的NPU - ZeRO-2 Optimizer States、Gradient分布到不同的NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
创建工作空间 - AI开发平台ModelArts

DELETE_FAILED：删除失败。 status_info String 状态描述，默认为空。该字段会补充显示状态的详细信息。如删除失败时，可通过该字段查看删除失败的原因。 grants Array of grants objects 授权用户列表。默认为空。需要与“auth_type”参数配

 帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理

总条数： 2509

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：微调训练常见问题 - AI开发平台ModelArts

昇腾云服务6.3.906版本说明 - AI开发平台ModelArts

从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

msprobe精度比对 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

将AI Gallery中的模型部署为AI应用 - AI开发平台ModelArts

PD分离部署使用说明 - AI开发平台ModelArts

PD分离部署使用说明 - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

身份认证与访问控制 - AI开发平台ModelArts

ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

扩缩容Standard专属资源池 - AI开发平台ModelArts

导入模型 - AI开发平台ModelArts

删除服务 - AI开发平台ModelArts

获取自动化搜索作业yaml模板的信息 - AI开发平台ModelArts

获取训练作业支持的公共规格 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

创建工作空间 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线