搜索_华为云

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容场景描述本文提供Atlas800训练服务器硬件相关指南，包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器（型号9000）是基于华为鲲鹏920+Sn

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

以下原因导致nvidia-fabricmanager.service不工作：可能系统资源不足、如内存不足、内存泄露。硬件故障、如IB网络或者GPU互联设备故障等。没安装nvidia-fabricmanager组件或被误卸载。处理方法如果未安装fabricmanager，则需安装改组件。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

前提条件 GPU A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20.04操作系统默认已经安装IB驱动。）操作步骤方法1：使用mlx硬件计数器，估算ROCE网卡收发流量统计300s内流量，统计脚本如下：

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
msprobe精度比对 - AI开发平台ModelArts

降问题，对比NPU芯片中的API计算数值与CPU或GPU芯片中的API计算数值，进行问题定位。同一模型，进行迭代（模型、框架版本升级或设备硬件升级）时存在的精度下降问题，对比相同模型在迭代前后版本的API计算数值，进行问题定位。首先通过在PyTorch训练脚本中插入dump接

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍场景介绍本文介绍如何将客户已有的PyTorch训练业务迁移到昇腾设备上运行并获得较好的模型训练效果。华为云ModelArts针对该场景提供了系统化的迁移指导，包括迁移原理、迁移流程以及迁移后的精度调试及性能调优方法介绍。此外，ModelArts提

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
订阅免费模型 - AI开发平台ModelArts

Arts模型部署和HiLens技能安装。 AI Gallery中分享的模型支持免费订阅，但在使用过程中如果消耗了硬件资源进行部署，管理控制台将根据实际使用情况收取硬件资源的费用。前提条件注册并登录华为云，且创建好OBS桶用于存储数据和模型。如果是订阅使用HiLens技能，则

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
免费资产和商用资产 - AI开发平台ModelArts

免费资产和商用资产 AI Gallery既有免费分享的AI资产，也有商业售卖的AI资产。免费资产无需支付费用，只需要支付在使用过程中消耗的硬件资源，硬件资源费用将根据实际使用情况由华为云ModelArts等管理控制台向使用方收取。当前支持免费分享和订阅的资产类型有：Notebook代码样例、数据集、算法、模型、镜像。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
LLaVA模型基于Lite Server适配PyTorch NPU预训练指导（6.3.912） - AI开发平台ModelArts

\ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4 \ --device=/dev/davinci5

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
SDXL基于Lite Server适配PyTorch NPU的LoRA训练指导（6.3.905） - AI开发平台ModelArts

in/npu-smi --shm-size 60g --device=/dev/davinci_manager --device=/dev/hisi_hdc --device=/dev/devmm_svm --device=/dev/davinci0 --security-opt

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
LLaVA模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

\ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4 \ --device=/dev/davinci5

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
订阅免费算法 - AI开发平台ModelArts

足业务需要的算法，直接用于创建训练作业。 AI Gallery中分享的算法支持免费订阅，但在使用过程中如果消耗了硬件资源进行部署，管理控制台将根据实际使用情况收取硬件资源的费用。前提条件注册并登录华为云，且创建好OBS桶用于存储数据和模型。订阅算法登录“AI Gallery”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
训练作业容错检查 - AI开发平台ModelArts

用户在训练模型过程中，存在因硬件故障而产生的训练失败场景。针对硬件故障场景，ModelArts提供容错检查功能，帮助用户隔离故障节点，优化用户训练体验。容错检查包括两个检查项：环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一检查项出现故障时，隔离故障硬件并重新下发训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
Qwen-VL基于Lite Server适配PyTorch NPU的Finetune训练指导(6.3.912) - AI开发平台ModelArts

\ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4 \ --device=/dev/davinci5

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
Qwen-VL基于Lite Server适配PyTorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

docker run -itd --net=host \ --device=/dev/davinci0 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ --shm-size=32g

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
订阅Workflow - AI开发平台ModelArts

Gallery导入后可以直接在ModelArts控制台使用。 AI Gallery中分享的Workflow支持免费订阅，但在使用过程中如果消耗了硬件资源进行部署，管理控制台将根据实际使用情况收取硬件资源的费用。前提条件注册并登录华为云，且创建好OBS桶用于存储算法和Workflow。订阅免费Workflow

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
Open-Sora1.2基于Lite Server适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

300g --device=/dev/davinci_manager --device=/dev/hisi_hdc --device=/dev/devmm_svm --device=/dev/davinci0 --device=/dev/davinci1 --device=/dev/davinci2

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
使用AI案例 - AI开发平台ModelArts

场景化AI案例。订阅后可以一键运行案例。 AI Gallery中分享的案例支持免费订阅，但在使用过程中如果消耗了硬件资源进行部署，管理控制台将根据实际使用情况收取硬件资源的费用。前提条件注册并登录华为云，且创建好OBS桶用于存储数据和模型。订阅并使用AI案例登录“AI Gallery”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
Open-Sora-Plan1.0基于Lite Server适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

in/npu-smi --shm-size 60g --device=/dev/davinci_manager --device=/dev/hisi_hdc --device=/dev/devmm_svm --device=/dev/davinci0 --security-opt

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

-itd \ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

0241112192643-c45ac6b cann_8.0.rc3 Step1 检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作

总条数： 359

上一页
1
2
3
4
5
...
18
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

msprobe精度比对 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

订阅免费模型 - AI开发平台ModelArts

免费资产和商用资产 - AI开发平台ModelArts

LLaVA模型基于Lite Server适配PyTorch NPU预训练指导（6.3.912） - AI开发平台ModelArts

SDXL基于Lite Server适配PyTorch NPU的LoRA训练指导（6.3.905） - AI开发平台ModelArts

LLaVA模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

订阅免费算法 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

Qwen-VL基于Lite Server适配PyTorch NPU的Finetune训练指导(6.3.912) - AI开发平台ModelArts

Qwen-VL基于Lite Server适配PyTorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

订阅Workflow - AI开发平台ModelArts

Open-Sora1.2基于Lite Server适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

使用AI案例 - AI开发平台ModelArts

Open-Sora-Plan1.0基于Lite Server适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线