搜索_华为云

准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

本文档中的模型运行环境是ModelArts Lite的Cluster。请参考本文档要求准备资源环境。资源规格要求计算规格：不同模型训练推荐的NPU卡数请参见表2。硬盘空间：至少200GB。 Ascend资源规格： Ascend: 1*ascend-snt9b表示Ascend单卡。 Ascend: 8*ascend-snt9b表示Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表2。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。 Ascend: 8*ascend-snt9b表示昇腾8卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表2。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。 Ascend: 8*ascend-snt9b表示昇腾8卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
Lite Cluster资源开通 - AI开发平台ModelArts

在服务配额页面，单击右上角的“申请扩大配额”，填写申请材料后提交工单。申请扩大配额主要是申请弹性云服务器ECS实例数、核心数（CPU核数）、RAM容量（内存大小）和云硬盘EVS磁盘容量这4个资源配额。具体的配额数量请先联系客户经理获取。图7 ECS资源类型图8 云硬盘资源类型配额需大于需要开通的资

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

Server GPU裸金属服务器使用EulerOS内核误升级如何解决 GPU A系列裸金属服务器无法获取显卡如何解决 GPU裸金属服务器无法Ping通如何解决 GPU A系列裸金属服务器RoCE带宽不足如何解决？ GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed

帮助中心 > AI开发平台ModelArts > 故障排除
为什么项目删除完了，仍然还在计费？ - AI开发平台ModelArts

OBS桶，避免产生不必要的费用。您在创建Notebook时，选择了云硬盘EVS存储，该存储会单独收费，Notebook停止后，EVS还在计费，请及时删除该Notebook实例。您在体验CodeLab时，切换规格为付费的规格时会收费。请前往CodeLab界面单击右上角停止Notebook实例。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

机训练需要使用单机8卡，多机训练需要使用2机16卡。对于Qwen-72B至少需要5机40卡才能训练，建议使用8机64卡执行训练相关任务。硬盘空间：至少200GB。 Ascend资源规格： Ascend: 1*ascend-snt9b表示Ascend单卡。 Ascend: 8*ascend-snt9b表示Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

练需要使用单机8卡，多机训练需要使用2机16卡。对于Llama2-70B至少需要4机32卡才能训练，建议使用8机64卡执行训练相关任务。硬盘空间：至少200GB。 Ascend资源规格： Ascend: 1*ascend-snt9b表示Ascend单卡。 Ascend: 8*ascend-snt9b表示Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 准备工作
pipeline应用准备 - AI开发平台ModelArts

此处由于Huggingface网站的限制以及模型文件的大小原因，很可能会下载失败。您可以登录Huggingface网站，从浏览器下载模型后，再手动上传到物理机/home/onnx_models目录下。下载好模型后，需要编写推理脚本。为了便于操作，本指导中所需的代码已发布在ModelArts代码仓，可以使用如下命令下载推理脚本样例代码：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
创建Notebook实例 - AI开发平台ModelArts

之后自动停止，即1小时后停止规格资源计费。可选择“1小时”、“2小时”、“4小时”、“6小时”或“自定义”几种模式。选择“自定义”模式时，可指定1~72小时范围内任意整数。定时停止：开启定时停止功能后，该Notebook实例将在运行时长超出您所选择的时长后，自动停止。说明：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

04内核自动升级？哪里可以了解Atlas800训练服务器硬件相关内容使用GPU A系列裸金属服务器有哪些注意事项？ GPU A系列裸金属服务器如何更换NVIDIA和CUDA？

帮助中心 > AI开发平台ModelArts > 常见问题
配置Standard专属资源池可访问公网 - AI开发平台ModelArts

EIP的弹性云服务器实现网络对等连接；然后对已绑定EIP的弹性云服务器配置公网NAT网关，实现公网访问；通过这种方式专属资源池不用另外配置公网NAT网关即可访问公网。图1 专属资源池连通公网前提条件已拥有需要部署SNAT的弹性云服务器。待部署SNAT的弹性云服务器操作系统为Linux操作系统。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

本文档中的模型运行环境是ModelArts Lite的Lite k8s Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。硬盘空间：至少200GB。 Ascend资源规格： Ascend: 1*ascend-snt9b表示Ascend单卡。 Ascend: 8*ascend-snt9b表示Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

本文档中的模型运行环境是ModelArts Lite的Lite k8s Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。硬盘空间：至少200GB。 Ascend资源规格： Ascend: 1*ascend-snt9b表示Ascend单卡。 Ascend: 8*ascend-snt9b表示Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

s申请更多资源。图5 报错信息 ECS、BMS节点创建失败？查看资源池失败报错信息：包含错误码，如：Ecs.0000时，可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。包含错误码，如：BMS.0001时，可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
Notebook提示磁盘空间已满 - AI开发平台ModelArts

在JupyterLab浏览器左侧导航删除文件后，会默认放入回收站占用内存，导致磁盘空间不足。磁盘配额不足。处理方法查看虚拟机所使用的存储空间，再查看回收站文件占用内存，根据实际删除回收站里不需要的大文件。在Notebook实例详情页，查看实例的存储容量。执行如下命令，排查虚拟机所使用的存储空间，

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
在ModelArts的Notebook中不同规格资源/cache目录的大小是多少？ - AI开发平台ModelArts

在ModelArts的Notebook中不同规格资源/cache目录的大小是多少？创建Notebook时，可以根据业务数据量的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源，不同资源规格有不同的容量。映射规则：当前不

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

本文档中的模型运行环境是ModelArts Lite的Lite k8s Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。硬盘空间：至少200GB。 Ascend资源规格： Ascend: 1*ascend-snt9b表示Ascend单卡。 Ascend: 8*ascend-snt9b表示Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题问题现象创建模型成功后，部署服务失败，如何定位是模型代码编写有问题。原因分析用户自定义镜像或者通过基础镜像导入的模型时，用户自己编写了很多自定义的业务逻辑，这些逻辑有问题将会导致服务部署或者预测失败，需要能够排查出哪里有问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理

总条数： 1356

上一页
1
...
6
7
8
...
68
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备环境 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

为什么项目删除完了，仍然还在计费？ - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

pipeline应用准备 - AI开发平台ModelArts

创建Notebook实例 - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

配置Standard专属资源池可访问公网 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

在ModelArts的Notebook中不同规格资源/cache目录的大小是多少？ - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线