搜索_华为云

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

准备一台具有Docker功能的机器，如果没有，建议申请一台弹性云服务器并购买弹性公网IP，并在准备好的机器上安装必要的软件。 ModelArts提供了ubuntu系统的脚本，方便安装docker。本地Linux机器的操作等同ECS服务器上的操作，请参考本案例。登录ECS控制台，购买弹性云服务器，镜像选择“公共镜像”，推荐使用ubuntu18

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

排查是否符合业务资源使用预期，如果业务无问题，无需处理。 GPU内存带宽利用率 ma_container_gpu_mem_copy_util 表示内存带宽利用率。以英伟达GP Vnt1为例，其最大内存带宽为900 GB/sec，如果当前的内存带宽为450 GB/sec，则内存带宽利用率为50%。百分比（Percent）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.5.901） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

PyTorch：2.1.0 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注意：CPU架构必

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

WebSocket使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据。在WebSocket API中，浏览器和服务器只需要完成一次握手，两者之间就可以建立持久性的连接，并进行双向数据传输。前提条件在线服务部署时需选择“升级为WebSocket”。在线

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

SFS类型和容量选择创建ECS服务器弹性云服务器（Elastic Cloud Server，ECS）是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后，单击“远程登录”，可直接访问ECS服务器。注意

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

SFS类型和容量选择创建ECS服务器弹性云服务器（Elastic Cloud Server，ECS）是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后，单击“远程登录”，可直接访问ECS服务器。注意

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

SFS类型和容量选择创建ECS服务器弹性云服务器（Elastic Cloud Server，ECS）是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后，单击“远程登录”，可直接访问ECS服务器。注意

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

SFS类型和容量选择创建ECS服务器弹性云服务器（Elastic Cloud Server，ECS）是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后，单击“远程登录”，可直接访问ECS服务器。注意

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
Standard资源池功能介绍 - AI开发平台ModelArts

细信息。如果专属资源池的规格与您的业务不符，可通过扩缩容Standard专属资源池来调整专属资源池的规格。每个用户对集群的驱动要求不同，在专属资源池列表页中，可自行选择加速卡驱动，并根据业务需要进行立即变更或平滑升级。ModelArts提供了自助升级专属资源池GPU/Asce

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

SFS类型和容量选择创建ECS服务器弹性云服务器（Elastic Cloud Server，ECS）是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后，单击“远程登录”，可直接访问ECS服务器。注意

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.5.901） > 准备工作
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？问题现象启动服务失败，报错：资源不足，服务调度失败。（Schedule failed due to insufficient resources. Retry later.或ModelArts.3976：No resources

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

Lite Server GPU裸金属服务器使用EulerOS内核误升级如何解决 GPU A系列裸金属服务器无法获取显卡如何解决 GPU裸金属服务器无法Ping通如何解决 GPU A系列裸金属服务器RoCE带宽不足如何解决？ GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed

帮助中心 > AI开发平台ModelArts > 故障排除
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic？如何禁止Ubuntu 20.04内核自动升级？哪里可以了解Atlas800训练服务器硬件相关内容

 帮助中心 > AI开发平台ModelArts > 常见问题
约束与限制 - AI开发平台ModelArts

约束与限制本节介绍ModelArts服务在使用过程中的约束和限制。规格限制表1 规格说明资源类型规格说明计算资源所有按需计费、包年/包月、套餐包中的计算资源规格，包括CPU、GPU和NPU 购买的所有类型的计算资源均不支持跨Region使用。计算资源套餐包套

 帮助中心 > AI开发平台ModelArts > 产品介绍
Lite Cluster资源配置流程 - AI开发平台ModelArts

a/cn-news-128-1f-mind/ 图14 训练进程查看卡占用情况，如图所示，此时0号卡被占用，说明进程正常启动。 npu-smi info //查看卡信息图15 查看卡信息训练任务大概会运行两小时左右，训练完成后自动停止。如果想停止训练任务，可执行下述命令

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置

总条数： 859

上一页
1
...
4
5
6
...
43
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ECS获取和上传基础镜像 - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

Standard资源池功能介绍 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线