搜索_华为云

部署模型为在线服务 - AI开发平台ModelArts

00%。 “实例规格” 请根据界面显示的列表，选择可用的规格，置灰的规格表示当前环境无法使用。如果公共资源池下规格为空数据，表示当前环境无公共资源。建议使用专属资源池。说明：使用所选规格部署服务时，会产生必要的系统消耗，因此服务实际占用的资源会略大于该规格。 “实例数” 设

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
准备Notebook（可选） - AI开发平台ModelArts

镜像选择已注册的自定义镜像，资源类型选择创建好的专属资源池，规格推荐选择“Ascend: 8*ascend-snt9b”。图1 Notebook中选择自定义镜像与规格云硬盘EVS是Notebook开发环境内存的存储硬盘，作为持久化存储挂载在/home/ma-user/wo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
推理专属预置镜像列表 - AI开发平台ModelArts

libgoogle-glog-dev liblmdb-dev libatlas-base-dev librdmacm1 libcap2-bin libpq-dev mysql-common net-tools nginx openslide-tools openssh-client openssh-server

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
查询服务监控信息 - AI开发平台ModelArts

模型实例调用失败次数，在线服务字段。 model_version String 模型版本，在线服务字段。 cpu_memory_total Integer 总内存，单位MB。 gpu_usage Float 已使用GPU个数。 node_name String 节点名称，边缘服务字段。 gpu_total

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表2。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。 Ascend: 8*ascend-snt9b表示昇腾8卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
更新管理 - AI开发平台ModelArts
更新管理 - AI开发平台ModelArts

本号，实现服务升级。推理服务有三种升级模式：全量升级、滚动升级（扩实例）和滚动升级（缩实例）。了解三种升级模式的流程，请参见图1。全量升级需要额外的双倍的资源，先全量创建新版本实例，然后再下线旧版本实例。滚动升级（扩实例）需额外消耗部分实例资源用于滚动升级，扩实例越大，升级速度越快。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
查询专属资源池列表 - AI开发平台ModelArts

Integer 节点数。 specification String 节点规格。请求示例 GET https://{endpoint}/v1/{project_id}/clusters 响应示例状态码：200 服务部署规格列表。 { "total_count" : 1, "count"

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
Yaml配置文件参数配置说明 - AI开发平台ModelArts

理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改，指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可参考表1 output_dir

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901） > 训练脚本说明
准备Notebook（可选） - AI开发平台ModelArts

镜像选择已注册的自定义镜像，资源类型选择创建好的专属资源池，规格推荐选择“Ascend: 8*ascend-snt9b”。图1 Notebook中选择自定义镜像与规格云硬盘EVS是Notebook开发环境内存的存储硬盘，作为持久化存储挂载在/home/ma-user/wo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备Notebook（可选） - AI开发平台ModelArts

镜像选择已注册的自定义镜像，资源类型选择创建好的专属资源池，规格推荐选择“Ascend: 8*ascend-snt9b”。图1 Notebook中选择自定义镜像与规格云硬盘EVS是Notebook开发环境内存的存储硬盘，作为持久化存储挂载在/home/ma-user/wo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.5.901） > 准备工作
Yaml配置文件参数配置说明 - AI开发平台ModelArts

理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改，指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可参考表1 output_dir

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
Yaml配置文件参数配置说明 - AI开发平台ModelArts

理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改，指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可参考表1 output_dir

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

本文档中的模型运行环境是ModelArts Lite的Cluster。请参考本文档要求准备资源环境。资源规格要求计算规格：不同模型训练推荐的NPU卡数请参见表2。硬盘空间：至少200GB。 Ascend资源规格： Ascend: 1*ascend-snt9b表示Ascend单卡。 Ascend:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

ot后就会生效。此时如果重启那么内核版本就被升级了。处理方法下文中假设当前服务器的内核版本是为4.18.0-147.5.1.6.h934.eulerosv2r9.x86_64，介绍如何避免操作系统内核自动升级。操作系统内核升级生效，必然需要服务器重启，因此重启reboot前需要查看当前默认选择的内核版本：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查看Standard专属资源池详情 - AI开发平台ModelArts

单位取值范围 CPU使用率该指标用于统计测量对象的CPU使用率。百分比（Percent） 0～100% 内存利用率该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。百分比（Percent） 0～100% GPU显卡使用率该指标用于统计测量对象已使用的显卡占显卡容量的百分比。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
Yaml配置文件参数配置说明 - AI开发平台ModelArts

理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改，指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可参考表1 output_dir

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
不同机型的对应的软件配套版本 - AI开发平台ModelArts

Memory Access（RDMA）是一种直接内存访问技术，将数据直接从一台计算机的内存传输到另一台计算机。 RoCE：RDMA over Converged Ethernet（RoCE）是一种网络协议，允许应用通过以太网实现远程内存访问。 IB：InfiniBand (IB)

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

available for the selected specification.）图1 资源不足，服务调度失败原因分析实例配置的规格过大，CPU或者内存剩余资源不足；（"insufficient CPU" / "insufficient memory"）模型需要的磁盘空间大，磁盘空间不足；（"x

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

DeepSpeed的核心思想是在单个GPU上实现大规模模型并行训练，从而提高训练速度。DeepSpeed提供了一系列的优化技术，如ZeRO内存优化、分布式训练等，可以帮助用户更好地利用多个GPU进行训练 Accelerate是一种深度学习加速框架，主要针对分布式训练场景。Acce

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

原因分析用户选择的训练规格资源和算法不匹配。例如：算法支持的是GPU规格，创建训练作业时选择了ASCEND规格的资源类型。处理方法查看算法代码中设置的训练资源规格。检查创建训练作业时所选的资源规格是否正确，重新创建训练作业选择正确的资源规格。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障

总条数： 818

上一页
1
...
6
7
8
...
41
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

部署模型为在线服务 - AI开发平台ModelArts

准备Notebook（可选） - AI开发平台ModelArts

推理专属预置镜像列表 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

更新管理 - AI开发平台ModelArts

查询专属资源池列表 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

准备Notebook（可选） - AI开发平台ModelArts

准备Notebook（可选） - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线