搜索_华为云

查询DevServer实例详情 - AI开发平台ModelArts

arch String 服务器镜像架构类型。 ARM X86 image_id String 服务器镜像ID。 name String 服务器镜像名称。 server_type String 服务器类型。枚举值如下： BMS：裸金属服务器 ECS：弹性云服务器表7 ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
Yaml配置文件参数配置说明 - AI开发平台ModelArts

or false】，默认false do_train true 指示脚本执行训练步骤，用来控制是否进行模型训练的。如果设置为true，则会进行模型训练；如果设置为false，则不会进行模型训练。 cutoff_len 4096 文本处理时的最大长度，此处为4096，用户可根据自己要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

SFS类型和容量选择创建ECS服务器弹性云服务器（Elastic Cloud Server，ECS）是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后，单击“远程登录”，可直接访问ECS服务器。注意

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作
启动DevServer实例 - AI开发平台ModelArts

arch String 服务器镜像架构类型。 ARM X86 image_id String 服务器镜像ID。 name String 服务器镜像名称。 server_type String 服务器类型。枚举值如下： BMS：裸金属服务器 ECS：弹性云服务器表8 ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
计费概述 - AI开发平台ModelArts
计费概述 - AI开发平台ModelArts

在线/批量/边缘服务 ModelArts Lite Cluster资源池 ModelArts弹性集群Server ModelArts Studio（MAAS）对象存储（系统盘和数据盘）计费因子：存储容量、存储类型和时长收费。按需计费包年/包月创建桶不收取费用，按实际使用的存储容量和时长收费

 帮助中心 > AI开发平台ModelArts > 计费说明
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

Standard上运行GPU多机多卡训练作业操作流程准备工作：购买服务资源（VPC/SFS/OBS/SWR/ECS）配置权限创建专属资源池（打通VPC） ECS服务器挂载SFS Turbo存储在ECS中设置ModelArts用户可读权限安装和配置OBS命令行工具（可选）工作空间配置模型训练：

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
准备镜像环境 - AI开发平台ModelArts

同。 ${pvc_name} 为在CCE集群关联SFS Turbo步骤中创建的PVC名称。在设置容器中需要的CPU与内存大小时，可通过运行以下命令查看申请的节点机器中具体的CPU与内存信息。 kubectl describe node ${requests_cpu} 指在容器中

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备镜像环境 - AI开发平台ModelArts

同。 ${pvc_name} 为在CCE集群关联SFS Turbo步骤中创建的PVC名称。在设置容器中需要的CPU与内存大小时，可通过运行以下命令查看申请的节点机器中具体的CPU与内存信息。 kubectl describe node ${requests_cpu} 指在容器中

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
准备镜像环境 - AI开发平台ModelArts

同。 ${pvc_name} 为在CCE集群关联SFS Turbo步骤中创建的PVC名称。在设置容器中需要的CPU与内存大小时，可通过运行以下命令查看申请的节点机器中具体的CPU与内存信息。 kubectl describe node ${requests_cpu} 指在容器中

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
实时同步用户所有DevServer实例状态 - AI开发平台ModelArts

arch String 服务器镜像架构类型。 ARM X86 image_id String 服务器镜像ID。 name String 服务器镜像名称。 server_type String 服务器类型。枚举值如下： BMS：裸金属服务器 ECS：弹性云服务器表9 ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
查询用户所有DevServer实例列表 - AI开发平台ModelArts

arch String 服务器镜像架构类型。 ARM X86 image_id String 服务器镜像ID。 name String 服务器镜像名称。 server_type String 服务器类型。枚举值如下： BMS：裸金属服务器 ECS：弹性云服务器表9 ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
准备镜像环境 - AI开发平台ModelArts

同。 ${pvc_name} 为在CCE集群关联SFS Turbo步骤中创建的PVC名称。在设置容器中需要的CPU与内存大小时，可通过运行以下命令查看申请的节点机器中具体的CPU与内存信息。 kubectl describe node ${requests_cpu} 指在容器中

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
Lite Cluster资源开通 - AI开发平台ModelArts

在服务配额页面，单击右上角的“申请扩大配额”，填写申请材料后提交工单。申请扩大配额主要是申请弹性云服务器ECS实例数、核心数（CPU核数）、RAM容量（内存大小）和云硬盘EVS磁盘容量这4个资源配额。具体的配额数量请先联系客户经理获取。图7 ECS资源类型图8 云硬盘资源类型配额需大于需要开通的资源，且在

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

看推理效果。支持设置时间区间，查看不同时间下的推理效果。仅当推理服务处于“运行中”，才支持查看监控指标。表2 推理效果的指标介绍指标名称指标说明 CPU使用率在推理服务启动过程中，机器的CPU占用情况。内存使用率在推理服务启动过程中，机器的内存占用情况。显卡使用率

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
查询训练作业列表 - AI开发平台ModelArts

String 内存。表41 npu 参数参数类型描述 unit_num String npu卡数。 product_name String 产品名。 memory String 内存。表42 memory 参数参数类型描述 size Integer 内存大小。 unit

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
监控资源 - AI开发平台ModelArts
监控资源 - AI开发平台ModelArts

参数说明参数说明 cpuUsage cpu使用率。 gpuMemUsage gpu内存使用率。 gpuUtil gpu使用情况。 memUsage 内存使用率。 npuMemUsage npu内存使用率。 npuUtil npu使用情况。父主题：单机单卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

排查是否符合业务资源使用预期，如果业务无问题，无需处理。 GPU内存带宽利用率 ma_container_gpu_mem_copy_util 表示内存带宽利用率。以英伟达GP Vnt1为例，其最大内存带宽为900 GB/sec，如果当前的内存带宽为450 GB/sec，则内存带宽利用率为50%。百分比（Percent）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

排查是否符合业务资源使用预期，如果业务无问题，无需处理。 GPU内存带宽利用率 ma_container_gpu_mem_copy_util 表示内存带宽利用率。以GP Vnt1为例，其最大内存带宽为900 GB/sec，如果当前的内存带宽为450 GB/sec，则内存带宽利用率为50%。百分比（Percent）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

我的镜像”页面，执行刷新操作后可查看到对应的镜像信息。上传数据和算法至SFS ECS服务器已挂载SFS，请参考在ECS服务器挂载SFS Turbo存储。已经在ECS中设置权限，请参考在ECS中设置ModelArts用户可读权限。已经安装和配置obsutil，请参见安装和配置OBS命令行工具。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
执行训练任务【旧】 - AI开发平台ModelArts

0_pl_sft_13b.sh 。修改模型训练脚本中的配置，参数详解可查看训练参数说明，其中【GBS、MBS、TP、PP】参数值可参考模型推荐参数、NPU卡数设置。对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型，还需要手动修改训练参数和tokenizer文件，具体请参见训练tokenizer文件说明。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务

总条数： 1159

上一页
1
...
5
6
7
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查询DevServer实例详情 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

启动DevServer实例 - AI开发平台ModelArts

计费概述 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

实时同步用户所有DevServer实例状态 - AI开发平台ModelArts

查询用户所有DevServer实例列表 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

监控资源 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

执行训练任务【旧】 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线