搜索_华为云

Llama 3.2-Vision基于Lite Server适配Pytorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

loss结果 sft全参微调NPU训练结果loss收敛且趋势与GPU训练loss一致图3 sft全参微调单机loss曲线对比结果图4 sft全参微调双机loss曲线对比结果 lora微调NPU训练结果loss收敛且趋势与GPU训练loss一致图5 lora微调双机loss曲线对比结果

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
MiniCPM-V2.0推理及LoRA微调基于Lite Server适配PyTorch NPU指导（6.3.910） - AI开发平台ModelArts

Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
推理场景介绍 - AI开发平台ModelArts

DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

该指标用于统计测量对象已使用的显存。兆字节（Megabytes） ≥0 NA NA NA 共享GPU任务运行数据 node_gpu_share_job_count 针对一个GPU卡，当前运行的共享资源使用的任务数量。个 ≥0 NA NA NA GPU温度 DCGM_FI_DEV_GPU_TEMP

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

└── videos ├── 1.mp4 ├── 2.mp4 ├── ... 每个 txt 与视频同名，为视频的标签。视频与标签应该一一对应。通常情况下，不使用一个视频对应多个标签。如果为风格微调，请准备至少50条风格相似的视频和标签，以利于拟合。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
执行训练任务【新】 - AI开发平台ModelArts

tensor-model-parallel-size 8 表示张量并行。 pipeline-model-parallel-size 4 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 context-parallel-size 1 表示context并行，默认为1。应用于训练长序列文本的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
创建训练作业 - AI开发平台ModelArts

参数类型描述 pfs 是 PFSSummary object obs并行文件系统输出。表17 PFSSummary 参数是否必选参数类型描述 pfs_path 是 String obs并行文件系统路径url。表18 DataSource 参数是否必选参数类型描述

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
分离部署推理服务 - AI开发平台ModelArts

json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入口实例生效，用于与全量推理实例、增量推理实例的信息交互。该参数入参为形如{port1},{port2},{portn}的字符串，与全量或增量推理实例启动的--port参数相关。--port表示服务部署的端口。每个全

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入口实例生效，用于与全量推理实例、增量推理实例的信息交互。该参数入参为形如{port1},{port2},{portn}的字符串，与全量或增量推理实例启动的--port参数相关。--port表示服务部署的端口。每个全

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
查询训练作业详情 - AI开发平台ModelArts

LogDir 参数参数类型描述 pfs PFSSummary object obs并行文件系统输出。表26 PFSSummary 参数参数类型描述 pfs_path String obs并行文件系统路径url。表27 DataSource 参数参数类型描述 job JobSummary

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
分离部署推理服务 - AI开发平台ModelArts

json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入口实例生效，用于与全量推理实例、增量推理实例的信息交互。该参数入参为形如{port1},{port2},{portn}的字符串，与全量或增量推理实例启动的--port参数相关。--port表示服务部署的端口。每个全

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
终止训练作业 - AI开发平台ModelArts

LogDir 参数参数类型描述 pfs PFSSummary object obs并行文件系统输出。表27 PFSSummary 参数参数类型描述 pfs_path String obs并行文件系统路径url。表28 DataSource 参数参数类型描述 job JobSummary

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询训练作业列表 - AI开发平台ModelArts

LogDir 参数参数类型描述 pfs PFSSummary object obs并行文件系统输出。表29 PFSSummary 参数参数类型描述 pfs_path String obs并行文件系统路径url。表30 DataSource 参数参数类型描述 job JobSummary

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
分离部署推理服务 - AI开发平台ModelArts

json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入口实例生效，用于与全量推理实例、增量推理实例的信息交互。该参数入参为形如{port1},{port2},{portn}的字符串，与全量或增量推理实例启动的--port参数相关。--port表示服务部署的端口。每个全

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

该指标用于统计测量空闲的显存。兆字节（Megabytes） >0 NA NA NA 共享GPU任务运行数据 node_gpu_share_job_count 针对一个GPU卡，当前运行的共享资源使用的任务数量。个 ≥0 NA NA NA GPU温度 DCGM_FI_DEV_GPU_TEMP

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
部署推理服务 - AI开发平台ModelArts

DETAIL_TIME_LOG #关闭打印详细日志配置后重启服务生效。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
部署推理服务 - AI开发平台ModelArts

如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化或使用SmoothQuant量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
部署推理服务 - AI开发平台ModelArts

如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化或使用SmoothQuant量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
非分离部署推理服务 - AI开发平台ModelArts

WQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

请删除.torchair_cache文件夹，避免由于缓存文件与实际推理不匹配而报错。若要使用eagle投机，配置环境变量，使eagle投机对齐实验室版本实现。目前默认开启此模式，若不开启，目前vllm0.6.0版本与实验室版本权重无法对齐，会导致小模型精度问题。 export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务

总条数： 282

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Llama 3.2-Vision基于Lite Server适配Pytorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

MiniCPM-V2.0推理及LoRA微调基于Lite Server适配PyTorch NPU指导（6.3.910） - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

执行训练任务【新】 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线