搜索_华为云

创建DevServer - AI开发平台ModelArts

HPS：超节点服务 userdata 否 String 创建服务器时，用户自己定义数据。 hps_cluster_id 否 String 超节点集群网络信息，仅创建超节点需要该参数。表3 ChargingInfo 参数是否必选参数类型描述 charging_mode 是 String

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──llm_inference # 推理代码包 |──llm_tools # 推理工具工作目录介绍详细的工作目录参考如下，建议参考以下要求设置工作目录。训练脚本以分类的方式集中在 scripts 文件夹中。 ${work

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 准备工作
错误码 - AI开发平台ModelArts
错误码 - AI开发平台ModelArts

检查证书或私钥是否设置正确。 400 ModelArts.3547 Cluster {id} does not exist. 集群{ID}不存在。检查集群ID是否设置正确。 400 ModelArts.3548 Path {path} is not a valid regex. 路径{路径}不是有效的正则表达式。

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
推理性能测试 - AI开发平台ModelArts

评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态，动态性能评测脚本、 ├── requirements.txt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
推理性能测试 - AI开发平台ModelArts

评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态、动态性能评测脚本 ├── requirements.txt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

# 推理代码包 |──llm_tools # 推理工具工作目录介绍详细的工作目录参考如下，建议参考以下要求设置工作目录。训练脚本以分类的方式集中在scripts文件夹中。 ${workdi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
查询资源池列表，可通过标签、资源池状态筛选查询资源池列表 - AI开发平台ModelArts

idle：安全升级，待节点上没有作业运行时进行驱动升级表13 PoolStatus 参数参数类型描述 phase String 资源池集群状态。可选值如下： Creating：创建中 Running：运行中 Abnormal：资源池不正常 Deleting：删除中 Error：资源池错误

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
部署模型为在线服务 - AI开发平台ModelArts

默认关闭。如需开启此功能，请参见通过APP认证的方式访问在线服务了解详情并根据实际情况进行设置。 “订阅消息” - 订阅消息使用消息通知服务，在事件列表中选择需要监控的服务状态，在事件发生时发送消息通知。可选：配置高级选项。表3 高级选项参数说明参数名称说明故障自动重启开启该功能后，系统检测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
推理场景介绍 - AI开发平台ModelArts

关系使用本文档。资源规格推荐使用“西南-贵阳一”Region上的Lite k8s Cluster和昇腾Snt9B资源。本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
SDXL&SD1.5 WebUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

WebUI套件用于推理的详细过程。完成本方案的部署，需要先联系您所在企业的华为方技术支持购买Cluster资源。本方案目前仅适用于企业客户，并且需要用户具备k8s集群相关技能。资源规格要求推理部署推荐使用“西南-贵阳一”Region上的Cluster资源。获取软件获取插件代码包AscendCloud-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
推理性能测试 - AI开发平台ModelArts

评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态、动态性能评测脚本 ├── requirements.txt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
推理场景介绍 - AI开发平台ModelArts

关系使用本文档。资源规格推荐使用“西南-贵阳一”Region上的Lite k8s Cluster和昇腾Snt9B资源。本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。推理部署使用的服务框架是vLLM。vLLM支持v0.6.3版本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
费用账单 - AI开发平台ModelArts
费用账单 - AI开发平台ModelArts

置其他统计维度和周期，详细介绍请参见流水与明细账单。查看专属资源池的账单登录ModelArts管理控制台，在“AI专属资源池 > 弹性集群Cluster”页面，进入“Standard资源池”页签中，单击资源名称进入资源详情。在资源详情页，切换到“规格”页签，在规格列表中复制“计量ID”。

帮助中心 > AI开发平台ModelArts > 计费说明
数据管理权限 - AI开发平台ModelArts

{dataset_id}/data-annotations/stats modelarts:dataset:get - √ √ 查询数据集监控数据 GET /v2/{project_id}/datasets/{dataset_id}/metrics modelarts:dataset:get

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
推理性能测试 - AI开发平台ModelArts

评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态，动态性能评测脚本执行性能测试脚本前，需先安装相关依赖。 pip install

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
更新资源池 - AI开发平台ModelArts

idle：安全升级，待节点上没有作业运行时进行驱动升级表19 PoolStatus 参数参数类型描述 phase String 资源池集群状态。可选值如下： Creating：创建中 Running：运行中 Abnormal：资源池不正常 Deleting：删除中 Error：资源池错误

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
推理性能测试 - AI开发平台ModelArts

评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态，动态性能评测脚本执行性能测试脚本前，需先安装相关依赖。 pip install

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
非分离部署推理服务 - AI开发平台ModelArts

--trust-remote-code 方式三：多机部署vLLM服务API接口启动服务（可选）当单机显存无法放下模型权重时，可选用该种方式部署；该种部署方式，需要机器在同一个集群，NPU卡之间IP能够ping通方可，具体步骤如下：查看卡IP。 for i in $(seq 0 7);do hccn_tool -i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
LLaVA模型基于DevServer适配PyTorch NPU预训练指导（6.3.906） - AI开发平台ModelArts

训练过程中，训练日志会在最后的Rank节点打印。日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。可以使用可视化工具TrainingLogParser查看loss收敛情况。 FAQ 如果clip-vit-large-patch14-336模型不能自动下载。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
SD1.5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

正常运行完成训练，会显示如下内容。图7 训练完成精度一般问题不大，step_loss都是一个较小值。训练过程中，训练日志会在最后的Rank节点打印。可以使用可视化工具TrainingLogParser查看loss收敛情况。其它注意事项默认500step保存一个checkpoint，可以通过在启动脚本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理

总条数： 596

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建DevServer - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

错误码 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

查询资源池列表，可通过标签、资源池状态筛选查询资源池列表 - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

SDXL&SD1.5 WebUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

费用账单 - AI开发平台ModelArts

数据管理权限 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

更新资源池 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

LLaVA模型基于DevServer适配PyTorch NPU预训练指导（6.3.906） - AI开发平台ModelArts

SD1.5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线