搜索_华为云

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

分析错误时：训练镜像先看日志，推理镜像先看API的返回。可以通过命令查看容器输出到stdout的所有日志： docker logs -f 39c9ceedb1f6 一般在做推理镜像时，部分日志是直接存储在容器内部的，所以需要进入容器看日志。注意：重点对应日志中是否有ERROR（包括，容器启动时、API执行时）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
使用AWQ量化 - AI开发平台ModelArts

l，W8A16 per-channel Step1 环境准备在节点自定义目录${node_path}下创建config.yaml文件 apiVersion: apps/v1 kind: Deployment metadata: name: yourapp labels:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
ModelArts权限管理基本概念 - AI开发平台ModelArts

lArts创建训练作业，则该用户必须拥有 "modelarts:trainJob:create" 的权限才可以完成操作（无论界面操作还是API调用）。关于如何给一个用户赋权（准确讲是需要先将用户加入用户组，再面向用户组赋权），可以参考IAM的文档《权限管理》。而ModelArt

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
使用AWQ量化 - AI开发平台ModelArts

l，W8A16 per-channel Step1 环境准备在节点自定义目录${node_path}下创建config.yaml文件 apiVersion: apps/v1 kind: Deployment metadata: name: yourapp labels:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

l，W8A16 per-channel Step1 环境准备在节点自定义目录${node_path}下创建config.yaml文件 apiVersion: apps/v1 kind: Deployment metadata: name: yourapp labels:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

信息和镜像解耦，可以在服务部署时配置，不能直接硬编码在Dockerfile中。定期针对镜像进行安全扫描，及时安装补丁修复漏洞。增加健康检查接口，确保健康检查可以正常返回业务状态，便于告警和故障恢复。容器应该采用https的安全传输通道，并使用业界推荐的加密套件保证业务数据的安全性。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
推理场景介绍 - AI开发平台ModelArts

├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字相关文档

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
执行训练任务（推荐） - AI开发平台ModelArts

<exp_name> --master_addr <master_addr> --num_nodes <nodes> --rank <rank> apiVersion: batch.volcano.sh/v1alpha1 kind: Job ... spec: ... tasks:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练任务
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

lArts创建训练作业，则该用户必须拥有 "modelarts:trainJob:create" 的权限才可以完成操作（无论界面操作还是API调用）。关于如何给一个用户赋权（准确讲是需要先将用户加入用户组，再面向用户组赋权），可以参考IAM的文档《权限管理》。而ModelArt

帮助中心 > AI开发平台ModelArts > 产品介绍
执行训练任务（推荐） - AI开发平台ModelArts

<exp_name> --master_addr <master_addr> --num_nodes <nodes> --rank <rank> apiVersion: batch.volcano.sh/v1alpha1 kind: Job ... spec: ... tasks:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练任务
依赖和委托 - AI开发平台ModelArts

dli:table:describeTable 在数据集中管理DLI数据管理表格数据集 DWS dws:openAPICluster:list dws:openAPICluster:getDetail dws:cluster:list 在数据集中管理DWS数据管理表格数据集 MRS

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

异常中文描述检测方法处理建议 NT_NPU_DEVICE NPU 其他 npu dcmi device异常。 NPU设备异常，昇腾dcmi接口中返回设备存在重要或紧急告警。可能是亚健康，建议先重启节点，如果重启节点后未恢复，发起维修流程。 NT_NPU_NET NPU 链路 npu

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
各模型支持的最小卡数和最大序列 - AI开发平台ModelArts

el-len。 e5-mistral-7B和gte-Qwen2-7B-instruct模型，使用openai启动服务，发送推理请求使用的是接口curl -X POST http://localhost:port/v1/embedding。表1 基于vLLM不同模型推理支持最小卡数和最大序列说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 附录
使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

元模型来源：选择“从对象存储服务（OBS）中选择”。选择元模型：从OBS中选择一个模型包。 AI引擎：选择“Custom”。引擎包：从容器镜像中选择一个镜像。容器调用接口：端口和协议可根据镜像实际使用情况自行填写。其他参数保持默认值。单击“立即创建”，跳转到模型列表页，查看模型状态，当状态变为“正常”，模型创建成功。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

“策略内容”请参见ModelArts开发环境使用权限的自定义策略样例，ModelArts自定义策略中可以添加的授权项（Action）请参见《ModelArts API参考》>权限策略和授权项。如果您需要对除ModelArts和OBS之外的其它服务授权，IAM支持服务的所有策略请参见权限策略。在IAM控制台创建用户组并授权。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > FAQ
使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

“策略内容”请参见ModelArts开发环境使用权限的自定义策略样例，ModelArts自定义策略中可以添加的授权项（Action）请参见《ModelArts API参考》>权限策略和授权项。如果您需要对除ModelArts和OBS之外的其它服务授权，IAM支持服务的所有策略请参见权限策略。在IAM控制台创建用户组并授权。

帮助中心 > AI开发平台ModelArts > 常见问题 > 权限相关
推理场景介绍 - AI开发平台ModelArts

├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字相关文档

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
创建团队标注任务 - AI开发平台ModelArts

“选择标注团队”：任务类型设置为“指定标注团队”，需在此参数中指定一个团队，同时勾选此团队中某几个成员负责标注。下拉框中将罗列当前账号下创建的标注团队及其成员。 “选择标注接口人”：任务类型设置为“指定标注管理员”，需在所有团队的“Team Manager”中选择一人作为管理员。 “自动将新增图片同步给标注团队”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过团队标注方式标注数据
各模型支持的最小卡数和最大序列 - AI开发平台ModelArts

instruct/bge-large-en-v1.5/bge-base-en-v1.5模型，使用openai启动服务，发送推理请求使用的是接口curl -X POST http://localhost:port/v1/embedding。表1 基于vLLM不同模型推理支持最小卡数和最大序列说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 附录
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

通过配置模型路径、模型端口、模型名称等参数，原生TFServing镜像可以快速启动提供服务，并支持gRPC和HTTP Restful API的访问方式。 Triton是一个高性能推理服务框架，提供HTTP/gRPC等多种服务协议，支持TensorFlow、TensorRT、Py

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署

总条数： 1189

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

ModelArts权限管理基本概念 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

安全边界 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

依赖和委托 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

各模型支持的最小卡数和最大序列 - AI开发平台ModelArts

使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

创建团队标注任务 - AI开发平台ModelArts

各模型支持的最小卡数和最大序列 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线