搜索_华为云

使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

载异常重启，模型需要重新加载，服务恢复时间长的问题亟待解决。为了应对如上诉求，ModelArts推理平台针对性给出解决方案，用于支持大模型场景下的模型管理和服务部署。约束与限制需要申请单个模型大小配额和添加使用节点本地存储缓存的白名单。需要使用自定义引擎Custom，配置动态加载。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
部署推理服务 - AI开发平台ModelArts

{pod_name}为yourapp-87d9b5b46-c46bk。使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。方式一：通过OpenAI服务API接口启动服务使用以下推理测试命令。${model_path}请替换为实际使用的模型名称。 curl -X

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

Standard推理服务访问公网方案本章节提供了推理服务访问公网的方法。应用场景推理服务访问公网地址的场景，如：输入图片，先进行公网OCR服务调用，然后进行NLP处理；进行公网文件下载，然后进行分析；分析结果回调给公网服务终端。方案设计从推理服务的算法实例内部，访问公网服务地址的方案。如下图所示：

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
服务韧性 - AI开发平台ModelArts
服务韧性 - AI开发平台ModelArts

数据库安全服务。云服务防抖动和遭受攻击后的应急响应/恢复策略 ModelArts服务具备租户资源隔离能力，避免单租户资源被攻击导致爆炸半径大，影响其他租户。 ModelArts服务具备资源池和隔离能力，避免单租户资源被攻击导致爆炸半径过大风险。 ModelArts服务定义并维护

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
分离部署推理服务 - AI开发平台ModelArts

USE_OPENAI：仅在服务入口实例生效，用于配置api-server服务是否使用openai服务，默认为1。当配置为1时，启动服务为openai服务；当配置为0时，启动服务为vllm服务。其中常见的参数如下： --host：服务部署的IP --port：服务部署的端口，注意如果不

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

小模型权重文件名如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
认证证书 - AI开发平台ModelArts
认证证书 - AI开发平台ModelArts

认证证书合规证书华为云服务及平台通过了多项国内外权威机构（ISO/SOC/PCI等）的安全合规认证，用户可自行申请下载合规资质证书。图1 合规证书下载资源中心华为云还提供以下资源来帮助用户满足合规性要求，具体请查看资源中心。图2 资源中心销售许可证&软件著作权证书另

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
查询推理服务标签 - AI开发平台ModelArts

路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数表2 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
创建在线服务包 - AI开发平台ModelArts

ges 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。请求参数表2 请求Body参数参数是否必选参数类型描述 status

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
使用MaaS部署模型服务 - AI开发平台ModelArts

在“模型部署”页面，单击“我的服务”页签，在目标服务右侧，单击操作列的“停止”。在“停止服务”对话框，单击“确定”。启动部署服务在“模型部署”页面，单击“我的服务”页签，在目标服务右侧，单击操作列的“启动”。在“启动服务”对话框，仔细阅读提示信息，单击“确定”。服务状态为运行中时会产生费用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
分离部署推理服务 - AI开发平台ModelArts

USE_OPENAI：仅在服务入口实例生效，用于配置api-server服务是否使用openai服务，默认为1。当配置为1时，启动服务为openai服务；当配置为0时，启动服务为vllm服务。其中常见的参数如下： --host：服务部署的IP --port：服务部署的端口，注意如果不

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

式。如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

格式如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
查询服务监控信息 - AI开发平台ModelArts

nt Integer 服务实例数量。 req_count_per_min Long 服务分钟调用量，这里指当前时间上一分钟的服务调用总量。表5 Monitor 参数参数类型描述 failed_times Integer 模型实例调用失败次数，在线服务字段。 model_version

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
在线服务鉴权 - AI开发平台ModelArts

表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数表2 请求Body参数参数是否必选参数类型描述 main_service_id 否 String 在线服务ID。 content_id

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
非分离部署推理服务 - AI开发平台ModelArts

化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart.html。以下服务启动介绍的是在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
部署预测分析服务 - AI开发平台ModelArts

的整数。是否自动停止：启用该参数并设置时间后，服务将在指定时间后自动停止。如果不启用此参数，在线服务将一直运行，同时一直收费，自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能，且默认值为“1小时后”。目前支持设置为“1小时后”、“2小时后”、“4小时后”、“6小

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
管理同步在线服务 - AI开发平台ModelArts

管理同步在线服务查看在线服务详情查看在线服务的事件管理在线服务生命周期修改在线服务配置在云监控平台查看在线服务性能指标集成在线服务API至生产环境中应用设置在线服务故障自动重启父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
分离部署推理服务 - AI开发平台ModelArts

USE_OPENAI：仅在服务入口实例生效，用于配置api-server服务是否使用openai服务，默认为1。当配置为1时，启动服务为openai服务；当配置为0时，启动服务为vllm服务。其中常见的参数如下： --host：服务部署的IP --port：服务部署的端口，注意如果不

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

USE_OPENAI：仅在服务入口实例生效，用于配置api-server服务是否使用openai服务，默认为1。当配置为1时，启动服务为openai服务；当配置为0时，启动服务为vllm服务。其中常见的参数如下： --host：服务部署的IP --port：服务部署的端口，注意如果不

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务

总条数： 1406

上一页
1
2
3
4
5
...
71
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

服务韧性 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

认证证书 - AI开发平台ModelArts

查询推理服务标签 - AI开发平台ModelArts

创建在线服务包 - AI开发平台ModelArts

使用MaaS部署模型服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

在线服务鉴权 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

部署预测分析服务 - AI开发平台ModelArts

管理同步在线服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线