检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
--distributed-executor-backend:多卡推理启动后端,可选值为"ray"或者"mp",其中"ray"表示使用ray进行启动多卡推理,"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。
服务管理 服务管理概述 在开发环境中部署本地服务进行调试 部署在线服务 查询服务详情 推理服务测试 查询服务列表 查询服务对象列表 更新服务配置 查询服务监控信息 查询服务日志 删除服务
删除服务 删除服务存在如下两种删除方式。 根据部署在线服务生成的服务对象删除服务。 根据查询服务对象列表返回的服务对象删除服务。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1
删除服务 功能介绍 删除模型服务,仅可删除本人名下的服务。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v1/{project_id}/services
--distributed-executor-backend:多卡推理启动后端,可选值为"ray"或者"mp",其中"ray"表示使用ray进行启动多卡推理,"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。
--distributed-executor-backend:多卡推理启动后端,可选值为"ray"或者"mp",其中"ray"表示使用ray进行启动多卡推理,"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。
--distributed-executor-backend:多卡推理启动后端,可选值为"ray"或者"mp",其中"ray"表示使用ray进行启动多卡推理,"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。
服务韧性 韧性特指安全韧性,即云服务受攻击后的韧性,不含可靠性、可用性。本章主要阐述ModelArts服务受入侵的检测响应能力、防抖动的能力、域名合理使用、内容安全检测等能力。 安全防护套件覆盖和使用堡垒机,增强入侵检测和防御能力 ModelArts服务部署主机层、应用层、网络层和数据层的安全防护套件
服务预测 服务预测失败 服务预测失败,报错APIG.XXXX 在线服务预测报错ModelArts.4206 在线服务预测报错ModelArts.4302 在线服务预测报错ModelArts.4503 在线服务预测报错MR.0105 Method Not Allowed 请求超时返回
服务管理 通过patch操作对服务进行更新 查询服务监控信息 查询服务列表 部署服务 查询支持的服务部署规格 查询服务详情 更新服务配置 删除服务 更新模型服务的单个属性 查询专属资源池列表 查询服务事件日志 启动停止边缘节点服务实例 查询服务更新日志 添加资源标签 删除资源标签
--distributed-executor-backend:多卡推理启动后端,可选值为"ray"或者"mp",其中"ray"表示使用ray进行启动多卡推理,"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。
--distributed-executor-backend:多卡推理启动后端,可选值为"ray"或者"mp",其中"ray"表示使用ray进行启动多卡推理,"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。
Standard推理部署 ModelArts Standard推理服务访问公网方案 端到端运维ModelArts Standard推理服务方案 使用自定义引擎在ModelArts Standard创建模型 使用大模型在ModelArts Standard创建模型部署在线服务 第三方推理框架迁移到
AI推理应用运行在昇腾设备上一般有两种方式: 方式1:通过Ascend PyTorch,后端执行推理,又称在线推理。 方式2:通过模型静态转换后,执行推理,又称离线推理。 通常为了获取更好的推理性能,推荐使用方式2的离线推理。
--distributed-executor-backend:多卡推理启动后端,可选值为"ray"或者"mp",其中"ray"表示使用ray进行启动多卡推理,"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。
--distributed-executor-backend:多卡推理启动后端,可选值为"ray"或者"mp",其中"ray"表示使用ray进行启动多卡推理,"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。
查询服务详情 查询当前服务对象的详细信息。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据部署在线服务生成的服务对象进行服务详情查询 1 2 3 4 5 6 7 from
部署在线服务 部署在线服务包括: 已部署为在线服务的初始化。 部署在线服务predictor。 部署批量服务transformer。 部署服务返回服务对象Predictor,其属性包括服务管理章节下的所有功能。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数
部署推理服务 非分离部署推理服务 分离部署推理服务 父主题: 主流开源大模型基于Lite Server适配PyTorch NPU推理指导(6.3.909)
查询服务日志 查询当前服务对象的日志信息。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据部署在线服务生成的服务对象进行查询服务日志 1 2 3 4 5 6 7 from