搜索_华为云

非分离部署推理服务 - AI开发平台ModelArts

如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

式如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
与其他云服务的关系 - AI开发平台ModelArts

与其他云服务的关系图1 ModelArts与其他服务的关系示意图与统一身份认证服务的关系 ModelArts使用统一身份认证服务（Identity and Access Management，简称IAM）实现认证功能。IAM的更多信息请参见《统一身份认证服务产品文档》。与对象存储服务的关系

 帮助中心 > AI开发平台ModelArts > 产品介绍
查询资源规格列表 - AI开发平台ModelArts

资源规格类型。可选值如下： Dedicate：物理资源 cpuArch String 计算机架构。可选值如下： x86：x86架构 arm64：ARM架构 cpu String CPU核心数量。 memory String 内存大小，单位为Gi。 gpu gpu object GPU信息。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found 问题现象部署在线服务出现报错No CUDA runtime is found，using CUDA_HOME='/usr/local/cuda'。原因分析从日志报错信息No CUDA runtime is

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
查看在线服务的事件 - AI开发平台ModelArts

查看在线服务的事件服务的（从用户可看见部署服务任务开始）整个生命周期中，每一个关键事件点在系统后台均有记录，用户可随时在对应服务的详情页面进行查看。方便用户更清楚的了解服务部署和运行过程，遇到任务异常时，更加准确的排查定位问题。可查看的事件点包括：表1 事件事件类型事件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
使用CTS审计ModelArts服务 - AI开发平台ModelArts

使用CTS审计ModelArts服务 ModelArts支持云审计的关键操作查看ModelArts相关审计日志

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
在MaaS体验模型服务 - AI开发平台ModelArts

在MaaS体验模型服务在ModelArts Studio大模型即服务平台，运行中的模型服务可以在“模型体验”页面在线体验模型服务的推理效果。前提条件在“模型部署”的服务列表存在“运行中”的模型服务。操作步骤登录ModelArts管理控制台，在左侧导航栏中，选择“ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
免费体验MaaS预置服务 - AI开发平台ModelArts

Studio大模型即服务平台。在ModelArts Studio左侧导航栏中，选择“模型部署”。在“模型部署”页面的“预置服务”页签，，选择所需的服务，单击操作列的“领取”，领取免费调用额度。当“领取”置灰时，表示该服务的免费额度已领取。在“模型部署”页面的“预置服务”页签，任选以下方式免费体验预置服务。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
权限配置 - AI开发平台ModelArts
权限配置 - AI开发平台ModelArts

CommonOperations权限只能二选一，不能同时选。 SFS弹性文件服务弹性文件服务SFS Turbo的所有权限。使用SFS服务时需要配置。 ECS弹性云服务器弹性云服务器所有权限。使用ECS服务时需要配置。 SWR容器镜像仓库容器镜像仓库所有权限。使用SWR服务时需要配置。同时，还需开通SWR组织权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
管理在线服务生命周期 - AI开发平台ModelArts

菜单栏中选择“模型部署>在线服务”，进入在线服务管理页面。单击在线服务列表“操作”列的“更多>删除”删除服务。勾选在线服务列表中的服务，然后单击列表左上角“删除”按钮，批量删除服务。单击目标服务名称，进入服务详情页面，单击右上角“删除”删除服务。删除操作无法恢复，请谨慎操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
Standard推理部署 - AI开发平台ModelArts

ModelArts Standard推理服务访问公网方案端到端运维ModelArts Standard推理服务方案使用自定义引擎在ModelArts Standard创建模型使用大模型在ModelArts Standard创建模型部署在线服务第三方推理框架迁移到ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践
管理ModelArts服务的委托授权 - AI开发平台ModelArts

管理ModelArts服务的委托授权本节通过调用一系列API，以管理ModelArts服务的委托授权为例介绍ModelArts API的使用流程。概述管理ModelArts服务的委托授权流程如下：调用认证鉴权接口获取用户Token，在后续的请求中需要将Token放到请求消息头中作为认证。

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
昇腾云服务6.3.904版本说明 - AI开发平台ModelArts

昇腾云服务6.3.904版本说明昇腾云服务6.3.904版本发布支持的软件包和能力说明如下，软件包获取路径：Support-E网站。发布包软件包特性说明配套说明备注昇腾云模型代码三方大模型，包名：AscendCloud-3rdLLM PyTorch框架下支持如下模型训练：

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
昇腾云服务6.3.911版本说明 - AI开发平台ModelArts

昇腾云服务6.3.911版本说明本文档主要介绍昇腾云服务6.3.911版本配套的镜像地址、软件包获取方式和支持的特性能力。当前版本仅适用于华为公有云。配套的基础镜像芯片镜像地址获取方式镜像软件说明 Snt9B PyTorch2.1.0： swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
查看批量服务详情 - AI开发平台ModelArts

表1 批量服务参数参数说明名称批量服务名称。服务ID 批量服务的ID。状态批量服务当前状态。任务ID 批量服务的任务ID。实例规格批量服务的节点规格。实例数批量服务的节点个数。任务开始时间本次批量服务的任务开始时间。环境变量批量服务创建时填写的环境变量。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
修改批量服务配置 - AI开发平台ModelArts

修改批量服务配置对于已部署的服务，您可以修改服务的基本信息以匹配业务变化，更换模型的版本号，实现服务升级。您可以通过如下两种方式修改服务的基本信息：方式一：通过服务管理页面修改服务信息方式二：通过服务详情页面修改服务信息前提条件服务已部署成功，“部署中”的服务不支持修改服务信息进行升级。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
推理服务性能评测 - AI开发平台ModelArts

推理服务性能评测语言模型推理性能测试多模态模型推理性能测试父主题：主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）

总条数： 1637

上一页
1
...
11
12
13
...
82
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

与其他云服务的关系 - AI开发平台ModelArts

查询资源规格列表 - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

查看在线服务的事件 - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

使用CTS审计ModelArts服务 - AI开发平台ModelArts

在MaaS体验模型服务 - AI开发平台ModelArts

免费体验MaaS预置服务 - AI开发平台ModelArts

权限配置 - AI开发平台ModelArts

管理在线服务生命周期 - AI开发平台ModelArts

Standard推理部署 - AI开发平台ModelArts

管理ModelArts服务的委托授权 - AI开发平台ModelArts

昇腾云服务6.3.904版本说明 - AI开发平台ModelArts

昇腾云服务6.3.911版本说明 - AI开发平台ModelArts

查看批量服务详情 - AI开发平台ModelArts

修改批量服务配置 - AI开发平台ModelArts

推理服务性能评测 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线