搜索_华为云

部署推理服务 - AI开发平台ModelArts

Cluster环境，具体参考准备环境。推荐使用“西南-贵阳一”Region上的Cluster和昇腾Snt9b资源。安装过程需要连接互联网git clone，确保集群可以访问公网。 Step1 上传权重文件将权重文件上传到集群节点机器中。权重文件的格式要求为Huggingface格式。开源

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
训练作业进程被kill - AI开发平台ModelArts

用户进程被Kill表示用户进程因外部因素被Kill或者中断，表现为日志中断。原因分析 CPU软锁在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况合理使用数据盘，数据盘大小请参考训练环境中不同规格资源大小。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
非分离部署推理服务 - AI开发平台ModelArts

t9b资源。安装过程需要连接互联网git clone，确保容器可以访问公网。 Step1 检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
修改批量服务配置 - AI开发平台ModelArts

方式一：通过服务管理页面修改服务信息登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署”，进入目标服务类型管理页面。在服务列表中，单击目标服务操作列的“修改”，修改服务基本信息，然后根据提示提交修改任务。当修改了服务的某些参数配置时，系统会自动重启服务使修改生效。在提交修改

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
身份认证与访问控制 - AI开发平台ModelArts

在AI计算任务执行过程中需要访问用户的其他服务，例如训练过程中，需要访问OBS读取用户的训练数据。在这个过程中，就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发，ModelArts代表用户访问任何云服务之前，均需要先获得用户的授权，而这个动作就是一个“

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
开发环境计费项 - AI开发平台ModelArts

在ModelArts开发环境中运行Notebook实例时，会使用计算资源和存储资源，会产生计算资源和存储资源的累计值计费。具体内容如表1所示。 Notebook实例停止运行时，EVS还会持续计费，需及时删除才能停止EVS计费。计算资源费用：如果运行Notebook实例时，使用专属资源池进行模型训练和推理，计算资源不计费。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
Standard Notebook - AI开发平台ModelArts

Kernel？在ModelArts的Notebook中如何将git clone的py文件变为ipynb文件？在ModelArts的Notebook实例重启时，数据集会丢失吗？在ModelArts的Notebook的Jupyterlab可以安装插件吗？在ModelArts的Noteboo

帮助中心 > AI开发平台ModelArts > 常见问题
查询训练作业列表 - AI开发平台ModelArts

ry-num": "3"（故障自动重启次数）。 "fault-tolerance/job-unconditional-retry": "true"（无条件重启） "fault-tolerance/hang-retry": "true"（卡死重启） "jupyter-lab/enable":

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

x86_x64架构的主机为例，您可以购买相同规格的ECS或者应用本地已有的主机进行自定义镜像的制作。购买ECS服务器的具体操作请参考购买并登录弹性云服务器。镜像选择公共镜像，推荐使用ubuntu18.04的镜像。图1 创建ECS服务器-选择X86架构的公共镜像登录主机后，安装D

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
IAM - AI开发平台ModelArts
IAM - AI开发平台ModelArts

Administrator 裸金属服务器BMS BMS FullAccess 镜像服务IMS IMS FullAccess 数据加密服务DEW DEW KeypairReadOnlyAccess 虚拟私有云VPC VPC FullAccess 弹性云服务器ECS ECS FullAccess

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

的AI引擎是PyTorch，训练使用的资源是专属资源池的Ascend芯片。准备工作准备一套可以连接外部网络，装有Linux系统并安装18.09.7及以上版本docker的虚拟机或物理机用作镜像构建节点，以下称“构建节点”。可以通过执行docker pull、apt-get update/upgrade和pip

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
从OBS中导入模型文件创建模型 - AI开发平台ModelArts

就绪探针：用于检测应用实例是否已经准备好接收流量。如果就绪探针失败，即实例未准备好，会从服务负载均衡的池中剔除该实例，不会将流量路由到该实例，直到探测成功。存活探针：用于检测应用实例内应用程序的健康状态。如果存活探针失败，即应用程序不健康，将会自动重启实例。 3种探针的配置参数均为：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
日志提示“errorMessage:The specified key does not exist” - AI开发平台ModelArts

桶中的对象不存在，请检查OBS路径中的内容是否存在。具体错误码请参见OBS官方文档。处理方法检查OBS路径及内容格式是否正常。必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
管理批量服务生命周期 - AI开发平台ModelArts

”状态后，ModelArts将开始计费。您可以通过如下方式启动服务：登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署”，进入目标服务类型管理页面。您可以单击“操作”列的“启动”，启动服务。登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署”，进入目标

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
执行训练任务【旧】 - AI开发平台ModelArts

ckpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
使用MaaS部署模型服务 - AI开发平台ModelArts

专属资源池需单独创建，不与其他租户共享。实例规格选择实例规格，规格中描述了服务器类型、型号等信息。流量限制（QPS）设置待部署模型的流量限制QPS。单位：次/秒说明：在部署过程中出现错误码“ModelArts.4206”时，表示QPS请求数量达到限制，建议等待限流结束后再重启服务。实例数设置服务器个数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
非分离部署推理服务 - AI开发平台ModelArts

前提条件已准备好Server环境，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。安装过程需要连接互联网git clone，确保容器可以访问公网。步骤一检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

生产部署上对平台系统产生了新的要求。例如：导入模型时，需要支持动态调整租户存储配额；模型加载、启动慢，部署时需要灵活的超时配置；当负载异常重启，模型需要重新加载，服务恢复时间长的问题亟待解决。为了应对如上诉求，ModelArts推理平台针对性给出解决方案，用于支持大模型场景下的模型管理和服务部署。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
测试用户权限 - AI开发平台ModelArts

测试用户权限由于权限配置需要等待15-30分钟生效，建议在配置完成后，等待30分钟，再执行如下验证操作。使用用户组02中任意一个子用户登录ModelArts管理控制台。在登录页面，请使用“IAM用户登录”方式进行登录。首次登录会提示修改密码，请根据界面提示进行修改。验证ModelArts权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置 > 权限配置
非分离部署推理服务 - AI开发平台ModelArts

nt9b资源。安装过程需要连接互联网git clone，确保容器可以访问公网。步骤一检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务

总条数： 1185

上一页
1
...
11
12
13
...
60
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

部署推理服务 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

修改批量服务配置 - AI开发平台ModelArts

身份认证与访问控制 - AI开发平台ModelArts

开发环境计费项 - AI开发平台ModelArts

Standard Notebook - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

IAM - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

从OBS中导入模型文件创建模型 - AI开发平台ModelArts

日志提示“errorMessage:The specified key does not exist” - AI开发平台ModelArts

管理批量服务生命周期 - AI开发平台ModelArts

执行训练任务【旧】 - AI开发平台ModelArts

使用MaaS部署模型服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

测试用户权限 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线