搜索_华为云

端到端运维ModelArts Standard推理服务方案 - AI开发平台ModelArts

监控告警流程图方案优势通过端到端的服务运维配置，可方便地查看业务运行高低峰情况，并能够实时感知在线服务的健康状态。约束限制端到端服务运维只支持在线服务，因为推理的批量服务和边缘服务无CES监控数据，不支持完整的端到端服务运维设置。实施步骤以出行场景的司乘安全算法为例，介绍使用M

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
训练作业进程异常退出 - AI开发平台ModelArts

return code: 137 原因分析日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程，所以这里的退出码是用户的训练作业代码返回的。常见的错误码还包括247、139等。退出码137或者247 可能是内存溢出造成的。请减少数据量、减少batch_size，优化代码，合理聚合、复制数据。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
约束与限制 - AI开发平台ModelArts

过资源池的容器引擎空间大小的一半。镜像过大会直接影响训练作业的启动时间。ModelArts公共资源池的容器引擎空间为50G，专属资源池的容器引擎空间的默认为50G，支持在创建专属资源池时自定义容器引擎空间。用于训练的自定义镜像的默认用户必须为“uid”为“1000”的用户。 Standard推理的创建模型

 帮助中心 > AI开发平台ModelArts > 产品介绍
创建诊断任务 - AI开发平台ModelArts

诊断数据量大小预计将在1~10分钟内完成；成功的任务可单击Report列的View链接查看详细的诊断报告，如下图所示，失败的任务可将鼠标放到Failed字段上，将弹出具体的失败原因。诊断报告详细介绍请查看查看诊断报告。图9 查看性能诊断报告 Report页面将每隔5s自动刷新一次。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

在在线推理服务列表页面，选择服务“状态”为“运行中”的服务。单击操作列的“推理测试”，在测试页面根据任务类型以及页面提示完成对应的测试。调用API 待推理服务的状态变为“运行中”时，可单击操作列的“调用”，复制对应的接口代码，在本地环境或云端的开发环境中进行接口。图1 调用接口当部署推理服务的“安全认证”选择

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
分离部署推理服务 - AI开发平台ModelArts

--port表示服务部署的端口。每个全量/增量推理实例基于配置的端口号(--port)启动服务，并按照global rank_table中的全量实例、增量实例的顺序，对全量推理实例、增量推理实例启动的端口号进行排序，端口之间用`,`分隔开作为该环境变量的输入。当前端口9000是对

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

sh 配置完成后，执行“df -h”可以看到新挂载的磁盘信息。图3 查看新挂载的磁盘磁盘合并挂载后，即可在“/home”下创建自己的工作目录，以自己的名字命名。（可选）安装固件和驱动。查看环境信息。执行如下命令查看当前拿到的机器的固件和驱动版本。 npu-smi info -t

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
分离部署推理服务 - AI开发平台ModelArts

--port表示服务部署的端口。每个全量/增量推理实例基于配置的端口号(--port)启动服务，并按照global rank_table中的全量实例、增量实例的顺序，对全量推理实例、增量推理实例启动的端口号进行排序，端口之间用`,`分隔开作为该环境变量的输入。当前端口9000是对

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

--port表示服务部署的端口。每个全量/增量推理实例基于配置的端口号(--port)启动服务，并按照global rank_table中的全量实例、增量实例的顺序，对全量推理实例、增量推理实例启动的端口号进行排序，端口之间用`,`分隔开作为该环境变量的输入。当前端口9000是对

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
FlUX.1基于Lite Server适配PyTorch NPU推理指导（6.3.912） - AI开发平台ModelArts

912软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.912 版本。说明：如果上述软件获取路径打开后未显示相应的软件信

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
配额与限制 - AI开发平台ModelArts

本节介绍ModelArts涉及的相关云服务的配额限制，帮助用户查看和管理自己的配额。什么是配额配额是在某一区域下最多可同时拥有的某种资源的数量。华为云为防止资源滥用，对云服务每个区域的用户资源数量和容量做了配额限制。如果当前资源配额限制无法满足使用需要，您可以申请扩大配额。怎样查看配额如需

 帮助中心 > AI开发平台ModelArts > 产品介绍
资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

查看创建失败的资源池。单击“操作记录”中失败状态的报错信息。图1 查看报错信息解决方法 ModelArts权限管理的委托权限不足，导致创建失败？解决方法请参见ModelArts创建委托授权。申请的资源中包含受限购买的资源规格，导致购买失败？当前modelarts.bm

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
准备推理环境 - AI开发平台ModelArts

将权重文件上传到Server机器中。权重文件的格式要求为Huggingface格式。开源权重文件获取地址请参见支持的模型列表。如果使用模型训练后的权重文件进行推理，模型训练及训练后的权重文件转换操作可以参考大模型训练相关文档。权重要求放在磁盘的指定目录，并做目录大小检查，参考命令如下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
使用AI Gallery微调大师训练模型 - AI开发平台ModelArts

单击“返回模型训练”跳转到微调大师页面，可以查看训练作业状态。当“状态”为“训练完成”时，表示微调任务完成。单击操作列的“查看模型”跳转到微调获得的新模型的详情页面。单击操作列的“任务详情”可以在弹窗中查看“训练信息”、“训练日志”和“指标效果”。单击操作列的“更多 > 删除任务”，可以删

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

了x86的包，python2版本的pip下载了python3的包。具体基础镜像运行环境请参见推理基础镜像列表。安装pip包有先后依赖关系。处理方法到pypi.org上查询依赖的待安装包是否存在，如果不存在则建议使用whl包进行安装（将待安装的whl包放到模型所在的OBS目录下）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
分离部署推理服务 - AI开发平台ModelArts

--port表示服务部署的端口。每个全量/增量推理实例基于配置的端口号(--port)启动服务，并按照global rank_table中的全量实例、增量实例的顺序，对全量推理实例、增量推理实例启动的端口号进行排序，端口之间用`,`分隔开作为该环境变量的输入。当前端口9000是对

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

pore框架。这些子工具侧重不同的训练场景，可以定位模型训练中的精度问题。支持精度预检，可扫描训练模型中的所有API进行API复现，给出精度情况的诊断和分析。精度比对，对PyTorch整网API粒度的数据dump、精度比对，进而定位训练场景下的精度问题支持溢出检测功能，判断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
Standard模型训练 - AI开发平台ModelArts

赖文件所在的路径？自如何获取ModelArts训练容器中的文件实际路径？ ModelArts训练中不同规格资源“/cache”目录的大小是多少？ ModelArts训练作业为什么存在/work和/ma-user两种超参目录？如何查看ModelArts训练作业资源占用情况？如

 帮助中心 > AI开发平台ModelArts > 常见问题
镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

镜像过大Push任务一直在运行，或实例节点有问题。解决方法以对应租户的华为云账号登录SWR服务，查看镜像是否已经Push成功。如果Push成功，请重新注册镜像。如果未Push成功，联系SRE查看对应实例的节点是否有问题。父主题：自定义镜像故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ - AI开发平台ModelArts

文件，可通过环境变量查看文件位置。在Notebook中打开terminal，可以运行如下命令查看RANK_TABLE_FILE： 1 env | grep RANK 在训练作业中，您可以在训练启动脚本的首行加入如下代码，把RANK_TABLE_FILE的值打印出来： 1 os

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练

总条数： 1323

上一页
1
...
7
8
9
...
67
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

端到端运维ModelArts Standard推理服务方案 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

创建诊断任务 - AI开发平台ModelArts

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

FlUX.1基于Lite Server适配PyTorch NPU推理指导（6.3.912） - AI开发平台ModelArts

配额与限制 - AI开发平台ModelArts

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

准备推理环境 - AI开发平台ModelArts

使用AI Gallery微调大师训练模型 - AI开发平台ModelArts

通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线