搜索_华为云

推理性能测试 - AI开发平台ModelArts

benchmark_parallel.csv 参数说明 --backend：服务类型，支持tgi、vllm、mindspore、openai等。本文档使用的推理接口是vllm。 --host ${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口8080。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
语言模型推理性能测试 - AI开发平台ModelArts

benchmark_parallel.csv 参数说明 --backend：服务类型，支持tgi、vllm、mindspore、openai等后端。本文档使用的推理接口是openai。 --host：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口。 --

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

errorMessage:None reason:Service Unavailable 如果是client数太多，尤其对于5G以上文件，OBS接口不支持直接调用，需要分多个线程分段拷贝，目前OBS侧服务端超时时间是30S，可以通过如下设置减少进程数。 # 设置进程数 os.envir

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
查询训练日志 - AI开发平台ModelArts

Integer 当前返回的日志大小（单位：字节）。最大为5兆。 full_size Integer 完整的日志大小（单位：字节）。表4 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
附录：指令微调训练常见问题 - AI开发平台ModelArts

were not found in your environment: flash_attn 根因：昇腾环境暂时不支持flash_attn接口规避措施：修改dynamic_module_utils.py文件，将180-184行代码注释掉 vim /home/ma-user/an

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
查询训练作业的运行指标 - AI开发平台ModelArts

Usage（NPU显存使用率）。 value Array of numbers 运行指标对应数值，1min统计一个平均值。表5 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
在ModelArts Standard上运行GPU单机单卡训练任务 - AI开发平台ModelArts

分析错误时：训练镜像先看日志，推理镜像先看API的返回。可以通过命令查看容器输出到stdout的所有日志： docker logs -f 39c9ceedb1f6 一般在做推理镜像时，部分日志是直接存储在容器内部的，所以需要进入容器看日志。注意：重点对应日志中是否有ERROR（包括，容器启动时、API执行时）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练任务
服务启动失败 - AI开发平台ModelArts

镜像如果配置了健康检查，服务启动失败，从以下两个方面进行排查：健康检查端口是否可以正常工作自定义镜像中配置了健康检查，需要在测试镜像时，同步测试健康检查接口是否可以正常工作，具体参考从0-1制作自定义镜像并创建AI应用中的本地验证镜像方法。创建AI应用界面上配置的健康检查地址与实际配置的是否一致

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
推理性能测试 - AI开发平台ModelArts

benchmark_parallel.csv 参数说明 --backend：服务类型，支持tgi、vllm、mindspore、openai等。本文档使用的推理接口是vllm。 --host：服务部署的IP。 --port：推理服务端口8080。 --tokenizer：tokenizer路径，HuggingFace的权重路径。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
多模态模型推理性能测试 - AI开发平台ModelArts

--height: 图片长度（分辨率相关参数）。 --width: 图片宽度（分辨率相关参数）。 --served-model-name：选择性添加，在接口中使用的模型名；如果没有配置，则默认为tokenizer。备注：当前版本仅支持语言+图片多模态性能测试。脚本运行完成后，测试结果保存在benchmark_parallel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
查看AI应用事件 - AI开发平台ModelArts

json中的swr_location字段后重试。异常自定义镜像健康检查接口必须是xxx。 The health check url of custom image model must be %s. 请修改自定义镜像健康检查接口后重试。正常当前镜像构建任务状态为xxx。 The status

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理AI应用
查询模型对象列表 - AI开发平台ModelArts

model_instance2, model_instance3 ...]，列表中元素model_instance对象即为本章节描述的模型管理，可调用模型接口。支持按照检索参数查询模型列表，返回满足检索条件的模型list，检索参数如表1所示。在查询列表时，返回list的同时，会打印模型列表的详细信息，如表2和表3所示。

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
设置训练故障优雅退出 - AI开发平台ModelArts

"[ma-pre-start] End" 创建训练任务约束：MindSpore版本要求1.6.0及以上。修改样例代码，增加如下内容： # 载入依赖接口 from mindx_elastic.terminating_message import ExceptionCheckpoint ..

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
使用AOM看Lite Cluster监控指标 - AI开发平台ModelArts

ModelArts以10秒/次的频率调用自定义配置中提供的命令或http接口获取指标数据。自定义配置中提供的命令或http接口返回的指标数据文本不能大于8KB。命令方式采集自定义指标数据用于创建自定义指标采集POD的YAML文件示例如下。 apiVersion: v1 kind: Pod metadata:

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
查询服务对象列表 - AI开发平台ModelArts

service_instance2, service_instance3 ...]，列表中元素“service_instance”对象即为服务管理章节描述的可调用服务接口。支持按照检索参数查询服务列表，返回满足检索条件的服务list，检索参数如表1所示。在查询列表时，返回list的同时，默认会打印模型列表的详细信息，如表2和表3所示。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

customer"，表示资源池对应订单已取消，取消原因可能为超时未支付、用户自主取消，需重新购买。其他错误可通过F12查看浏览器请求信息，选择标红的pools接口，查看响应里的详细报错信息，如下图所示。通过错误提示修正输入参数后再次提交订单。图8 报错信息如CCE集群不可用，请检查CCE集群版本和状态。报错信息如下：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
日志提示"Permission denied" - AI开发平台ModelArts

可能原因是用户使用的启动脚本为旧版本的run_train.sh，脚本里面有某些环境变量在新版本下发的作业中并不存在这些环境变量导致。可能原因是使用Python file接口并发读写同一文件。处理方法对挂载盘的数据加权限，可以改为与训练容器内相同的用户组（1000），假如/nas盘是挂载路径，执行如下代码。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

由于用户本地开发的代码需要上传至ModelArts后台，训练代码中涉及到依赖文件的路径时，用户设置有误的场景较多。推荐通用的解决方案：使用os接口得到依赖文件的绝对路径，避免报错。示例： |---project_root #代码根目录 |---BootfileDirectory

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

异常中文描述检测方法处理建议 NT_NPU_DEVICE NPU 其他 npu dcmi device异常。 NPU设备异常，昇腾dcmi接口中返回设备存在重要或紧急告警。可能是亚健康，建议先重启节点，若重启节点后未恢复，发起维修流程。 NT_NPU_NET NPU 链路 npu

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
创建团队标注任务 - AI开发平台ModelArts

“选择标注团队”：任务类型设置为“指定标注团队”，需在此参数中指定一个团队，同时勾选此团队中某几个成员负责标注。下拉框中将罗列当前账号下创建的标注团队及其成员。 “选择标注接口人”：任务类型设置为“指定标注管理员”，需在所有团队的“Team Manager”中选择一人作为管理员。 “自动将新增图片同步给标注团队”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过团队标注方式标注数据

总条数： 1089

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

查询训练日志 - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练任务 - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

查看AI应用事件 - AI开发平台ModelArts

查询模型对象列表 - AI开发平台ModelArts

设置训练故障优雅退出 - AI开发平台ModelArts

使用AOM看Lite Cluster监控指标 - AI开发平台ModelArts

查询服务对象列表 - AI开发平台ModelArts

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

创建团队标注任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线