搜索_华为云

在Notebook中，如何访问其他账号的OBS桶？ - AI开发平台ModelArts

权限配置指南》> 典型场景配置案例，查找授予OBS桶权限的指导。获得OBS桶的读写权限后，您可以在Notebook中，使用moxing接口，访问对应的OBS桶，并读取数据。举例如下： import moxing as mox mox.file.copy_parallel('o

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 数据存储
使用kv-cache-int8量化 - AI开发平台ModelArts

dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
推理性能测试 - AI开发平台ModelArts

--backend：服务类型，支持tgi、vllm、mindspore、openai、openai-chat等。本文档使用的推理接口是vllm，而llava多模态推理接口是openai-chat。 --host ${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
在AI Gallery订阅的数据集可以在SDK中使用吗？ - AI开发平台ModelArts

录。即数据集存储的位置。在SDK中调用对应OBS目录下的数据。 SDK的下载和使用，请参见《SDK参考》。可参考从OBS下载文件，通过接口直接使用上述步骤中下载的数据集。父主题： AI Gallery

帮助中心 > AI开发平台ModelArts > 常见问题 > AI Gallery
删除训练作业 - AI开发平台ModelArts

训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。无成功响应参数。表2 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

程会消耗较长时间。处理方法在创建训练作业时，数据可以保存到OBS上。不建议使用TensorFlow、MXNet、PyTorch的OBS接口直接从OBS上读取数据。如果文件较小，可以将OBS上的数据保存成“.tar”包。训练开始时从OBS上下载到“/cache”目录，解压以后使用。

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
更新训练作业描述 - AI开发平台ModelArts

参数是否必选参数类型描述 description 是 String 需要更改的训练作业的描述信息。无成功响应参数表3 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
Standard资源池节点故障定位 - AI开发平台ModelArts

ibstat查看网卡非Active状态。 A050121 NPU 其他 npu dcmi接口检测到driver异常。 NPU驱动环境异常。 A050122 NPU 其他 npu dcmi device异常。 NPU设备异常，昇腾dcmi接口中返回设备存在重要或紧急告警。 A050123 NPU 链路 npu

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
推理性能测试 - AI开发平台ModelArts

benchmark_parallel.csv 参数说明 --backend：服务类型，支持tgi、vllm、mindspore、openai等。本文档使用的推理接口是vllm。 --host ${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口8080。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

errorMessage:None reason:Service Unavailable 如果是client数太多，尤其对于5G以上文件，OBS接口不支持直接调用，需要分多个线程分段复制，目前OBS侧服务端超时时间是30S，可以通过如下设置减少进程数。 # 设置进程数 os.envir

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
语言模型推理性能测试 - AI开发平台ModelArts

benchmark_parallel.csv 参数说明 --backend：服务类型，支持tgi、vllm、mindspore、openai等后端。本文档使用的推理接口是openai。 --host：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口。 --

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
查询训练日志 - AI开发平台ModelArts

Integer 当前返回的日志大小（单位：字节）。最大为5兆。 full_size Integer 完整的日志大小（单位：字节）。表4 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
语言模型推理性能测试 - AI开发平台ModelArts

benchmark_parallel.csv 参数说明 --backend：服务类型，支持tgi、vllm、mindspore、openai等后端。本文档使用的推理接口是openai。 --host：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口。 --

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理性能测试
附录：指令微调训练常见问题 - AI开发平台ModelArts

were not found in your environment: flash_attn 根因：昇腾环境暂时不支持flash_attn接口规避措施：修改dynamic_module_utils.py文件，将180-184行代码注释掉 vim /home/ma-user/an

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
查询训练作业的运行指标 - AI开发平台ModelArts

Usage（NPU显存使用率）。 value Array of numbers 运行指标对应数值，1min统计一个平均值。表5 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
服务启动失败 - AI开发平台ModelArts

镜像如果配置了健康检查，服务启动失败，从以下两个方面进行排查：健康检查端口是否可以正常工作自定义镜像中配置了健康检查，需要在测试镜像时，同步测试健康检查接口是否可以正常工作，具体参考从0-1制作自定义镜像并创建AI应用中的本地验证镜像方法。创建模型界面上配置的健康检查地址与实际配置的是否一致

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

ModelArts以10秒/次的频率调用自定义配置中提供的命令或http接口获取指标数据。自定义配置中提供的命令或http接口返回的指标数据文本不能大于8KB。命令方式采集自定义指标数据用于创建自定义指标采集POD的YAML文件示例如下。 apiVersion: v1 kind: Pod metadata:

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
推理性能测试 - AI开发平台ModelArts

benchmark_parallel.csv 参数说明 --backend：服务类型，支持tgi、vllm、mindspore、openai等。本文档使用的推理接口是vllm。 --host：服务部署的IP。 --port：推理服务端口8080。 --tokenizer：tokenizer路径，HuggingFace的权重路径。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
推理性能测试 - AI开发平台ModelArts

benchmark_parallel.csv 参数说明 --backend：服务类型，支持tgi、vllm、mindspore、openai等。本文档使用的推理接口是vllm。 --host：服务部署的IP。 --port：推理服务端口8080。 --tokenizer：tokenizer路径，HuggingFace的权重路径。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
查看ModelArts模型事件 - AI开发平台ModelArts

json中的swr_location字段后重试。异常自定义镜像健康检查接口必须是xxx。 The health check url of custom image model must be %s. 请修改自定义镜像健康检查接口后重试。正常当前镜像构建任务状态为xxx。 The status

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型

总条数： 1105

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Notebook中，如何访问其他账号的OBS桶？ - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

在AI Gallery订阅的数据集可以在SDK中使用吗？ - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

查询训练日志 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

查看ModelArts模型事件 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线