搜索_华为云

构造请求 - AI开发平台ModelArts
构造请求 - AI开发平台ModelArts

说明 GET 请求服务器返回指定资源。 PUT 请求服务器更新指定资源。 POST 请求服务器新增资源或执行特殊操作。 DELETE 请求服务器删除指定资源，如删除对象等。 HEAD 请求服务器资源头部。 PATCH 请求服务器更新资源的部分内容。当资源不存在的时候，PATCH可能会去创建一个新的资源。

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
请求超时返回Timeout - AI开发平台ModelArts

请求超时返回Timeout 问题现象服务预测请求超时原因分析请求超时，大概率是APIG（API网关）拦截问题。需排查APIG（API网关）和模型。处理方法优先排查APIG（API网关）是否是通的，可以在本地使用curl命令排查，命令行：curl -kv {预测地址}。如

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
ModelArts在线服务预测请求体大小限制是多少？ - AI开发平台ModelArts

ModelArts在线服务预测请求体大小限制是多少？服务部署完成且服务处于运行中后，可以往该服务发送推理的请求，请求的内容根据模型的不同可以是文本，图片，语音，视频等内容。当使用调用指南页签中显示的调用地址（华为云APIG网关服务的地址）预测时，对请求体的大小限制是12MB，超过12MB时，请求会被拦截。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
ModelArts导入模型时，如何编写模型配置文件中的安装包依赖参数？ - AI开发平台ModelArts

表示配置模型推理代码需要的依赖包，需要提供依赖包名、安装方式和版本约束的信息，详细参数见模型配置文件编写说明。导入模型时，模型配置文件中的安装包依赖参数“dependencies”如何编写？解决方案安装包存在前后依赖关系。例如您在安装“mmcv-full”之前，需要完成“Cy

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
镜像过大，卸载原来的包重新打包镜像，最终镜像会变小吗？ - AI开发平台ModelArts

镜像过大，卸载原来的包重新打包镜像，最终镜像会变小吗？不会，反而会变大。因为Docker镜像的层原因，当前的镜像是基于原来的镜像制作，而原来的镜像层数是无法改变的，层不变的情况下，大小是不变的，卸载包或者删除数据集，会新增镜像层，镜像反而会变大，这和传统概念的存储不一样。父主题：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
套餐包 - AI开发平台ModelArts
套餐包 - AI开发平台ModelArts

制台为准。已购买套餐包不支持退订，购买前请确认。已购买套餐包是按需套餐包，其资源为公共资源。套餐包不支持跨地域（跨region）使用。不同的地域之间资源包不互通，每个地域需分别购买，请根据您的实际需求慎重选择。资源包抵扣顺序计费时将优先使用套餐包的额度，超出额度部分将以

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

由于安装的文件名格式不支持，导致出现“xxx.whl is not a supported wheel on this platform”报错，具体解决方法请参见2。处理方法安装第三方包 pip中存在的包，使用如下代码： import os os.system('pip install

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？问题现象用户的自定义镜像运行在Notebook里会查到一些额外的pip包。如下图所示，左侧为自定义镜像运行在本地环境，右侧为运行在Notebook里。可能原因 Notebook自带moxing、m

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

enabled” 原因分析出现该问题的可能原因如下：新安装的包与镜像中带的CUDA版本不匹配。处理方法必现的问题，使用本地Pycharm远程连接Notebook调试安装。先远程登录到所选的镜像，使用“nvcc -V”查看目前镜像自带的CUDA版本。重装torch等，需要注意选择与上一步版本相匹配的版本。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
推理性能测试 - AI开发平台ModelArts

性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
推理性能测试 - AI开发平台ModelArts

token的耗时 avg_decode_latency（平均增量token时延）：服务计算增量token的平均耗时 time_in_queue（请求排队时间）：请求从到达服务开始到开始被调度的耗时 request_latency（请求总时延）：请求从到达服务开始到结束的耗时以上指标单位均是ms，保留2位小数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
推理性能测试 - AI开发平台ModelArts

性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
推理性能测试 - AI开发平台ModelArts

性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
推理性能测试 - AI开发平台ModelArts

性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
推理性能测试 - AI开发平台ModelArts

性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.904）
多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试多模态模型推理的性能测试目前仅支持静态性能测试。静态性能测试是指评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务性能评测
推理性能测试 - AI开发平台ModelArts

性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
语言模型推理性能测试 - AI开发平台ModelArts

性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理性能测试
语言模型推理性能测试 - AI开发平台ModelArts

性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务性能评测
语言模型推理性能测试 - AI开发平台ModelArts

token的耗时 avg_decode_latency（平均增量token时延）：服务计算增量token的平均耗时 time_in_queue（请求排队时间）：请求从到达服务开始到开始被调度的耗时 request_latency（请求总时延）：请求从到达服务开始到结束的耗时以上指标单位均是ms，保留2位小数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试

总条数： 1209

上一页
1
2
3
4
5
...
61
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

构造请求 - AI开发平台ModelArts

请求超时返回Timeout - AI开发平台ModelArts

ModelArts在线服务预测请求体大小限制是多少？ - AI开发平台ModelArts

ModelArts导入模型时，如何编写模型配置文件中的安装包依赖参数？ - AI开发平台ModelArts

镜像过大，卸载原来的包重新打包镜像，最终镜像会变小吗？ - AI开发平台ModelArts

套餐包 - AI开发平台ModelArts

如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线