搜索_华为云

推理性能测试 - AI开发平台ModelArts

静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景能模拟实际业务下动态的发送不同长度请求，能评估推理框架在实际业务中能支持的并发数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
创建标注团队 - AI开发平台ModelArts

响应参数状态码： 201 表3 响应Body参数参数参数类型描述 workforce_id String 标注团队的ID。请求示例创建标注团队。设置标注团队名称为“team-123”。 { "workforce_name" : "team-123", "description"

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
推理性能测试 - AI开发平台ModelArts

致调用失败，可提交工单设置请求超时时间。 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
推理性能测试 - AI开发平台ModelArts

静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景能模拟实际业务下动态的发送不同长度请求，能评估推理框架在实际业务中能支持的并发数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
推理性能测试 - AI开发平台ModelArts

致调用失败，可提交工单设置请求超时时间。 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
创建数据集标注版本 - AI开发平台ModelArts

with_column_header 否 Boolean 发布时是否将列名写到CSV文件的第一行，对于表格数据集有效。可选值如下： true：发布时将列名写到CSV文件的第一行（默认值） false：发布时不将列名写到CSV文件的第一行响应参数状态码： 201 表3 响应Body参数参数参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
约束与限制 - AI开发平台ModelArts

空间为50G，专属资源池的容器引擎空间的默认为50G，支持在创建专属资源池时自定义容器引擎空间。用于训练的自定义镜像的默认用户必须为“uid”为“1000”的用户。 Standard推理的创建模型创建模型时导入OBS文件，最大支持20GB。更多信息，请参见创建AI应用。创建

 帮助中心 > AI开发平台ModelArts > 产品介绍
投机推理使用说明 - AI开发平台ModelArts

后，执行一次完整投机流程的时间也仅为大模型的1.5倍左右（投机步数设置为3步）。而这一次投机流程，平均可以生成3个有效token，即用1.5倍的时间代价，生成了3倍的token数量，性能提升了100%。投机推理参数设置在启动离线或在线推理服务时参考表1所示配置参数，使用投机推理功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 投机推理
推理性能测试 - AI开发平台ModelArts

致调用失败，可提交工单设置请求超时时间。 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
使用MaaS部署模型服务 - AI开发平台ModelArts

选择“我的服务”页签。选择待删除的服务，单击操作列的“更多 > 删除”，在弹窗中输入“DELETE”，单击“确定”，删除服务。单实例QPS的推荐值说明单实例流量限制QPS和请求的输入输出有关，表2中的QPS推荐值是在多轮对话、摘要生产和信息检索场景下预估出的数据，仅供参

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
推理性能测试 - AI开发平台ModelArts

静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景能模拟实际业务下动态的发送不同长度请求，能评估推理框架在实际业务中能支持的并发数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
新建Workflow工作流 - AI开发平台ModelArts

来自市场订阅的Workflow。 latest_execution 否 ExecutionBrief object 最后一次执行工作流的概要信息。 run_count 否 Integer 工作流的已运行次数。 param_ready 否 Boolean 当前工作流的必选参数是否都已填完。

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
免费体验MaaS预置服务 - AI开发平台ModelArts

核采样/top_p 设置推理核采样。调整输出文本的多样性，数值越大，生成文本的多样性就越高。取值范围：0.1~1 默认值：1 top_k 选择在模型的输出结果中选择概率最高的前K个结果。取值范围：1~1000 默认值：20 当Tokens的免费调用额度使用完时，操作列的“在线体验”会置灰。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的训练推理代码和如下表所示，请提前准备好。获取模型软件包和权重文件本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
Lite Cluster资源开通 - AI开发平台ModelArts

实例规格选择需要使用的规格。平台分配的资源规格包含了一定的系统损耗，实际可用的资源量小于规格标称的资源。实际可用的资源量可在资源池创建成功后，在详情页的“节点”页签中查看。可用区根据实际情况选择“随机分配”或“指定可用区”。可用区是在同一区域下，电力、网络隔离的物理区域。可用区之间内网互通，不同可用区之间物理隔离。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
Notebook的自定义镜像制作方法 - AI开发平台ModelArts

根据界面提示填写相关信息，然后单击“立即注册”。 “镜像源”选择构建好的镜像。可直接复制完整的SWR地址，或单击选择SWR构建好的镜像进行注册。图2 选择镜像源 “架构”和“类型”：根据自定义镜像的实际框架选择。注册后的镜像会显示在ModelArts“镜像管理”页面。父主题：制作自定义镜像用于创建Notebook

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
推理性能测试 - AI开发平台ModelArts

致调用失败，可提交工单设置请求超时时间。 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的训练、推理代码如下表所示，请提前准备好。获取模型软件包和权重文件本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的训练、推理代码如下表所示，请提前准备好。获取模型软件包和权重文件本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作
启动推理服务 - AI开发平台ModelArts

否 -1 Int 控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0，1] 范围内。设置为1表示考虑所有tokens。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署

总条数： 1607

上一页
1
...
12
13
14
...
81
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理性能测试 - AI开发平台ModelArts

创建标注团队 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

创建数据集标注版本 - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

投机推理使用说明 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

使用MaaS部署模型服务 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

新建Workflow工作流 - AI开发平台ModelArts

免费体验MaaS预置服务 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

Notebook的自定义镜像制作方法 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线