搜索_华为云

产品变更公告 - AI开发平台ModelArts

产品变更公告网络调整公告预测API的域名停用公告

 帮助中心 > AI开发平台ModelArts > 服务公告
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

buildkitd（服务端）：负责镜像构建，目前支持runc和containerd作为镜像构建环境，默认是runc。 buildkitctl（客户端）：负责解析Dockerfile文件，并向服务端buildkitd发出构建请求。下载并解压buildkit程序。 # 下载 buildkit 工具，注意使用的是0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
非分离部署推理服务 - AI开发平台ModelArts

启动推理服务之前检查卡是否被占用、端口是否被占用，是否有对应运行的进程如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。启动后容器默认端口是8080。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
从0-1制作自定义镜像并创建模型 - AI开发平台ModelArts

容器镜像所在的路径：选择已制作好的自有镜像图4 选择已制作好的自有镜像容器调用接口：指定模型启动的协议和端口号。请确保协议和端口号与自定义镜像中提供的协议和端口号保持一致。镜像复制：选填，选择是否将容器镜像中的模型镜像复制到ModelArts中。健康检查：选填，用于指定模型的健康检查。仅当自定义镜像中

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

查看收费作业 ModelArts使用过程中涉及到的具体收费项如下： Workflow：Workflow工作流运行时会收取费用，使用完请及时停止Workflow工作流、停止因运行Workflow工作流而创建的训练作业和部署的服务。同时，也需清理存储到OBS中的数据。自动学习：自动学习运行

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
如何在Notebook中安装外部库？ - AI开发平台ModelArts

如何在Notebook中安装外部库？ ModelArts Notebook中已安装Jupyter、Python程序包等多种环境，包括TensorFlow、MindSpore、PyTorch、Spark等。您也可以使用pip install在Notobook或Terminal中安装外部库。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
多模态模型推理性能测试 - AI开发平台ModelArts

代码目录。约束限制当前版本仅支持语言+图片多模态性能测试。静态benchmark验证本章节介绍如何进行静态benchmark验证。已经上传benchmark验证脚本到推理容器中。如果在步骤三：上传代码包和权重文件中已经上传过AscendCloud-LLM-x.x.x.zip并解压，无需重复执行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务性能评测
ModelArts Standard训练作业和模型部署如何收费？ - AI开发平台ModelArts

ModelArts Standard训练作业和模型部署如何收费？ Standard中训练作业如何收费？如果您使用的是公共资源池，则根据您选择的规格、节点数、运行时长进行计费。计费规则为“规格单价×节点数×运行时长”（运行时长精确到秒）。如果您使用的是专属资源池，则训练作业就不再进行单独计费。由专属资源池进行收费。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
推理精度测试 - AI开发平台ModelArts

opencompass.sh 参数说明: vllm_path：构造vllm评测配置脚本名字，默认为vllm。 service_port：服务端口，与启动服务时的端口保持，比如8080。 max_out_len：在运行类似mmlu、ceval等判别式回答时，max_out_len建议设置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
使用kv-cache-int8量化 - AI开发平台ModelArts

部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
moxing.tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？ - AI开发平台ModelArts

tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？问题现象使用MoXing训练模型，“global_step”放在Adam名称范围下，而非MoXing代码中没有Adam名称范围，如图1所示。其中1为使用MoXing代码，2代表非MoXing代码。图1

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
如何定位Workflow运行报错 - AI开发平台ModelArts

如何定位Workflow运行报错使用run模式运行工作流报错时，分析解决思路如下：确认安装的SDK包是否是最新版本，避免出现包版本不一致问题。检查编写的SDK代码是否符合规范，具体可参考相应的代码示例。检查运行过程中输入的内容是否正确，格式是否与提示信息中要求的一致。根

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Workflow
推理精度测试 - AI开发平台ModelArts

opencompass.sh 参数说明: vllm_path：构造vllm评测配置脚本名字，默认为vllm。 service_port：服务端口，与启动服务时的端口保持，比如8080。 max_out_len：在运行类似mmlu、ceval等判别式回答时，max_out_len建议设置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
推理精度测试 - AI开发平台ModelArts

host：与起服务的host保持一致，比如起服务为0.0.0.0，host设置也为0.0.0.0。 service_port：服务端口，与启动服务时的端口保持，比如8080。 max_out_len：在运行类似mmlu、ceval等判别式回答时，max_out_len建议设置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

容器镜像所在的路径：选择已制作好的自有镜像图4 选择已制作好的自有镜像容器调用接口：指定模型启动的协议和端口号。请确保协议和端口号与自定义镜像中提供的协议和端口号保持一致。镜像复制：选填，选择是否将容器镜像中的模型镜像复制到ModelArts中。健康检查：选填，用于指定模型的健康检查。仅当自定义镜像中

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
迁移过程使用工具概览 - AI开发平台ModelArts

为了简化用户使用，ModelArts提供了Tailor工具，将模型转换、精度benchmark、性能benchmark和profiling采集工具集成到同一个工具中，极大简化了用户的使用流程。建议在迁移过程中使用Tailor工具替代下面列举的原始工具MS Convertor、Benchmar

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
使用kv-cache-int8量化 - AI开发平台ModelArts

部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8是实验特性，在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见表1。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化

总条数： 776

上一页
1
...
7
8
9
...
39
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

产品变更公告 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

从0-1制作自定义镜像并创建模型 - AI开发平台ModelArts

如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

如何在Notebook中安装外部库？ - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

ModelArts Standard训练作业和模型部署如何收费？ - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

moxing.tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？ - AI开发平台ModelArts

如何定位Workflow运行报错 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线