搜索_华为云

推理精度测试 - AI开发平台ModelArts

_standard、vllm等方式。 vllm_model：deploy_method为vllm时，服务以openai的方式启动，vllm_model为启动服务时传入的model_path。 Step2 查看精度测试结果默认情况下，评测结果会按照result/{service_

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
推理精度测试 - AI开发平台ModelArts

├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 ├──vllm_ppl.py #ppl精度测试脚本精度评测切换conda环境，确保之前启动服务为vllm接口，进入到be

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
推理精度测试 - AI开发平台ModelArts

├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 ├──vllm_ppl.py #ppl精度测试脚本精度评测切换conda环境，确保之前启动服务为vllm接口，进入到be

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
推理精度测试 - AI开发平台ModelArts

#运行opencompass脚本 ├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 ├──vllm_ppl.py

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
准备镜像环境 - AI开发平台ModelArts

0.0.1。 docker build -t diffusers-train:0.0.1 . Step4 启动镜像启动容器镜像，finetune全量微调需要启动8卡，启动前可以根据实际需要增加修改参数。 docker run -itd --name ${container_name}

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.907）
推理精度测试 - AI开发平台ModelArts

├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 ├──vllm_ppl.py #ppl精度测试脚本精度评测切换conda环境，确保之前启动服务为vllm接口，进入到be

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
发布本地AI应用到AI Gallery - AI开发平台ModelArts

支持0~100个字符。参数填写完成后，单击“创建”，确认订单信息无误后，单击“确定”跳转至AI应用详情页。当AI应用的状态变为“待启动”时，表示创建完成。启动AI应用上传AI应用的运行文件“app.py”。在AI应用详情页，选择“应用文件”页签，单击“添加文件”，进入上传文件页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
查询服务详情 - AI开发平台ModelArts

status String 模型实例运行状态，取值为： ready：已就绪（所有实例已启动） concerning：部分就绪（部分实例已启动、部分实例未启动） notReady：未就绪（所有实例都没启动） weight Integer 权重，分配到此模型的流量权重。 specification

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
使用AWQ量化 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step6 启动推理服务，在启动服务时添加如下命令。 -q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

0.1。 docker build -t diffusers-sd3-inference:0.0.1 . Step4 启动镜像启动容器镜像，推理只需要启动单卡，启动前可以根据实际需要增加修改参数。 docker run -itd --name ${container_name} -v

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
使用AWQ量化 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step6 启动推理服务，在启动服务时添加如下命令。 -q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： --model：模型路径。 Step3 启动AWQ量化服务参考Step3 启动推理服务，在启动服务时添加如下命令。 --q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
删除DevServer实例 - AI开发平台ModelArts

DELETE_FAILED：删除失败； DELETING：删除中； ERROR：错误； RUNNING：运行中； STARTING：启动中； START_FAILED：启动失败； STOPPED：已停止； STOPPING：停止中； STOP_FAILED：停止失败。 vpc_id String

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
停止DevServer实例 - AI开发平台ModelArts

DELETE_FAILED：删除失败； DELETING：删除中； ERROR：错误； RUNNING：运行中； STARTING：启动中； START_FAILED：启动失败； STOPPED：已停止； STOPPING：停止中； STOP_FAILED：停止失败。 vpc_id String

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
查询开发环境实例列表 - AI开发平台ModelArts

CREATE_FAILED，创建失败 START_QUEUING，免费资源启动排队中 READY_TO_START，免费资源等待启动 STARTING，启动中 RESTARTING，重启中 START_FAILED，启动失败 RUNNING，运行中 STOPPING，停止中 STOPPED，停止

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
推理性能测试 - AI开发平台ModelArts

--max-tokens：输入+输出限制的最大长度，模型启动参数--max-input-length值需要大于该值。 --max-prompt-tokens：输入限制的最大长度，推理时最大输入tokens数量，模型启动参数--max-total-tokens值需要大于该值，tokenizer建议带tokenizer

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
推理性能测试 - AI开发平台ModelArts

--max-tokens：输入+输出限制的最大长度，模型启动参数--max-input-length值需要大于该值。 --max-prompt-tokens：输入限制的最大长度，推理时最大输入tokens数量，模型启动参数--max-total-tokens值需要大于该值，tokenizer建议带tokenizer

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
更新开发环境实例信息 - AI开发平台ModelArts

Integer 运行时长，单位为秒，取值范围为3600-86400，该参数配置之后，每次启动均有效。如果enable为true时，该参数是必须的。如果当前实例的状态为运行中，修改此参数，只有在下次启动才会生效。 prompt 否 Boolean 是否需要再次提醒，该参数提供给前台co

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
在Notebook中通过镜像保存功能制作自定义镜像用于推理 - AI开发平台ModelArts

打开一个新的Terminal终端，进入“/home/ma-user/infer/”目录，运行启动脚本run.sh，并预测模型。基础镜像中默认提供了run.sh作为启动脚本。启动命令如下： sh run.sh 图6 运行启动脚本上传一张预测图片（手写数字图片）到Notebook中。图7 手写数字图片

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

proxy_pass http://127.0.0.1:8501; } } 准备启动脚本。启动前先创建ssl证书，然后启动TFServing的启动脚本。启动脚本run.sh示例代码如下： #!/bin/bash mkdir -p /etc/nginx/ssl/server

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署

总条数： 868

上一页
1
...
15
16
17
...
44
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

发布本地AI应用到AI Gallery - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

删除DevServer实例 - AI开发平台ModelArts

停止DevServer实例 - AI开发平台ModelArts

查询开发环境实例列表 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

更新开发环境实例信息 - AI开发平台ModelArts

在Notebook中通过镜像保存功能制作自定义镜像用于推理 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线