搜索_华为云

使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

单击模型名称，进入模型详情页面，查看模型详情信息。部署服务并查看详情在模型详情页面，单击右上角“部署>在线服务”，进入服务部署页面，模型和版本默认选中，选择合适的“实例规格”（例如CPU：2核 8GB），其他参数可保持默认值，单击“下一步”，跳转至服务列表页，当服务状态变为“运行中”，服务部署成功。单击服务名

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
使用SmoothQuant量化 - AI开发平台ModelArts

若指定则为per-channel粒度量化，否则为per-tensor粒度量化。启动smoothQuant量化服务。参考部署推理服务，使用量化后权重部署AWQ量化服务。注：Step3 创建服务启动脚本启动脚本中，服务启动命令需添加如下命令。 -q smoothquant 或者

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

如果指定则为per-channel粒度量化，否则为per-tensor粒度量化。启动smoothQuant量化服务。参考部署推理服务，使用量化后权重部署AWQ量化服务。注：Step3 创建服务启动脚本启动脚本中，服务启动命令需添加如下命令。 -q smoothquant 或者

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
查找Workflow工作流 - AI开发平台ModelArts

在弹出的编辑Workflow弹窗中，可以修改Workflow名称和标签。在标签框中输入相应的标签后，单击“新增标签”，新生成的标签会展示在标签行的下方，您可以同时增加多个标签。标签增加完成后，单击“确定”，标签即可生成。图3 新增标签生成了标签的Workflow，支持在搜索框中按照标签筛选对应的Workflow。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow
部署推理服务 - AI开发平台ModelArts

部署推理服务自动化脚本快速部署推理服务（推荐）手动部署推理服务父主题： DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
资源管理 - AI开发平台ModelArts
资源管理 - AI开发平台ModelArts

资源管理查询OS的配置参数查询插件模板查询节点列表批量删除节点批量重启节点查询事件列表创建网络资源查询网络资源列表查询网络资源删除网络资源更新网络资源查询资源实时利用率创建资源池查询资源池列表查询资源池删除资源池更新资源池资源池监控资源池统计

 帮助中心 > AI开发平台ModelArts > API参考
kv-cache-int8量化 - AI开发平台ModelArts

但是可能会造成精度下降。 per-tensor+per-head静态量化场景如需使用该场景量化方法，请自行准备kv-cache量化系数，格式和per-tensor静态量化所需的2. 抽取kv-cache量化系数生成的json文件一致，只需把每一层的量化系数修改为列表，列表的长度

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
推理场景介绍 - AI开发平台ModelArts

Cluster上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。约束限制本方案目前仅适用于部分企业客户。本文档适配昇腾云ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
附录：部署常见问题 - AI开发平台ModelArts

附录：部署常见问题如何解决DeepSeek-R1概率不触发深度思考的问题问题：DeepSeek-R1概率不触发深度思考解决方法：在prompt最后面添加“<think>\n”。 { "messages": [{ "role": "user",

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
在ModelArts的VS Code中如何把本地插件安装到远端或把远端插件安装到本地？ - AI开发平台ModelArts

在ModelArts的VS Code中如何把本地插件安装到远端或把远端插件安装到本地？在VS Code的环境中执行Ctrl+Shift+P 搜install local，按需选择即可父主题： Standard Notebook

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本案例在Notebook上部署推理服务进行调试，因此需要创建Notebook。部署推理服务在Notebook调试环境中部署推理服务介绍如何在Notebook中配置NPU环境，部署并启动推理服务，完成精度测试和性能测试。如果需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
访问在线服务支持的访问通道 - AI开发平台ModelArts

访问在线服务支持的访问通道通过公网访问通道的方式访问在线服务通过VPC访问通道的方式访问在线服务通过VPC高速访问通道的方式访问在线服务父主题：将模型部署为实时推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
访问在线服务支持的传输协议 - AI开发平台ModelArts

访问在线服务支持的传输协议使用WebSocket协议的方式访问在线服务使用Server-Sent Events协议的方式访问在线服务父主题：将模型部署为实时推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
日志提示“ValueError: Invalid endpoint: obs.xxxx.com” - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题： OBS操作相关故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
订阅免费模型 - AI开发平台ModelArts

阅成功的模型可以直接用于ModelArts模型部署和HiLens技能安装。 AI Gallery中分享的模型支持免费订阅，但在使用过程中如果消耗了硬件资源进行部署，管理控制台将根据实际使用情况收取硬件资源的费用。前提条件注册并登录华为云，且创建好OBS桶用于存储数据和模型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

i是 Hugging Face 官方提供的命令行工具，自带完善的下载功能。具体步骤可参考：HF-Mirror中的使用教程。完成依赖安装和环境变量配置后，以Llama2-70B为例： huggingface-cli download --resume-download meta-l

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
访问在线服务支持的认证方式 - AI开发平台ModelArts

访问在线服务支持的认证方式通过Token认证的方式访问在线服务通过AK/SK认证的方式访问在线服务通过APP认证的方式访问在线服务父主题：将模型部署为实时推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

i是 Hugging Face 官方提供的命令行工具，自带完善的下载功能。具体步骤可参考：HF-Mirror中的使用教程。完成依赖安装和环境变量配置后，以Llama2-70B为例： huggingface-cli download --resume-download meta-l

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

i是 Hugging Face 官方提供的命令行工具，自带完善的下载功能。具体步骤可参考：HF-Mirror中的使用教程。完成依赖安装和环境变量配置后，以Llama2-70B为例： huggingface-cli download --resume-download meta-l

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
在ModelArts的Notebook中使用VS Code调试代码无法进入源码怎么办？ - AI开发平台ModelArts

configuration中选择Python File，其他语言操作类似。如下图所示：步骤三：编辑launch.json，增加justMyCode": false配置，如下所示。 { "version": "0.2.0", "configurations":

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook

总条数： 1799

上一页
1
...
68
69
70
...
90
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

查找Workflow工作流 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

资源管理 - AI开发平台ModelArts

kv-cache-int8量化 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

附录：部署常见问题 - AI开发平台ModelArts

在ModelArts的VS Code中如何把本地插件安装到远端或把远端插件安装到本地？ - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

访问在线服务支持的访问通道 - AI开发平台ModelArts

访问在线服务支持的传输协议 - AI开发平台ModelArts

日志提示“ValueError: Invalid endpoint: obs.xxxx.com” - AI开发平台ModelArts

订阅免费模型 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

访问在线服务支持的认证方式 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

在ModelArts的Notebook中使用VS Code调试代码无法进入源码怎么办？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线