搜索_华为云

推理性能测试 - AI开发平台ModelArts

最小长度，可以根据实际需求设置。 --max-input：输入tokens最大长度，可以根据实际需求设置。 --avg-input：输入tokens长度平均值，可以根据实际需求设置。 --std-input：输入tokens长度方差，可以根据实际需求设置。 --min-outpu

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
部署推理服务 - AI开发平台ModelArts

16,32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
推理性能测试 - AI开发平台ModelArts

最小长度，可以根据实际需求设置。 --max-input：输入tokens最大长度，可以根据实际需求设置。 --avg-input：输入tokens长度平均值，可以根据实际需求设置。 --std-input：输入tokens长度方差，可以根据实际需求设置。 --min-outpu

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
不允许子账号使用公共资源池创建作业 - AI开发平台ModelArts

身份认证（IAM）服务。在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”，单击右上角的“创建自定义策略”，设置策略，单击“确定”。 “策略名称”：设置自定义策略名称，例如：不允许用户使用公共资源池创建。 “策略配置方式”：选择可视化视图或者JSON视图均可。 “策略内

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
非分离部署推理服务 - AI开发平台ModelArts

16,32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
查询训练作业指定任务的日志（OBS链接） - AI开发平台ModelArts

表2 请求Header参数参数是否必选参数类型描述 Content-Type 否 String 消息体的类型。设置为text/plain，返回临时预览链接。设置为application/octet-stream，返回临时下载链接。响应参数状态码：200 表3 响应Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
（可选）Session鉴权 - AI开发平台ModelArts

者环境变量中密文存放，使用时解密，确保安全； # 本示例以password保存在环境变量中来实现身份验证为例，运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_PASSWORD。 __PASSWORD = os.environ["HUAWEICLOUD_SDK_PASSWORD"]

帮助中心 > AI开发平台ModelArts > SDK参考 > Session鉴权
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：不同模型训练推荐的NPU卡数请参见不同模型推荐的参数与NPU卡数设置。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。 Ascend: 8*ascend-snt9b表示昇腾8卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作
管理同步在线服务 - AI开发平台ModelArts

查看在线服务详情查看在线服务的事件管理在线服务生命周期修改在线服务配置在云监控平台查看在线服务性能指标集成在线服务API至生产环境中应用设置在线服务故障自动重启父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
使用PyCharm Toolkit插件连接Notebook - AI开发平台ModelArts

查看运行日志也可以单击本地IDE右上角的Run/Debug Configuration按钮来设置运行参数。图11 设置运行参数（1）选择远程连接到云上开发环境实例对应的Python解释器。图12 设置运行参数（2）当需要调试代码时，可以直接打断点，然后使用debug方式运行程序。图13

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过PyCharm远程使用Notebook实例
在推理生产环境中部署推理服务 - AI开发平台ModelArts

登录ModelArts控制台，单击“AI应用管理 > AI应用 > 创建”，开始创建AI应用。图2 创建AI应用设置创建AI应用的相应参数。此处仅介绍关键参数，设置AI应用的详细参数解释请参见从OBS中选择元模型。根据需要自定义应用的名称和版本。模型来源选择“从对象存储服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
推理场景介绍 - AI开发平台ModelArts

#安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字相关文档和本文档配套的模型训练文档请

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
精度调优前准备工作 - AI开发平台ModelArts

在定位精度问题之前，首先需要排除训练脚本及参数配置等差异的干扰。目前大部分精度无法对齐的问题都是由于模型超参数、Python三方库版本、模型源码等与标杆环境（GPU/CPU）设置的不一致导致，为了在定位过程中少走弯路，需要在定位前先对训练环境及代码做有效排查。此外，问题定位主要基于GPU环境和NPU环境上运行的过程

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
创建IAM用户并授权使用MaaS - AI开发平台ModelArts

其依赖服务的权限，并结合实际需求进行选择，MaaS服务支持的系统权限，请参见表1。表1 服务授权列表待授权的服务授权说明 IAM权限设置是否必选 ModelArts 授予子用户使用ModelArts服务的权限。 ModelArts CommonOperations没有任何

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 配置MaaS访问授权
非分离部署推理服务 - AI开发平台ModelArts

16,32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
查看诊断报告 - AI开发平台ModelArts

环境变量Environment Variable Issues 识别模型训练环境中设置的昇腾相关环境变量并给出建议。图6 环境变量分析表2 当前支持的环境变量环境变量名称释义 ASCEND_GLOBAL_LOG_LEVEL plog日志级别，推荐设置为2（warning级别），低级别日志等级会导致cpu侧性能问题。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
在推理生产环境中部署推理服务 - AI开发平台ModelArts

登录ModelArts控制台，单击“AI应用管理 > AI应用 > 创建”，开始创建AI应用。图2 创建AI应用设置创建AI应用的相应参数。此处仅介绍关键参数，设置AI应用的详细参数解释请参见从OBS中选择元模型。根据需要自定义应用的名称和版本。模型来源选择“从对象存储服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

昇腾多卡训练任务是多进程多卡模式，跑几卡需要起几个python进程。昇腾底层会读取环境变量：RANK_TABLE_FILE，开发环境已经设置，用户无需关注。比如跑八卡，可以如下片段代码： export RANK_SIZE=8 current_exec_path=$(pwd)

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
部署推理服务 - AI开发平台ModelArts

PTA_TORCHAIR_DECODE_GEAR_LIST=2,4,6,8,16,32 # 设置动态分档的挡位，根据实际情况设置，另外请不要设置挡位1 export VLLM_ENGINE_ITERATION_TIMEOUT_S=900 # 设置vllm请求超时时间图模式主要针对小模型的场景，可减少算子下发的瓶颈，目前仅针对Qwen2-1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
附录：config.json文件 - AI开发平台ModelArts

s的和。config.json文件中默认是16k，用户可以根据自己的推理场景设置。 maxInputTokenLen：输入最大长度。config.json文件中默认是15k，用户可以根据自己的推理场景设置。 maxPrefillTokens：最大prefill token数。和m

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导

总条数： 1088

上一页
1
...
22
23
24
...
55
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理性能测试 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

不允许子账号使用公共资源池创建作业 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

查询训练作业指定任务的日志（OBS链接） - AI开发平台ModelArts

（可选）Session鉴权 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

管理同步在线服务 - AI开发平台ModelArts

使用PyCharm Toolkit插件连接Notebook - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

创建IAM用户并授权使用MaaS - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

附录：config.json文件 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线