搜索_华为云

投机推理使用说明 - AI开发平台ModelArts

平均可以生成3个有效token，即用1.5倍的时间代价，生成了3倍的token数量，性能提升了100%。投机推理参数设置在启动离线或在线推理服务时参考表1所示配置参数，使用投机推理功能。表1 投机推理相关参数服务启动方式配置项取值类型配置说明 offline speculative_model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 投机推理
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

D不匹配的情况。如果上述方法还出现了错误，可以去notebook里面调试打印CUDA_VISIBLE_DEVICES变量，或者用以下代码测试，查看结果是否返回的是True。 import torch torch.cuda.is_available() 建议与总结在创建训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
部署推理服务 - AI开发平台ModelArts

(Press CTRL+C to quit) Step7 推理请求使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。方式一：通过OpenAI服务API接口启动服务使用以下推理测试命令。${docker_ip}替换为实际宿主机的IP地址。如果启动服务未添加s

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入2. 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。 per-tensor+per-head静态量化场景

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
依赖和委托 - AI开发平台ModelArts

业务场景依赖的服务委托授权项说明在线服务 LTS lts:groups:create lts:groups:list lts:topics:create lts:topics:delete lts:topics:list 建议配置，在线服务配置LTS日志上报。批量服务 OBS

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

--test_count=3 (随机选择 3个数据作为测试集) user_id: 用户的唯一不重复的ID值，必选。 excel_addr: 待处理的excel文件的地址，必选。 dataset_name: 处理后的数据集名称，必选。 proportion: 测试集所占份数，范围[1,9]，可选。 test_count:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
线下容器镜像构建及调试 - AI开发平台ModelArts

查看日志、错误等，并进行代码、环境变量的修正。预置脚本测试整体流程一般使用run.sh封装训练外的文件复制工作（数据、代码：OBS-->容器，输出结果：容器-->OBS），run.sh的构建方法参考run.sh脚本测试ModelArts训练整体流程。如果预置脚本调用结果不符

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
权限配置 - AI开发平台ModelArts
权限配置 - AI开发平台ModelArts

置、上传对象、获取对象、删除对象、获取对象ACL等对象基本操作权限。配置IAM权限配置ModelArts委托权限配置SWR组织权限测试用户权限父主题：基本配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
新建Workflow Execution - AI开发平台ModelArts

dataset：数据集 obs：OBS swr：SWR model_list：AI应用列表 label_task：标注任务 service：在线服务 conditions 否 Array of Constraint objects 数据约束条件。 value 否 Map<String

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入2. 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。 per-tensor+per-head静态量化场景

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入2. 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。 per-tensor+per-head静态量化场景

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入2. 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。 per-tensor+per-head静态量化场景

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
附录：大模型推理常见问题 - AI开发平台ModelArts

py第39行为SUPPORT_FP16 = True 问题8：使用benchmark-tools对GLM系列模型进行性能测试报错使用benchmark-tools对GLM系列模型进行性能测试报错TypeError: _pad() got an unexpected keyword argument

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
管理Workflow StepExecution - AI开发平台ModelArts

dataset：数据集 obs：OBS swr：SWR model_list：AI应用列表 label_task：标注任务 service：在线服务 conditions 否 Array of Constraint objects 数据约束条件。 value 否 Map<String

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
更新Workflow Execution - AI开发平台ModelArts

dataset：数据集 obs：OBS swr：SWR model_list：AI应用列表 label_task：标注任务 service：在线服务 conditions 否 Array of Constraint objects 数据约束条件。 value 否 Map<String

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
使用ModelArts Studio的Qwen2-7B模型框架实现对话问答 - AI开发平台ModelArts

越大，生成文本的多样性就越高。 1 top_k 选择在模型的输出结果中选择概率最高的前K个结果。 20 在对话框中输入问题，查看返回结果，在线体验对话问答。图7 体验模型服务后续操作如果不再需要使用此模型服务，建议清除相关资源，避免产生不必要的费用。在MaaS服务的“模型

 帮助中心 > AI开发平台ModelArts > 快速入门
ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

--rank <rank> --save_steps=5 --max_steps 100 <cfgs_yaml_file>：性能或精度测试配置的yaml文件地址，如代码目录中performance_cfgs.yaml、accuracy_cfgs.yaml相对或绝对路径，根据自己要求执行

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
分离部署推理服务 - AI开发平台ModelArts

--port：服务部署的端口，注意如果不同实例部署在一台机器上，不同实例需要使用不同端口号。分离部署对外服务使用的是scheduler实例端口，在后续推理性能测试和精度测试时，服务端口需要和scheduler实例端口保持一致。 --model：HuggingFace下载的官方权重 --max-num-seqs：同时处理的最大句子数量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
执行训练任务（历史版本） - AI开发平台ModelArts

sh; sh ./scripts_modellink/dev_pipeline.sh 命令详解如下： <cfgs_yaml_file>：性能测试配置的yaml文件地址，如代码目录中performance_cfgs.yaml相对或绝对路径。 <model_name>：训练模型名，如qwen2-7b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
非分离部署推理服务 - AI开发平台ModelArts

(Press CTRL+C to quit) Step7 推理请求使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。方式一：通过OpenAI服务API接口启动服务使用以下推理测试命令。${docker_ip}替换为实际宿主机的IP地址。如果启动服务未添加s

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务

总条数： 507

上一页
1
...
20
21
22
...
26
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

投机推理使用说明 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

依赖和委托 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

线下容器镜像构建及调试 - AI开发平台ModelArts

权限配置 - AI开发平台ModelArts

新建Workflow Execution - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

管理Workflow StepExecution - AI开发平台ModelArts

更新Workflow Execution - AI开发平台ModelArts

使用ModelArts Studio的Qwen2-7B模型框架实现对话问答 - AI开发平台ModelArts

ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线