搜索_华为云

语言模型推理性能测试 - AI开发平台ModelArts

重路径。backend取值是openai时，tokenizer路径需要和推理服务启动时--model路径保持一致，比如--model /data/nfs/model/llama_7b， --tokenizer也需要为/data/nfs/model/llama_7b，两者要完全一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理性能测试
Hunyuan-DiT基于DevServer部署适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
Paraformer基于DevServer适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.

帮助中心 > AI开发平台ModelArts > 最佳实践 > 内容审核模型训练推理
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtyp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

able to process the new request 原因分析该报错是因为发送预测请求后，服务出现停止后又启动的情况。处理方法需要您检查服务使用的镜像，确定服务停止的原因，修复问题。重新创建模型部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

供的容器中运行，其环境规格（如CPU规格，GPU规格）由表3 predictor configs结构决定。部署在线服务Predictor需要线上服务端根据AI引擎创建容器，较耗时；本地Predictor部署较快，最长耗时10s，可用以测试模型，不建议进行模型的工业应用。当前版

 帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

#tokenizer目录，需要用户手动创建，后续操作步骤中会提示 |── Llama2-70B |── models #原始权重与tokenizer目录，需要用户手动创建，后续操作步骤中会提示

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

#tokenizer目录，需要用户手动创建，后续操作步骤中会提示 |── Llama2-70B |── models #原始权重与tokenizer目录，需要用户手动创建，后续操作步骤中会提示

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
附录：大模型推理常见问题 - AI开发平台ModelArts

drived max_model_len 解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。 config.json存在模型对应的路径下，例如：/data/nfs/benchmark/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Standard运行，需要购买ModelArts专属资源池。准备权重准备对应模型的权重文件。准备代码准备AscendCloud-6.3.906-xxx.zip。准备镜像准备推理模型适用的容器镜像。准备Notebook 本案例在Notebook上部署推理服务进行调试，因此需要创建Notebook。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
在Dify中配置支持Function Calling的模型使用 - AI开发平台ModelArts

MaaS鉴权管理界面中创建的API Key。具体操作，请参见步骤1：获取API Key。 API Endpoint URL 服务调用界面中MaaS服务的基础API地址，需要去掉地址尾部的“/chat/completions” 。具体操作，请参见步骤2：调用MaaS模型服务进行预测。 Function calling

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 通过Function Calling扩展大语言模型交互能力
在MaaS中创建模型 - AI开发平台ModelArts

“自定义权重”：使用用户自定义的权重文件，需要先将权重文件上传至OBS桶中。且权重文件必须满足对应模型的文件格式要求，详情请参见约束限制。权重文件指的是模型的参数集合。说明：百川和Llama系列模型只支持自定义权重。自定义权重存储路径当“权重设置与词表”选择“自定义权重”时，需要选择存放模型权重

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
附录：大模型推理常见问题 - AI开发平台ModelArts

drived max_model_len 解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。 config.json存在模型对应的路径下，例如：/data/nfs/benchmark/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
在ModelArts的Notebook中使用VS Code调试代码无法进入源码怎么办？ - AI开发平台ModelArts

json file。如下图所示：方法二：单击上侧菜单栏中的Run > Open configurations按钮步骤二：选择语言如果需要对Python语言进行设置，在弹出的Select a debug configuration中选择Python File，其他语言操作类似。如下图所示：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
更新服务配置 - AI开发平台ModelArts

Object batch服务类型可选。输入参数与csv数据的映射关系，仅当mapping_type为csv时需要填写。映射规则与模型配置文件config.json中输入参数的定义方式相似，只需要在每一个基本类型（string/number/integer/boolean）的参数下配置inde

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
审核并验收团队标注任务结果 - AI开发平台ModelArts

全部通过：被驳回的样本，也会通过。全部驳回：已经通过的样本，需要重新标注，下次验收时重新进行审核。剩余全部通过：已经驳回的会驳回，其余会自动验收通过。剩余全部驳回：样本抽中的通过的，不需要标注了，未通过和样本未抽中的需要重新标注验收。图10 完成验收查看验收报告针对进行中

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过团队标注方式标注数据
功能总览 - AI开发平台ModelArts
功能总览 - AI开发平台ModelArts

制作模型镜像并导入自定义镜像规范模型包规范在AI应用管理创建AI应用时，如果是从OBS或容器镜像中导入元模型，则需要符合一定的模型包规范。您需要编写对应的推理代码和配置文件，方便后续进行推理部署。说明：由于使用预置算法训练得到的模型，已包含了推理代码和配置文件，所以无需另外编写提供。

帮助中心 > AI开发平台ModelArts > 功能总览
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：图1 抽取kv-cache量化系数注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtyp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：图1 抽取kv-cache量化系数注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtyp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：图1 抽取kv-cache量化系数注意： 1、抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。 2、当前社区vllm只支持float8的kv_cache量化，抽取脚本中dt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化

总条数： 1509

上一页
1
...
55
56
57
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

语言模型推理性能测试 - AI开发平台ModelArts

Hunyuan-DiT基于DevServer部署适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

Paraformer基于DevServer适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

在Dify中配置支持Function Calling的模型使用 - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

在ModelArts的Notebook中使用VS Code调试代码无法进入源码怎么办？ - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

审核并验收团队标注任务结果 - AI开发平台ModelArts

功能总览 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线