搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：图1 抽取kv-cache量化系数注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtyp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：图1 抽取kv-cache量化系数注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtyp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：图1 抽取kv-cache量化系数注意： 1、抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。 2、当前社区vllm只支持float8的kv_cache量化，抽取脚本中dt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
功能总览 - AI开发平台ModelArts
功能总览 - AI开发平台ModelArts

制作模型镜像并导入自定义镜像规范模型包规范在AI应用管理创建AI应用时，如果是从OBS或容器镜像中导入元模型，则需要符合一定的模型包规范。您需要编写对应的推理代码和配置文件，方便后续进行推理部署。说明：由于使用预置算法训练得到的模型，已包含了推理代码和配置文件，所以无需另外编写提供。

帮助中心 > AI开发平台ModelArts > 功能总览
（可选）工作空间配置 - AI开发平台ModelArts

如果您未开通企业项目管理服务的权限，也可以在ModelArts创建自己独立的工作空间，但是无法使用跟企业项目相关的功能。工作空间为白名单功能，使用该功能需要提工单申请开通。父主题：基本配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
更新服务配置 - AI开发平台ModelArts

Object batch服务类型可选。输入参数与csv数据的映射关系，仅当mapping_type为csv时需要填写。映射规则与模型配置文件config.json中输入参数的定义方式相似，只需要在每一个基本类型（string/number/integer/boolean）的参数下配置inde

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
在MaaS中创建模型 - AI开发平台ModelArts

“自定义权重”：使用用户自定义的权重文件，需要先将权重文件上传至OBS桶中。且权重文件必须满足对应模型的文件格式要求，详情请参见约束限制。权重文件指的是模型的参数集合。说明：百川和Llama系列模型只支持自定义权重。自定义权重存储路径当“权重设置与词表”选择“自定义权重”时，需要选择存放模型权重

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtyp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：图1 抽取kv-cache量化系数注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtyp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：图1 抽取kv-cache量化系数注意： 1、抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。 2、当前社区vllm只支持float8的kv_cache量化，抽取脚本中dt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

上传OBS文件到Notebook的代码示例 Step3 启动推理服务配置需要使用的NPU卡为容器中的第几张卡。例如：实际使用的是容器中第1张卡，此处填写“0”。 export ASCEND_RT_VISIBLE_DEVICES=0 如果启动服务需要使用多张卡，则按容器中的卡号依次编排。例如：实际使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

构建超时中断，即会出现“Model image build task timed out”提示，不显示详细的构建日志。处理方法预先准备需要编译下载的依赖包，减少依赖包下载和编译的时间。可通过线下wheel包方式安装运行环境依赖。线下wheel包安装，需确保wheel包与模型文件放在同一目录。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：注意： 1、抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。 2、当前社区vllm只支持float8的kv_cache量化，抽取脚本中dt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：图1 抽取kv-cache量化系数注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtyp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
发布Workflow到AI Gallery - AI开发平台ModelArts

rivate"。否 str group_users 白名单列表，仅支持填写domain_id，当visibility为"group"时才需要填写该字段否 list[str] 根据方法的入参不同，主要可分为以下两种使用场景： Workflow.release_to_galler

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 发布Workflow
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtyp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtyp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtyp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
SFT全参微调训练 - AI开发平台ModelArts

finetune/finetune_ds.sh; Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。在“输入”的输入框内设置变量：DATA、MODEL。 DATA：训练数据集的路径/standa

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
LoRA微调训练 - AI开发平台ModelArts

finetune/finetune_lora_ds.sh Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。在“输入”的输入框内设置变量：DATA、MODEL。 DATA：训练数据集的路径/standa

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）

总条数： 1520

上一页
1
...
56
57
58
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

功能总览 - AI开发平台ModelArts

（可选）工作空间配置 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

发布Workflow到AI Gallery - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线