搜索_华为云

使用AWQ量化工具转换权重 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表1。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化，量化方法为per-group。 Step1 模型量化可以在Huggingface开源社区获取

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：per-group Step1 模型量化可以在Huggingface开源社区获取AWQ量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：per-group Step1 模型量化可以在Huggingface开源社区获取AWQ量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
配置节点参数控制分支执行 - AI开发平台ModelArts

创建节点、数据集标注节点、数据集导入节点、数据集版本发布节点、作业类型节点、模型注册节点以及服务部署节点。控制单节点的执行通过参数配置实现 from modelarts import workflow as wf condition_equal = wf.steps.Con

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

如果训练失败，则会执行sleep命令，此时可通过Cloud Shell登录容器镜像中调试。在Cloud Shell中调试多节点训练作业时，需要在Cloud Shell中切换work0、work1来实现对不同节点下发启动命令，否则任务会处于等待其他节点的状态。如何防止Cloud Shell的Session断开

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
LLaVA模型基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

LLaVA是一种新颖的端到端训练的大型多模态模型，它结合了视觉编码器和Vicuna，用于通用的视觉和语言理解，实现了令人印象深刻的聊天能力，在科学问答（Science QA）上达到了新的高度。本文档主要介绍如何利用ModelArts Lite DevServer，使用PyTorch_npu+华为自研Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

本地与ModelArts上训练对比 ModelArts上进行训练比本地训练多了一步OBS和容器环境的数据迁移工作。增加了和OBS交互工作的整个训练流程如下：建议使用OBSutil作为和OBS交互的工具，如何在本机安装obsutil可以参考obsutil安装和配置。训练数据、代码、模型下载。（本地使用硬盘挂载或者docker

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linu

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
LLaVA模型基于DevServer适配PyTorch NPU预训练指导（6.3.906） - AI开发平台ModelArts

LLaVA是一种新颖的端到端训练的大型多模态模型，它结合了视觉编码器和Vicuna，用于通用的视觉和语言理解，实现了令人印象深刻的聊天能力，在科学问答（Science QA）上达到了新的高度。本文档主要介绍如何利用ModelArts Lite DevServer，使用PyTorch_npu+华为自研Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
如何对OBS的文件重命名？ - AI开发平台ModelArts

如何对OBS的文件重命名？由于OBS管理控制台不支持对OBS的文件重命名，当您需要对OBS文件进行重命名时需要通过调用MoXing API实现，在已有的或者新创建的Notebook中，执行如下命令，通过接口对OBS中的文件进行重命名。具体操作如下：如下示例为将文件“obs_file

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 数据存储
创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题问题现象创建模型成功后，部署服务失败，如何定位是模型代码编写有问题。原因分析用户自定义镜像或者通过基础镜像导入的模型时，用户自己编写了很多自定义的业务逻辑，这些逻辑有问题将会导致服务部署或者预测失败，需要能够排查出哪里有问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
（可选）配置镜像预热 - AI开发平台ModelArts

（可选）配置镜像预热 Lite Cluster资源池支持镜像预热功能，镜像预热可实现将镜像提前在资源池节点上拉取好，在推理及大规模分布式训练时有效缩短镜像拉取时间。本文将介绍如何配置镜像预热功能。操作步骤在ModelArts控制台左侧导航栏中找到“资源管理 > AI专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
专属资源池购买后，中途扩容了一个节点，如何计费？ - AI开发平台ModelArts

专属资源池购买后，中途扩容了一个节点，如何计费？华为云会重新计算一个增加了该节点的账单，付费以后才能使用。父主题： Standard资源池

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard资源池
在ModelArts中如何查看OBS目录下的所有文件？ - AI开发平台ModelArts

在ModelArts中如何查看OBS目录下的所有文件？在使用Notebook或训练作业时，需要查看目录下的所有文件，您可以通过如下方式实现：通过OBS管理控制台进行查看。使用当前账户登录OBS管理控制台，去查找对应的OBS桶、文件夹、文件。通过接口判断路径是否存在。在已有

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？场景描述本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。前提条件 GPU A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用kv-cache-int8量化 - AI开发平台ModelArts

F16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见表1。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。 Step1使用tensorRT量化工具进行模型量化使用tensorRT 0.9.0版本工具进行模型量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志 - AI开发平台ModelArts

通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志问题现象用户通过OBS导入模型时，选择使用基础镜像，用户自己编写了部分推理代码实现自己的推理逻辑，出现故障后希望通过故障日志排查定位故障原因，但是通过logger打印日志无法在“在线服务”的日志中查看到部分内容。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 benchmark方法介绍静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 benchmark方法介绍静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理性能测试

总条数： 1073

上一页
1
...
6
7
8
...
54
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

配置节点参数控制分支执行 - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

LLaVA模型基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

LLaVA模型基于DevServer适配PyTorch NPU预训练指导（6.3.906） - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

如何对OBS的文件重命名？ - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

（可选）配置镜像预热 - AI开发平台ModelArts

专属资源池购买后，中途扩容了一个节点，如何计费？ - AI开发平台ModelArts

在ModelArts中如何查看OBS目录下的所有文件？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线