搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。 Step1使用tensorRT量化工具进行模型量化在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化，工具下载使用指导请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
Workflow工作流管理 - AI开发平台ModelArts

删除Workflow工作流查询Workflow工作流修改Workflow工作流总览Workflow工作流查询Workflow待办事项在线服务鉴权创建在线服务包获取Execution列表新建Workflow Execution 删除Workflow Execution 查询Workflow

帮助中心 > AI开发平台ModelArts > API参考
run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

ModelArts上进行训练比本地训练多了一步OBS和容器环境的数据迁移工作。增加了和OBS交互工作的整个训练流程如下：建议使用OBSutil作为和OBS交互的工具，如何在本机安装obsutil可以参考obsutil安装和配置。训练数据、代码、模型下载。（本地使用硬盘挂载或者docker cp，在ModelArts上使用OBSutil）

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

本教程需要使用到的AscendCloud-3rdLLM-xxx.zip软件包中的关键文件介绍如下。 ├──llm_tools #推理工具包 ├──llm_evaluation #推理评测代码包 ├──benchmark_eval # 精度评测

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
在Workflow中更新已部署的服务 - AI开发平台ModelArts

其中ServiceStep节点包含两个输入，一个是模型列表对象，另一个是在线服务对象，此时在运行态通过开关的方式来控制部署/更新服务，如下图所示：在线服务开关默认关闭，节点走部署服务的流程；如果需要更新服务，则手动打开开关，选择相应的在线服务即可。进行服务更新时，需要保证被更新的服务所使用的模型与配置的模型名称相同。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。 Step1使用tensorRT量化工具进行模型量化在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化，工具下载使用指导请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。 Step1使用tensorRT量化工具进行模型量化在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化，工具下载使用指导请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
MaaS使用场景和使用流程 - AI开发平台ModelArts

MaaS使用场景和使用流程 ModelArts Studio大模型即服务平台（后续简称为MaaS服务），提供了简单易用的模型开发工具链，支持大模型定制开发，让模型应用与业务系统无缝衔接，降低企业AI落地的成本与难度。当您第一次使用MaaS服务时，可以参考快速入门使用ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
查询服务监控信息 - AI开发平台ModelArts

表5 Monitor 参数参数类型描述 failed_times Integer 模型实例调用失败次数，在线服务字段。 model_version String 模型版本，在线服务字段。 cpu_memory_total Integer 总内存，单位MB。 gpu_usage Float

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

单击操作列“部署>在线服务”，将模型部署为在线服务。图6 部署在线服务在“部署”页面，参考下图填写参数，然后根据界面提示完成在线服务创建。本案例适用于CPU规格，节点规格需选择CPU。如果有免费CPU规格，可选择免费规格进行部署（每名用户限部署一个免费的在线服务，如果您已经部

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练
分布式训练功能介绍 - AI开发平台ModelArts

丰富的教程，帮助用户快速适配分布式训练，使用分布式训练极大减少训练时间。分布式训练调测的能力，可在PyCharm/VSCode/JupyterLab等开发工具中调试分布式训练。约束限制总览页面打开的CodeLab不支持此项功能，但是如果用户在AI Hub中打开了可用的案例，会自动跳转到CodeLab中，此时是可以使用这项功能的。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
在ModelArts控制台查看监控指标 - AI开发平台ModelArts

标训练作业：用户在运行训练作业时，可以查看多个计算节点的CPU、GPU、NPU资源使用情况。具体请参见训练资源监控章节。在线服务：用户将模型部署为在线服务后，可以通过监控功能查看CPU、内存、GPU等资源使用统计信息和模型调用次数统计，具体参见查看服务详情章节。父主题： ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

Megatron-DeepSpeed Megatron-DeepSpeed是一个基于PyTorch的深度学习模型训练框架。它结合了两个强大的工具：Megatron-LM和DeepSpeed，可在具有分布式计算能力的系统上进行训练，并且充分利用了多个GPU和深度学习加速器的并行处理能力。可以高效地训练大规模的语言模型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

使用ModelArts VSCode插件调试训练ResNet50图像分类模型应用场景 Notebook等线上开发工具工程化开发体验不如IDE，但是本地开发服务器等资源有限，运行和调试环境大多使用团队公共搭建的CPU或GPU服务器，并且是多人共用，这带来一定的环境搭建和维护成本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
使用GPTQ量化 - AI开发平台ModelArts

有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ (huggingface.co)量化模型权重，然后在NPU的机器上实现推理量化。具体操作如下：开始之前，请确保安装了以下库：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

Server上配置DCGM监控，用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具，提供多种能力，包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。约束限制仅适用于GPU资源监控。前提条件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
推理部署使用场景 - AI开发平台ModelArts

部署服务：模型构建完成后，根据您的业务场景，选择将模型部署成对应的服务类型。将模型部署为实时推理作业将模型部署为一个Web Service，并且提供在线的测试UI与监控功能，部署成功的在线服务，将为用户提供一个可调用的API。将模型部署为批量推理服务批量服务可对批量数据进行推理，完成数据处理后自动停止。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
使用CodeLab免费体验Notebook - AI开发平台ModelArts

CodeLab内置了免费算力，包含CPU和GPU两种。您可以使用免费规格，端到端体验ModelArts Notebook能力。也可使用此免费算力，在线完成您的算法开发。即开即用无需创建Notebook实例，打开即可编码。高效分享 ModelArts在AI Gallery中提供的Notebook样例，可以直接通过Run

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
查询服务详情 - AI开发平台ModelArts

服务当前运行所用配置的更新时间，距“1970.1.1 0:0:0 UTC”的毫秒数。 debug_url String 在线服务在线调试地址，只有当模型支持在线调试且只有一个实例的时候会存在。 due_time Number 在线服务自动停止时间，距“1970.1.1 0:0:0 UTC”的毫秒数，未配置自动停止则不返回。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

1009”：“AppKey or AppSecret is invalid”。查询AppKey和AppSecret，使用APP认证访问在线服务，请参考访问在线服务（APP认证）。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测

总条数： 689

上一页
1
...
14
15
16
...
35
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

Workflow工作流管理 - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

在Workflow中更新已部署的服务 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

MaaS使用场景和使用流程 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

分布式训练功能介绍 - AI开发平台ModelArts

在ModelArts控制台查看监控指标 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

推理部署使用场景 - AI开发平台ModelArts

使用CodeLab免费体验Notebook - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线