搜索_华为云

ModelArts中常用概念 - AI开发平台ModelArts

自动学习功能可以根据标注数据自动设计模型、自动调参、自动训练、自动压缩和部署模型，不需要代码编写和模型开发经验。只需三步，标注数据、自动训练、部署模型，即可完成模型构建。端-边-云端-边-云分别指端侧设备、智能边缘设备、公有云。推理指按某种策略由已知判断推出新判断的思维过程。人工智

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
推理场景介绍 - AI开发平台ModelArts

软件配套版本本方案支持的软件配套版本和依赖包获取地址如表2所示。表2 软件配套版本和获取地址软件名称说明下载地址 AscendCloud-6.3.911-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的推理部署代码和推理评测代码、推理依赖的算子包

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
推理场景介绍 - AI开发平台ModelArts

Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。支持的模型列表和权重文件本方案支持vLLM的v0.6.3版本。不同vLLM版本支持的模型列表有差异，具体如表1所示。表1 支持的模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
msprobe精度分析工具使用指导 - AI开发平台ModelArts

否 mode 确定性计算模式。可配置True或False。参数示例：mode=True。默认值：False。即使在相同的硬件和输入下，API多次执行的结果也可能不同，开启确定性计算是为了保证在相同的硬件和输入下，API多次执行的结果相同。确定性计算会导致API执行性能降低

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
推理场景介绍 - AI开发平台ModelArts

Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。支持的模型列表和权重文件本方案支持vLLM的v0.6.0版本。不同vLLM版本支持的模型列表有差异，具体如表1所示。表1 支持的模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

方案概览本文档介绍了在ModelArts的Standard上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程，利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

方案概览本文档介绍了在ModelArts的Standard上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程，利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
精度调优前准备工作 - AI开发平台ModelArts

PP：流水线并行将模型的不同层放置到不同的计算设备，降低单个计算设备的显存消耗，从而实现超大规模模型训练。流水线并行也叫层间并行，层输入输出的依赖性使得设备需要等待前一步的输出，通过batch进一步切分成微batch，网络层在多个设备上的特殊安排和巧妙的前向后向计算调度，可以最大程度减小设备等待（计算空泡），从而提高训练效率。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
msprobe梯度监控 - AI开发平台ModelArts

将模型权重的梯度数据导出。这种功能可以将模型权重的梯度值以统计量的形式采集出来，用以分析问题，例如检测确定性问题，使用训练状态监控工具监控NPU训练过程中的确定性计算问题。将两份梯度数据进行相似度对比。在有标杆问题中，可以确认训练过程中精度问题出现的Step，以及抓取反向过程中的问题。使用步骤如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
Chunked Prefill - AI开发平台ModelArts

降低时延：通过平衡prefill和decode的计算利用率，降低请求P90_ttft（time to first token）、P90_tpot(time per output token)时延。在短输入、短输出且高并发的场景优势明显。约束限制该特性不能和PD分离、Prefix Cache、KV

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
Chunked Prefill - AI开发平台ModelArts

降低时延：通过平衡prefill和decode的计算利用率，降低请求P90_ttft（time to first token）、P90_tpot(time per output token)时延。在短输入、短输出且高并发的场景优势明显。约束限制该特性不能和PD分离、Prefix Cache、KV

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用
部署模型为在线服务 - AI开发平台ModelArts

源会略大于该规格。 “实例数” 设置当前版本模型的实例个数。如果实例数设置为1，表示后台的计算模式是单机模式；如果实例数设置大于1，表示后台的计算模式为分布式的。请根据实际编码情况选择计算模式。 “环境变量” 设置环境变量，注入环境变量到容器实例。为确保您的数据安全，在环境变量中，请勿输入敏感信息，如明文密码。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
【下线公告】华为云ModelArts旧版自动学习下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts旧版自动学习下线公告华为云ModelArts在2024年5月15日 00:00（北京时间）用新版自动学习全面替代旧版自动学习，旧版自动学习正式下线。下线范围下线区域：华为云全部Region 下线影响正式下线后，用户将无法再使用旧版自动学

 帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
【下线公告】华为云ModelArts自动学习模块的文本分类功能下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts自动学习模块的文本分类功能下线公告华为云计划于2024/12/06 00:00（北京时间）将AI开发平台ModelArts自动学习模块的文本分类功能正式下线。下线范围下线Region：华为云全部Region。下线影响 ModelArts

帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
训练作业容错检查 - AI开发平台ModelArts

业务失败&硬件正常隔离故障节点后，系统会在新的计算节点上重新创建训练作业。如果资源池规格紧张，重新下发的训练作业会以第一优先级进行排队。如果排队时间超过30分钟，训练作业会自动退出。该现象表明资源池规格任务紧张，训练作业无法正常启动，推荐您购买专属资源池补充计算节点。如果您使用专属资源池创建

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
PD分离部署性能调优理论基础 - AI开发平台ModelArts

fill生产速率（计算量增加），同时也降低Decode消费速率（KV Cache访存增加），增加P和D实例可以提高生产和消费速率。因此，PD分离系统良好运行的关键在于满足时延SLO约束下，那么面对不同的请求分布，尽可能提高这三种速率。PD配比寻优保持一个原则：使Prefill速

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 分离部署
SDK简介 - AI开发平台ModelArts
SDK简介 - AI开发平台ModelArts

Spark任务提交能力，支持服务部署到推理新版专属资源池。支持的区域当前支持的“region_name”包括华北-北京一（cn-north-1）、华北-北京四（cn-north-4）、华东-上海一（cn-east-3）、华南-广州（cn-south-1）、乌兰一（cn-north-9）。

帮助中心 > AI开发平台ModelArts > SDK参考
将AI Gallery中的模型部署为AI应用 - AI开发平台ModelArts

选择AI应用遵循的许可证。计算规格选择是按需选择计算规格。单击“选择”，在弹窗中选择资源规格并设置运行时长控制，单击“确定”。在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据，AI G

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
配置Lite Cluster存储 - AI开发平台ModelArts

静态挂载动态挂载：不支持 SFS 适用于多读多写场景的持久化存储。适用大容量扩展以及成本敏感型的业务场景，包括媒体处理、内容管理、大数据分析和分析工作负载程序等。 SFS容量型文件系统不适合海量小文件业务。静态挂载动态挂载 EVS 适用于Notebook场景，开发过程的数据持久化。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
Open-Clip基于Lite Server适配PyTorch NPU训练指导 - AI开发平台ModelArts

Server适配PyTorch NPU训练指导 Open-Clip广泛应用于AIGC和多模态视频编码器的训练。方案概览本方案介绍了在ModelArts的Lite Server上使用昇腾NPU计算资源开展Open-clip训练的详细过程。完成本方案的部署，需要先联系您所在企业的华为方技术支持购买Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理

总条数： 597

上一页
1
...
8
9
10
...
30
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ModelArts中常用概念 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

msprobe梯度监控 - AI开发平台ModelArts

Chunked Prefill - AI开发平台ModelArts

Chunked Prefill - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

【下线公告】华为云ModelArts旧版自动学习下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts自动学习模块的文本分类功能下线公告 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

PD分离部署性能调优理论基础 - AI开发平台ModelArts

SDK简介 - AI开发平台ModelArts

将AI Gallery中的模型部署为AI应用 - AI开发平台ModelArts

配置Lite Cluster存储 - AI开发平台ModelArts

Open-Clip基于Lite Server适配PyTorch NPU训练指导 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线