搜索_华为云

LLM/AIGC/数字人基于Server适配NPU的训练推理指导 - AI开发平台ModelArts

ModelArts提供了丰富的关于Server使用NPU进行训练推理的案例指导，涵盖了LLM大语言模型、AIGC文生图、数字人等主流应用场景。您可单击链接，即可跳转至相应文档查看详细指导。 LLM大语言模型主流开源大模型基于Server适配PyTorch NPU推理指导主流开源大模型基于Server适配ModelLink

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
显存溢出错误 - AI开发平台ModelArts

setting max_split_size_mb to avoid fragmentation. 解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
准备Notebook - AI开发平台ModelArts

准备Notebook ModelArts Notebook云上云下，无缝协同，更多关于ModelArts Notebook的详细资料请查看开发环境介绍。本案例中使用ModelArts的开发环境Notebook部署推理服务进行调试，请按照以下步骤完成Notebook的创建。登录M

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
显存溢出错误 - AI开发平台ModelArts

setting max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

setting max_split_size_mb to avoid fragmentation. 解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

setting max_split_size_mb to avoid fragmentation. 解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

setting max_split_size_mb to avoid fragmentation. 解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

setting max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
导出ModelArts数据集中的数据到AI Gallery - AI开发平台ModelArts

单击许可证类型后面的感叹号可以查看许可证详情。说明：部分许可证网站说明地址是海外网站，用户可能会因网络限制无法访问。谁可以看设置此数据集的公开权限。可选值有： “公开”：表示所有使用AI Gallery的用户都可以查看且使用该资产。 “指定用户”：表示仅特定用户可以查看及使用该资产。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导出ModelArts数据集中的数据
入门案例：快速创建一个物体检测的数据集 - AI开发平台ModelArts

算法类型：快速型其他参数采用默认值。图8 启动智能标注任务查看智能标注任务进度智能标注任务启动后，可以在“待确认”页签下查看智能标注任务进度。当任务完成后，即可在“待确认”页签下查看自动标注好的数据。图9 查看智能标注任务进度确认智能标注结果在智能标注任务完成后，在“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
管理ModelArts模型 - AI开发平台ModelArts

管理ModelArts模型查看ModelArts模型详情查看ModelArts模型事件管理ModelArts模型版本发布ModelArts模型父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
通过自定义镜像创建模型失败 - AI开发平台ModelArts

管理中查看对应用户的授权内容，查看授权详情。如果没有对应权限，需要到统一身份认证服务给对应委托中加上对应权限。图1 权限管理图2 查看权限详情和去IAM修改委托权限图3 给委托添加授权将镜像设置成私有镜像登录容器镜像服务（SWR），左侧导航栏选择“我的镜像”，查看镜像详

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
创建资源池失败 - AI开发平台ModelArts

专属资源池 > 弹性集群 Cluster”，进入“弹性集群 Cluster”页面。您可以通过单击“购买AI专属集群”右侧的“操作记录”，查看当前处于失败状态的资源池信息。图1 创建失败资源池信息鼠标悬停在“状态”列的上，即可看到该操作失败的具体原因。失败的记录默认按照操作

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
监控Lite Cluster资源 - AI开发平台ModelArts

监控Lite Cluster资源使用AOM查看Lite Cluster监控指标使用Prometheus查看Lite Cluster监控指标父主题： Lite Cluster资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
启动DevServer实例 - AI开发平台ModelArts

charging_mode String 计费模式。 COMMON：同时支持包周期和按需 POST_PAID：按需模式 PRE_PAID：包周期 cloud_server CloudServer object 云服务信息。 endpoints_response Array of Endpoints

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
通过AK/SK认证的方式访问在线服务 - AI开发平台ModelArts

示例如下： package com.apig.sdk.demo; import com.cloud.apigateway.sdk.utils.Client; import com.cloud.apigateway.sdk.utils.Request; import org.apache

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
管理训练容器环境变量 - AI开发平台ModelArts

取值范围：10~720 单位：分钟默认值：30 “30” 如何查看训练环境变量在创建训练作业时，“启动命令”输入为“env”，其他参数保持不变。当训练作业执行完成后，在训练作业详情页面中查看“日志”。日志中即为所有的环境变量信息。图1 查看日志父主题：管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

接拖入Ascend Insight进行可视化查看。下载工具源码使用。集群分析工具 MindStudio-Insight 性能可视化工具，采集好的profiling数据可通过该工具进行可视化展示，辅助人工进行profiling数据查看和分析。 windows版本工具，下载链接见教程内。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
准备Notebook（可选） - AI开发平台ModelArts

准备Notebook（可选）本步骤为可选操作。ModelArts Notebook云上云下，无缝协同，更多关于ModelArts Notebook的详细资料请查看Notebook使用场景介绍。本案例中，若用户需要自定义开发，可通过Notebook环境进行数据预处理、权重转换等操作。并且Notebo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
准备Notebook - AI开发平台ModelArts

准备Notebook ModelArts Notebook云上云下，无缝协同，更多关于ModelArts Notebook的详细资料请查看开发环境介绍。本案例中的训练作业需要通过SFS Turbo挂载盘的形式创建，因此需要将上述数据集、代码、权重文件从OBS桶上传至SFS Turbo中。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作

总条数： 1421

上一页
1
...
43
44
45
...
72
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

LLM/AIGC/数字人基于Server适配NPU的训练推理指导 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

导出ModelArts数据集中的数据到AI Gallery - AI开发平台ModelArts

入门案例：快速创建一个物体检测的数据集 - AI开发平台ModelArts

管理ModelArts模型 - AI开发平台ModelArts

通过自定义镜像创建模型失败 - AI开发平台ModelArts

创建资源池失败 - AI开发平台ModelArts

监控Lite Cluster资源 - AI开发平台ModelArts

启动DevServer实例 - AI开发平台ModelArts

通过AK/SK认证的方式访问在线服务 - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

准备Notebook（可选） - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线