搜索_华为云

显存溢出错误 - AI开发平台ModelArts

可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
使用ModelArts Standard部署模型并推理预测 - AI开发平台ModelArts

Standard部署模型并推理预测推理部署使用场景创建模型创建模型规范参考将模型部署为实时推理作业将模型部署为批量推理服务管理ModelArts模型管理同步在线服务管理批量推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
上传数据至OBS（首次使用时需要） - AI开发平台ModelArts

像构建及调试与单机单卡相同。上传镜像，参考单机单卡训练的上传镜像章节操作。操作步骤登录Imagenet数据集下载官网地址，下载Imagenet21k数据集：http://image-net.org/ 下载格式转换后的annotation文件：ILSVRC2021winner21k_whole_map_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
计费FAQ - AI开发平台ModelArts
计费FAQ - AI开发平台ModelArts

如何查看ModelArts中正在收费的作业？如何查看ModelArts消费详情？如果不再使用ModelArts，如何停止收费？为什么项目删除完了，仍然还在计费？欠费后，ModelArts的资源是否会被删除？ ModelArts Standard数据管理相关计费FAQ ModelArts

帮助中心 > AI开发平台ModelArts > 计费说明
训练作业容错检查 - AI开发平台ModelArts

补充健康的计算节点至专属资源池。（该功能即将上线）容错检查详细介绍请参考：开启容错检查检测项目与执行条件触发容错环境检测达到的效果环境预检查通过后，如果发生硬件故障会导致用户业务中断。您可以在训练中补充reload ckpt的代码逻辑，使能读取训练中断前保存的预训练模型。指导请参考设置断点续训练。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
开启训练故障自动重启功能 - AI开发平台ModelArts

int机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint接续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置接续训练，加载中断生成的checkpoint，中

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
非分离部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
历史API - AI开发平台ModelArts
历史API - AI开发平台ModelArts

历史API 数据管理（旧版）开发环境（旧版）训练管理（旧版）

帮助中心 > AI开发平台ModelArts > API参考
内存不足如何处理？ - AI开发平台ModelArts

运行中服务出现告警时，需要分析是您的代码是否出现漏洞导致内存溢出、是否因为业务使用量太大需要更多的内存。如果因业务原因需要更多内存，请升级在线服务选择更大内存规格的计算节点。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

launch命令启动训练作业。创建训练作业的关键参数如表2所示。表2 创建训练作业（自定义镜像+torch.distributed.launch命令）参数名称说明创建方式选择“自定义算法”。启动方式选择“自定义”。镜像选择用于训练的PyTorch镜像。代码目录选择

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
一般性问题 - AI开发平台ModelArts

什么是ModelArts ModelArts与其他服务的关系 ModelArts与DLS服务的区别？如何购买或开通ModelArts？支持哪些型号的Ascend芯片？如何获取访问密钥？如何上传数据至OBS？提示“上传的AK/SK不可用”，如何解决？使用ModelArts时提示“权限不足”，如何解决？

帮助中心 > AI开发平台ModelArts > 常见问题
下线公告 - AI开发平台ModelArts
下线公告 - AI开发平台ModelArts

下线公告【下线公告】华为云ModelArts自动学习下线公告【下线公告】华为云ModelArts自动学习模块的文本分类功能下线公告【下线公告】华为云ModelArts服务旧版数据集下线公告【下线公告】华为云ModelArts服务模型转换下线公告【下线公告】华为云ModelArts

帮助中心 > AI开发平台ModelArts > 服务公告
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

发现“no-auto-default=*”是打开的状态，“no-auto-default=*”含义是关闭DH Client，无法使用DHCP获取IP。正常情况下裸金属服务器这个参数是被注释的状态。当服务器有网卡配置文件， NetworkManager.service实现将VPC子网分配的私有IP写入网卡配置文件中。NetworkManager

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
MA-Advisor使用指导 - AI开发平台ModelArts

命令执行后生成对应算子类型查询到的详细信息的“ma-advisor*.xlsx”文件，将会给出相关算子的Taskid，以及给出对应算子的堆栈信息。图14 生成结果表5 参数解释参数缩写是否必填说明 --data-dir -d 必填代表存储Profiling单卡性能数据的目录，目录下需包含trace_view

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > MA-Advisor自动诊断工具使用指导
数据导入方式介绍 - AI开发平台ModelArts

）和本地上传。数据集中的数据导入入口数据集中的数据导入有5个入口。创建数据集时直接从设置的数据导入路径中自动同步数据。创建完数据集后，在数据集列表页面的操作栏单击“导入”，导入数据。图1 在数据集列表页导入数据在数据集列表页面，单击某个数据集的名称，进入数据集详情页中，单击“导入>导入”，导入数据。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
计费项 - AI开发平台ModelArts
计费项 - AI开发平台ModelArts

计费项自动学习/Workflow计费项数据管理计费项开发环境计费项模型训练计费项模型管理计费项推理部署计费项专属资源池计费项

 帮助中心 > AI开发平台ModelArts > 计费说明
大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

BS中读取文件，导致训练过程一直在等待文件读取，效率低。解决方法建议将海量小文件，在本地压缩打包。例如打包成.zip格式。将此压缩后的文件上传至OBS。训练时，可直接从OBS下载此压缩文件至/cache目录。此操作仅需执行一次，无需训练过程反复与OBS交互导致训练效率低。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

running”状态代表启动成功。 kubectl get pod -A 进入容器，{pod_name}替换为您的pod名字（get pod中显示的名字），{namespace}替换为您的命名空间（默认为default）。 kubectl exec -it {pod_name} bash -n

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用

总条数： 1739

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

使用ModelArts Standard部署模型并推理预测 - AI开发平台ModelArts

上传数据至OBS（首次使用时需要） - AI开发平台ModelArts

计费FAQ - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

开启训练故障自动重启功能 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

历史API - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

一般性问题 - AI开发平台ModelArts

下线公告 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

MA-Advisor使用指导 - AI开发平台ModelArts

数据导入方式介绍 - AI开发平台ModelArts

计费项 - AI开发平台ModelArts

大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线