搜索_华为云

advisor调优总体步骤 - AI开发平台ModelArts

advisor调优总体步骤基于ModelArts performance advisor插件的昇腾PyTorch性能调优主要分为以下步骤：准确采集性能劣化时刻的profiling数据。存储profiling数据。创建advisor分析环境。操作步骤明确性能问题类型，准

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

生产部署上对平台系统产生了新的要求。例如：导入模型时，需要支持动态调整租户存储配额；模型加载、启动慢，部署时需要灵活的超时配置；当负载异常重启，模型需要重新加载，服务恢复时间长的问题亟待解决。为了应对如上诉求，ModelArts推理平台针对性给出解决方案，用于支持大模型场景下的模型管理和服务部署。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

在Notebook实例中运行训练代码，如果数据量太大或者训练层数太多，亦或者其他原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题，如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题，建议您创

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

会生效。此时如果重启那么内核版本就被升级了。处理方法下文中假设当前服务器的内核版本是为4.18.0-147.5.1.6.h934.eulerosv2r9.x86_64，介绍如何避免操作系统内核自动升级。操作系统内核升级生效，必然需要服务器重启，因此重启reboot前需要查看当前默认选择的内核版本：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
设置断点续训练 - AI开发平台ModelArts

中的Checkpoint文件下载到训练容器的本地目录。图1 训练输出设置断点续训练建议和训练容错检查（即自动重启）功能同时使用。在创建训练作业页面，开启“自动重启”开关。训练环境预检测失败、或者训练容器硬件检测故障、或者训练作业失败时会自动重新下发并运行训练作业。 PyTorch版reload

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
AI开发基本流程介绍 - AI开发平台ModelArts

集的大量数据进行计算、分析、汇总和整理，以求最大化地开发数据价值，发挥数据作用。 AI开发的基本流程 AI开发的基本流程通常可以归纳为几个步骤：确定目的、准备数据、训练模型、评估模型、部署模型。图1 AI开发流程确定目的在开始AI开发之前，必须明确要分析什么？要解决什么问题

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

NPU设备异常，昇腾dcmi接口中返回设备存在重要或紧急告警。可能是亚健康，建议先重启节点，如果重启节点后未恢复，发起维修流程。 NT_NPU_NET NPU 链路 npu dcmi net异常。 NPU网络链接异常。可能是亚健康，建议先重启节点，如果重启节点后未恢复，发起维修流程。 NT_NPU_CARD_LOSE

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
服务部署 - AI开发平台ModelArts
服务部署 - AI开发平台ModelArts

自定义镜像模型部署为在线服务时出现异常部署的在线服务状态为告警服务启动失败服务部署、启动、升级和修改时，拉取镜像失败如何处理？服务部署、启动、升级和修改时，镜像不断重启如何处理？服务部署、启动、升级和修改时，容器健康检查失败如何处理？服务部署、启动、升级和修改时，资源不足如何处理？模型使用CV2包部署在线服务报错

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署
修复Standard专属资源池故障节点 - AI开发平台ModelArts

心等待。图10 操作记录重启节点资源池详情页的“节点”页签中提供节点重启的功能。单击操作列的“重启”，可实现对单个节点的重启。勾选多个节点的复选框，单击操作记录旁的“重启”按钮，可实现对多个节点的重启。下发重启节点任务时需要选择对应节点，重启节点将影响相关业务的运行，请谨慎操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

P/IP端口。 Oracle 1521 Oracle通信端口，弹性云服务器上部署了Oracle SQL需要放行的端口。 MySQL 3306 MySQL数据库对外提供服务的端口。 Windows Server Remote Desktop Services 3389 Window

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
执行训练任务【新】 - AI开发平台ModelArts

填写。图3 超参步骤三开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图4 开启故障重启断点续训练是通过ch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
管理在线服务生命周期 - AI开发平台ModelArts

及日志流，避免LTS日志流超过限额产生额外费用，如后续不再使用，建议删除。重启服务只有当在线服务处于“运行中”或“告警”状态时，才可进行重启操作。批量服务、边缘服务不支持重启。您可以通过如下方式重启在线服务：登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署>在

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
训练作业容错检查 - AI开发平台ModelArts

用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。使用ModelArts Standard控制台的创建训练作业页面设置自动重启：用户可以在控制台页面通过开关的方式开启自动重启。“自动重启”开关默认不开启，表示不做重新下发作业，也不会启用环境检测。打开开关后，允许设置重启次数为1~128次。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败问题现象训练作业的“状态”为“运行失败”。原因分析训练作业的监控内存指标持续升高，导致最后训练作业失败。处理步骤查询训练作业的日志和监控信息，是否存在明确的OOM报错信息。是，训练作业的日志里存在OOM报错，执行2。否，训练作业的日志里没有OOM报错，但是存在监控指标异常，执行3。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
执行训练任务【旧】 - AI开发平台ModelArts

ckpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

改动任何参数。如果要使用自动重启功能，资源规格必须选择八卡规格。注：训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

ckpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

改动任何参数。如果要使用自动重启功能，资源规格必须选择八卡规格。注：训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

ckpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
LoRA微调训练 - AI开发平台ModelArts

ckpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）

总条数： 855

上一页
1
2
3
4
5
...
43
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

advisor调优总体步骤 - AI开发平台ModelArts

使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

AI开发基本流程介绍 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

服务部署 - AI开发平台ModelArts

修复Standard专属资源池故障节点 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

执行训练任务【新】 - AI开发平台ModelArts

管理在线服务生命周期 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

执行训练任务【旧】 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线