搜索_华为云

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

在Notebook实例中运行训练代码，如果数据量太大或者训练层数太多，亦或者其他原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题，如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题，建议您创

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

将Notebook的Conda环境迁移到SFS磁盘本文介绍了如何将Notebook的Conda环境迁移到SFS磁盘上。这样重启Notebook实例后，Conda环境不会丢失。步骤如下: 创建新的虚拟环境并保存到SFS目录克隆原有的虚拟环境到SFS盘重新启动镜像激活SFS盘中的虚拟环境

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

04每次内核升级后，系统需要重新启动以加载新内核。如果您已经安装了自动更新功能，则系统将自动下载和安装可用的更新，这可能导致系统在不经意间被重启，如果使用的软件依赖于特定版本的内核，那么当系统自动更新到新的内核版本时，可能会出现兼容性问题。在使用Ubuntu20.04时，建议手动控制内核的更新。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
设置断点续训练 - AI开发平台ModelArts

中的Checkpoint文件下载到训练容器的本地目录。图1 训练输出设置断点续训练建议和训练容错检查（即自动重启）功能同时使用。在创建训练作业页面，开启“自动重启”开关。训练环境预检测失败、或者训练容器硬件检测故障、或者训练作业失败时会自动重新下发并运行训练作业。 PyTorch版reload

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

NPU设备异常，昇腾dcmi接口中返回设备存在重要或紧急告警。可能是亚健康，建议先重启节点，如果重启节点后未恢复，发起维修流程。 NT_NPU_NET NPU 链路 npu dcmi net异常。 NPU网络链接异常。可能是亚健康，建议先重启节点，如果重启节点后未恢复，发起维修流程。 NT_NPU_CARD_LOSE

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
管理在线服务生命周期 - AI开发平台ModelArts

及日志流，避免LTS日志流超过限额产生额外费用，如后续不再使用，建议删除。重启服务只有当在线服务处于“运行中”或“告警”状态时，才可进行重启操作。批量服务、边缘服务不支持重启。您可以通过如下方式重启在线服务：登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署>在

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
服务管理权限 - AI开发平台ModelArts

服务管理权限表1 服务管理细化权限说明权限对应API接口授权项依赖的授权项 IAM项目企业项目部署模型服务 POST /v1/{project_id}/services modelarts:service:create - √ √ 查询模型服务列表 GET /v1/

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
修改在线服务配置 - AI开发平台ModelArts

当修改了服务的某些参数配置时，系统会自动重启服务使修改生效。在提交修改服务任务时，如果涉及重启，会有弹窗提醒。在线服务参数说明请参见部署模型为在线服务。修改在线服务还需要配置“最大无效实例数”设置并行升级的最大节点数，升级阶段节点无效。修改在线服务参数时，可通过增加一个自定义的环境变量参数，触发服务重启。例如

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
修复Standard专属资源池故障节点 - AI开发平台ModelArts

心等待。图10 操作记录重启节点资源池详情页的“节点”页签中提供节点重启的功能。单击操作列的“重启”，可实现对单个节点的重启。勾选多个节点的复选框，单击操作记录旁的“重启”按钮，可实现对多个节点的重启。下发重启节点任务时需要选择对应节点，重启节点将影响相关业务的运行，请谨慎操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
修改批量服务配置 - AI开发平台ModelArts

在服务列表中，单击目标服务操作列的“修改”，修改服务基本信息，然后根据提示提交修改任务。当修改了服务的某些参数配置时，系统会自动重启服务使修改生效。在提交修改服务任务时，如果涉及重启，会有弹窗提醒。批量服务参数说明请参见将模型部署为批量推理服务。方式二：通过服务详情页面修改服务信息登录Mod

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
管理同步在线服务 - AI开发平台ModelArts

查看在线服务的事件管理在线服务生命周期修改在线服务配置在云监控平台查看在线服务性能指标集成在线服务API至生产环境中应用设置在线服务故障自动重启父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
训练作业容错检查 - AI开发平台ModelArts

用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。使用ModelArts Standard控制台的创建训练作业页面设置自动重启：用户可以在控制台页面通过开关的方式开启自动重启。“自动重启”开关默认不开启，表示不做重新下发作业，也不会启用环境检测。打开开关后，允许设置重启次数为1~128次。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
执行训练任务【旧】 - AI开发平台ModelArts

ckpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.5.901） > 执行训练任务
ModelArts在线服务和批量服务有什么区别？ - AI开发平台ModelArts

ModelArts在线服务和批量服务有什么区别？在线服务将模型部署为一个Web服务，您可以通过管理控制台或者API接口访问在线服务。批量服务批量服务可对批量数据进行推理，完成数据处理后自动停止。批量服务一次性推理批量数据，处理完服务结束。在线服务提供API接口，供用户调用推理。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
执行训练任务【旧】 - AI开发平台ModelArts

ckpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
工作负载Pod异常 - AI开发平台ModelArts

pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
创建生产训练作业（新版页面） - AI开发平台ModelArts

取值范围：1~128 提交创建训练作业后不支持修改重启次数，请合理设置次数。无条件自动重启开启无条件自动重启后，只要系统检测到训练异常，就无条件重启训练作业。为了避免无效重启浪费算力资源，系统最多只支持连续无条件重启3次。作业卡死重启系统支持自动监控作业进程的状态和资源利用率来

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
工作负载Pod异常 - AI开发平台ModelArts

pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 如果重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.5.901） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
管理批量服务生命周期 - AI开发平台ModelArts

单击目标服务名称，进入服务详情页面，单击右上角“删除”按钮进行删除。删除操作无法恢复，请谨慎操作。没有委托授权时，无法删除服务。重启服务批量服务不支持重启。父主题：管理批量推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业

总条数： 1988

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

管理在线服务生命周期 - AI开发平台ModelArts

服务管理权限 - AI开发平台ModelArts

修改在线服务配置 - AI开发平台ModelArts

修复Standard专属资源池故障节点 - AI开发平台ModelArts

修改批量服务配置 - AI开发平台ModelArts

管理同步在线服务 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

执行训练任务【旧】 - AI开发平台ModelArts

ModelArts在线服务和批量服务有什么区别？ - AI开发平台ModelArts

执行训练任务【旧】 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

创建生产训练作业（新版页面） - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

管理批量服务生命周期 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线