搜索_华为云

开启训练故障自动重启功能 - AI开发平台ModelArts

开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图1 开启故障重启断点续训练是通过checkpoint机制实现。c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
重启可视化作业 - AI开发平台ModelArts

重启可视化作业功能介绍重启可视化作业。此接口为异步接口，作业状态请通过查询可视化作业列表与查询可视化作业详情接口获取。 URI POST /v1/{project_id}/visualization-jobs/{job_id}/restart 参数说明如表1所示。表1 参数说明

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
批量重启节点 - AI开发平台ModelArts

批量重启节点功能介绍批量重启指定资源池中的节点调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/pools/{pool

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
在ModelArts的Notebook实例重启时，数据集会丢失吗？ - AI开发平台ModelArts

在ModelArts的Notebook实例重启时，数据集会丢失吗？ ModelArts提供的Notebook实例是以ma-user启动的，用户进入实例后，工作目录默认是“/home/ma-user/work”。创建实例，“/home/ma-user/work”目录下挂载的数据，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？问题现象服务部署、启动、升级和修改时，镜像不断重启。原因分析容器镜像代码错误解决方法根据容器日志进行排查，修复代码，重新创建模型，部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
设置在线服务故障自动重启 - AI开发平台ModelArts

点的其他服务的影响。开启故障自动重启用户可以在部署在线服务任务时，勾选“高级选项”的“现在配置”，可以看到“故障自动重启”参数，打开开关即可。图1 故障自动重启父主题：管理同步在线服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
设置无条件自动重启 - AI开发平台ModelArts

在创建训练作业页面，开启“自动重启”开关，并勾选“无条件自动重启”，开启无条件自动重启。开启无条件自动重启后，只要系统检测到训练异常，就无条件重启训练作业。如果未勾选“无条件自动重启”只是打开了“自动重启”开关，则表示仅环境问题导致训练作业异常时才会自动重启，其他问题导致训练作业异常时会直接返回“运行失败”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

禁用自动更新可能会导致您的系统变得不安全，因为您需要手动安装重要的安全补丁。在禁用自动更新之前，请确保您已了解其中的风险。操作步骤在Ubuntu 20.04上禁止内核自动升级，步骤如下：禁用unattended-upgrades。 “unattended-upgrades”是一个用于安装安

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

在Notebook实例中运行训练代码，如果数据量太大或者训练层数太多，亦或者其他原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题，如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题，建议您创

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
管理开发环境实例 - AI开发平台ModelArts

管理开发环境实例功能介绍该接口用于启动、停止、重启、排队、取消排队开发环境Notebook实例。 URI POST /v1/{project_id}/demanager/instances/{instance_id}/action 参数说明如表1所示。表1 参数说明参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
创建训练任务 - AI开发平台ModelArts

创建训练任务调试代码创建训练任务之前，建议先调试代码。由于Notebook的/cache目录只能支持500G的存储，超过后会导致实例重启，ImageNet数据集大小超过该限制，因此建议用线下资源调试、或用小批量数据集在Notebook调试（Notebook调试方法与使用No

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

将Notebook的Conda环境迁移到SFS磁盘本文介绍了如何将Notebook的Conda环境迁移到SFS磁盘上。这样重启Notebook实例后，Conda环境不会丢失。步骤如下: 创建新的虚拟环境并保存到SFS目录克隆原有的虚拟环境到SFS盘重新启动镜像激活SFS盘中的虚拟环境保存并共享虚拟环境

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
训练作业进程被kill - AI开发平台ModelArts

用户进程被Kill表示用户进程因外部因素被Kill或者中断，表现为日志中断。原因分析 CPU软锁在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况合理使用数据盘，数据盘大小请参考训练环境中不同规格资源大小。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

error encountered 原因分析由于ECC错误，导致作业运行失败。处理方法当ECC错误且计数超过64时，系统会自动隔离故障节点，重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死，请联系技术支持处理。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

-o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 图3 scheduler 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

-o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 图3 scheduler 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

-o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 图3 scheduler 如果重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

ocessKilled。图1 查看事件原因分析出现此故障是因为Jupyter进程被清理掉了，一般情况Notebook会自动重启的，如果没有自动重启，创建一直失败，请确认是否是自定义镜像的问题。解决方案排查是否是自定义镜像的问题。自定义镜像构建完成，在ModelArts

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
Notebook Cache盘告警上报 - AI开发平台ModelArts

e”目录，用户可以使用此目录来储存临时文件。当前开发环境的Cache盘使用时，没有容量告警，在使用时很容易超过限制，并直接重启Notebook实例。重启后多种配置重置，会导致用户数据丢弃，环境丢失，造成很不好的使用体验。因此需要提供cache盘使用情况的监控和告警，并将数据上报至AOM平台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
步骤总览 - AI开发平台ModelArts
步骤总览 - AI开发平台ModelArts

步骤总览单机单卡资源购买：购买对象存储服务OBS 购买容器镜像服务SWR 创建网络购买ModelArts专属资源池基本配置：权限配置 obsutils安装和配置（可选）工作空间配置训练：线下容器镜像构建及调试上传镜像上传数据和算法至OBS（首次使用时需要）使用Notebook进行代码调试

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练

总条数： 870

上一页
1
2
3
4
5
...
44
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

开启训练故障自动重启功能 - AI开发平台ModelArts

重启可视化作业 - AI开发平台ModelArts

批量重启节点 - AI开发平台ModelArts

在ModelArts的Notebook实例重启时，数据集会丢失吗？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

管理开发环境实例 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

Notebook Cache盘告警上报 - AI开发平台ModelArts

步骤总览 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线