搜索_华为云

使用AI Gallery的订阅算法实现花卉识别 - AI开发平台ModelArts

型，将所得的模型部署为在线服务。其他算法操作步骤类似，可参考“ResNet_v1_50”算法操作。步骤1：准备训练数据步骤2：订阅算法步骤3：使用订阅算法创建训练作业步骤4：创建AI应用步骤5：部署为在线服务（CPU）步骤6：清除资源费用说明：本案例使用过程中，从AI

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

由于不同GPU预置镜像中预安装的软件不同，您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安装步骤，您可针对需要安装的软件查看对应的内容：安装NVIDIA驱动安装CUDA驱动安装Docker 安装nvidia-fabricmanager

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

-o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 图3 scheduler 如果重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
训练作业容错检查 - AI开发平台ModelArts

用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。使用ModelArts Standard控制台的创建训练作业页面设置自动重启：用户可以在控制台页面通过开关的方式开启自动重启。“自动重启”开关默认不开启，表示不做重新下发作业，也不会启用环境检测。打开开关后，允许设置重启次数为1~128次。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
Lite Server资源开通 - AI开发平台ModelArts

需要）购买Server资源 7、在ModelArts控制台上购买资源池。步骤1：申请开通资源规格请联系华为云客户经理确认Server资源方案、申请要开通资源的规格（若无客户经理可提交工单）。步骤2：资源配额提升由于Server所需资源可能会超出华为云默认提供的资源（如E

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
创建DevServer - AI开发平台ModelArts

STOPPED: 已停止； STOPPING: 停止中； STOP_FAILED: 停止失败： REBOOTING: 重启中： REBOOT_FAILED: 重启失败； CHANGINGOS: 切换操作系统中： CHANGINGOS_FAILED: 切换操作系统失败： REINSTALLINGOS:

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

在Notebook实例中运行训练代码，如果数据量太大或者训练层数太多，亦或者其他原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题，如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题，建议您创

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
执行训练任务【旧】 - AI开发平台ModelArts

ckpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
什么是Workflow - AI开发平台ModelArts

Learning）和“DevOps”（Development and Operations）的组合实践。机器学习开发流程主要可以定义为四个步骤：项目设计、数据工程、模型构建、部署落地。AI开发并不是一个单向的流水线作业，在开发的过程中，会根据数据和模型结果进行多轮的实验迭代。算法

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
工作负载Pod异常 - AI开发平台ModelArts

pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

-o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 图3 scheduler 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。约束限制如果要使用自动重启功能，资源规格必须选择八卡规格。适配的CANN版本是cann_8.0.rc3，驱动版本是23.0.6。本案例仅支持在专属资源池上运行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

改动任何参数。如果要使用自动重启功能，资源规格必须选择八卡规格。注：训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

改动任何参数。如果要使用自动重启功能，资源规格必须选择八卡规格。注：训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

ckpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

ckpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
LoRA微调训练 - AI开发平台ModelArts

ckpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
在Standard上部署SD WebUI推理服务 - AI开发平台ModelArts

WebUI推理服务章节的任务后，如果还需要在ModelArts的推理生产环境（ModelArts控制台的在线服务模块）中部署推理服务，可参考下述步骤。步骤一导出镜像完成在DevServer上部署SD WebUI推理服务章节的任务后，在宿主机上执行以下命令，导出镜像。 mv /home

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD WEBUI套件适配PyTorch NPU的推理指导（6.3.908）
Lite Cluster资源开通 - AI开发平台ModelArts

装。说明：暂不支持资源池中的存量节点池修改名称。请不要在安装后执行脚本中使用reboot命令立即重启，如果需要重启，可以使用“shutdown -r 1”命令延迟1分钟重启。存储配置开启存储配置开关，支持以下设置：系统盘：显示系统盘的磁盘类型和大小。系统盘的磁盘类型支

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
工作负载Pod异常 - AI开发平台ModelArts

pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法

总条数： 800

上一页
1
2
3
4
5
...
40
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AI Gallery的订阅算法实现花卉识别 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

创建DevServer - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

执行训练任务【旧】 - AI开发平台ModelArts

什么是Workflow - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

在Standard上部署SD WebUI推理服务 - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线