搜索_华为云

停止DevServer实例 - AI开发平台ModelArts

STOPPED: 已停止； STOPPING: 停止中； STOP_FAILED: 停止失败： REBOOTING: 重启中： REBOOT_FAILED: 重启失败； CHANGINGOS: 切换操作系统中： CHANGINGOS_FAILED: 切换操作系统失败： REINSTALLINGOS:

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
删除DevServer实例 - AI开发平台ModelArts

STOPPED: 已停止； STOPPING: 停止中； STOP_FAILED: 停止失败： REBOOTING: 重启中： REBOOT_FAILED: 重启失败； CHANGINGOS: 切换操作系统中： CHANGINGOS_FAILED: 切换操作系统失败： REINSTALLINGOS:

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
查看ModelArts模型详情 - AI开发平台ModelArts

启动探针：用于检测应用实例是否已经启动。如果提供了启动探针(startup probe)，则禁用所有其他探针，直到它成功为止。如果启动探针失败，将会重启实例。如果没有提供启动探针，则默认状态为成功Success。就绪探针：用于检测应用实例是否已经准备好接收流量。如果就绪探针失败，即实例未

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
执行训练任务（推荐） - AI开发平台ModelArts

使用yaml配置文件方便用户根据自己实际需求进行修改。推荐用户使用该方式进行训练。步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
从OBS中导入模型文件创建模型 - AI开发平台ModelArts

已完成训练的模型包，及其对应的推理代码和配置文件，且已上传至OBS目录中。确保您使用的OBS与ModelArts在同一区域。创建模型操作步骤登录ModelArts管理控制台，在左侧导航栏中选择“模型管理”，进入模型列表页面。单击左上角的“创建模型”，进入“创建模型”页面。在“创建模型”页面，填写相关参数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
部署模型为在线服务 - AI开发平台ModelArts

时发送消息通知。可选：配置高级选项。表3 高级选项参数说明参数名称说明故障自动重启开启该功能后，系统检测到在线服务异常，会自动重新部署在线服务。详细请参见设置在线服务故障自动重启。 “支持IPV6” 默认关闭。开启该功能后，待在线服务部署完成，服务预测地址中的域名在公网解析时可解析为IPV6地址。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
使用PyCharm Toolkit插件连接Notebook - AI开发平台ModelArts

目录，默认为/home/ma-user/work/project名称，可根据自己实际情况更改。单击“Apply”，配置完成后，重启IDE生效。重启后初次进行update python interpreter需要耗费20分钟左右。 Step5 使用插件连接云上Notebook

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过PyCharm远程使用Notebook实例
执行训练任务（推荐） - AI开发平台ModelArts

执行训练任务（推荐）步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练任务
日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

error encountered 原因分析由于ECC错误，导致作业运行失败。处理方法当ECC错误且计数超过64时，系统会自动隔离故障节点，重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死，请联系技术支持处理。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
查询用户所有DevServer实例列表 - AI开发平台ModelArts

STOPPED: 已停止； STOPPING: 停止中； STOP_FAILED: 停止失败： REBOOTING: 重启中： REBOOT_FAILED: 重启失败； CHANGINGOS: 切换操作系统中： CHANGINGOS_FAILED: 切换操作系统失败： REINSTALLINGOS:

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
实时同步用户所有DevServer实例状态 - AI开发平台ModelArts

STOPPED: 已停止； STOPPING: 停止中； STOP_FAILED: 停止失败： REBOOTING: 重启中： REBOOT_FAILED: 重启失败； CHANGINGOS: 切换操作系统中： CHANGINGOS_FAILED: 切换操作系统失败： REINSTALLINGOS:

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
创建训练任务 - AI开发平台ModelArts

创建训练任务调试代码创建训练任务之前，建议先调试代码。由于Notebook的/cache目录只能支持500G的存储，超过后会导致实例重启，ImageNet数据集大小超过该限制，因此建议用线下资源调试、或用小批量数据集在Notebook调试（Notebook调试方法与使用No

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
管理在线服务生命周期 - AI开发平台ModelArts

及日志流，避免LTS日志流超过限额产生额外费用，如后续不再使用，建议删除。重启服务只有当在线服务处于“运行中”或“告警”状态时，才可进行重启操作。批量服务、边缘服务不支持重启。您可以通过如下方式重启在线服务：登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署>在

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
管理开发环境实例 - AI开发平台ModelArts

管理开发环境实例功能介绍该接口用于启动、停止、重启、排队、取消排队开发环境Notebook实例。 URI POST /v1/{project_id}/demanager/instances/{instance_id}/action 参数说明如表1所示。表1 参数说明参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

由于不同GPU预置镜像中预安装的软件不同，您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安装步骤，您可针对需要安装的软件查看对应的内容：安装NVIDIA驱动安装CUDA驱动安装Docker 安装nvidia-fabricmanager

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
使用AI Gallery的订阅算法实现花卉识别 - AI开发平台ModelArts

型，将所得的模型部署为在线服务。其他算法操作步骤类似，可参考“ResNet_v1_50”算法操作。步骤1：准备训练数据步骤2：订阅算法步骤3：使用订阅算法创建训练作业步骤4：创建AI应用步骤5：部署为在线服务（CPU）步骤6：清除资源费用说明：本案例使用过程中，从AI

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
训练作业容错检查 - AI开发平台ModelArts

用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。使用ModelArts Standard控制台的创建训练作业页面设置自动重启：用户可以在控制台页面通过开关的方式开启自动重启。“自动重启”开关默认不开启，表示不做重新下发作业，也不会启用环境检测。打开开关后，允许设置重启次数为1~128次。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

-o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 图3 scheduler 如果重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

-o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 图3 scheduler 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
修复Standard专属资源池故障节点 - AI开发平台ModelArts

心等待。图10 操作记录重启节点资源池详情页的“节点”页签中提供节点重启的功能。单击操作列的“重启”，可实现对单个节点的重启。勾选多个节点的复选框，单击操作记录旁的“重启”按钮，可实现对多个节点的重启。下发重启节点任务时需要选择对应节点，重启节点将影响相关业务的运行，请谨慎操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池

总条数： 779

上一页
1
2
3
4
5
...
39
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

停止DevServer实例 - AI开发平台ModelArts

删除DevServer实例 - AI开发平台ModelArts

查看ModelArts模型详情 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

从OBS中导入模型文件创建模型 - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

使用PyCharm Toolkit插件连接Notebook - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

查询用户所有DevServer实例列表 - AI开发平台ModelArts

实时同步用户所有DevServer实例状态 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

管理在线服务生命周期 - AI开发平台ModelArts

管理开发环境实例 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

使用AI Gallery的订阅算法实现花卉识别 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

修复Standard专属资源池故障节点 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线