搜索_华为云

服务启动失败 - AI开发平台ModelArts

拉取镜像失败服务启动失败，提示拉取镜像失败，请参考服务部署、启动、升级和修改时，拉取镜像失败如何处理？资源不足，服务调度失败服务启动失败，提示资源不足，服务调度失败，请参考服务部署、启动、升级和修改时，资源不足如何处理？内存不足服务启动失败，提示内存不足，请参考内存不足如何处理？

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
启动Notebook实例 - AI开发平台ModelArts

启动Notebook实例功能介绍启动Notebook实例。接口约束暂无约束调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v1/{project

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
启动或停止Lite Server服务器 - AI开发平台ModelArts

在左侧菜单栏中选择“AI专属资源池 > 弹性节点 Server”。执行如下操作，启动或停止弹性节点Server。启动弹性节点Server：单击“启动”。只有处于“已停止/停止失败/启动失败”状态的弹性节点Server可以执行启动操作。停止弹性节点Server：单击“停止”，在弹出的确认对话框

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
启动推理服务 - AI开发平台ModelArts

I服务的API接口启动在线推理服务方式。推理请求测试使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见启动在线推理服务。通过OpenAI服务API接口启动服务使用以下推理测试命令。${docker_ip}替换为实际宿主机的IP地址。如果启动服务未添加serve

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件问题现象使用自定义镜像创建训练作业，出现如下报错，提示找不到运行的主文件：no such file or directory。原因分析根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？问题现象启动服务失败，报错：资源不足，服务调度失败。（Schedule failed due to insufficient resources. Retry later.或ModelArts.3976：No resources

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？问题现象服务部署、启动、升级和修改时，镜像不断重启。原因分析容器镜像代码错误解决方法根据容器日志进行排查，修复代码，重新创建模型，部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” 问题现象预测流量不大但频繁出现以下报错 Backend service internal error. Backend service read timed out Send the request from gateway to the

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

Ascend-Powered-Engine框架单机启动命令和分布式启动命令无区别。 Ascend-Powered-Engine框架支持多种启动方式来启动“启动文件”，默认是基于“RANK_TABLE_FILE”启动，也可以通过配置“MA_RUN_METHOD”环境变量使用其他方式来启动。MA_RUN_MET

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

ascendfactory-cli方式启动（推荐）相对于之前demo.sh方式启动（历史版本）的启动方式，本章节新增了通过benchmark工具启动训练的方式。此方式训练完成后json日志或打屏日志直接打印性能结果，免于计算，方便用户验证发布模型的质量。并且新的训练方式将统一管

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
启动智能任务 - AI开发平台ModelArts

启动智能任务功能介绍启动智能任务，支持启动“智能标注”和“自动分组”两大类智能任务。可通过指定请求体中的“task_type”参数来启动某类任务。数据路径或工作路径位于KMS加密桶的数据集，不支持启动主动学习和自动分组任务，支持预标注任务。 “智能标注”是指基于当前标注阶段的

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
启动DevServer实例 - AI开发平台ModelArts

arch String 服务器镜像架构类型。 ARM X86 image_id String 服务器镜像ID。 name String 服务器镜像名称。 server_type String 服务器类型。枚举值如下： BMS：裸金属服务器 ECS：弹性云服务器表8 ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
查看Lite Server服务器详情 - AI开发平台ModelArts

Server服务器创建时绑定的虚拟私有云，单击链接可跳转到虚拟私有云详情页。裸金属服务器 Lite Server服务器为一台裸金属服务器，单击链接可跳转至对应弹性裸金属服务器的详情页。镜像 Lite Server服务器的镜像。创建时间 Lite Server服务器的创建时间。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
启动停止边缘节点服务实例 - AI开发平台ModelArts

启动停止边缘节点服务实例功能介绍启动停止边缘节点服务实例。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI PUT /v1/{project_id}/servic

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

例如：找不到训练启动文件时，也会提示“No such file or directory”。原因分析找不到训练输入数据路径，可能是报错的路径填写不正确。用户请按照以下思路进行逐步排查：检查报错的路径是否为OBS路径检查报错的路径是否存在找不到启动文件，可能是训练作业启动命令的路径填

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？问题现象服务部署、启动、升级和修改时，拉取镜像失败。原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
同步Lite Server服务器状态 - AI开发平台ModelArts

同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器，当用户在云服务器页面修改了裸金属服务器状态后，您可通过“同步”功能，同步其状态至ModelArts。登录ModelArts管理控制台。在左侧导航栏中，选择“AI专属资源池 > 弹性节点 Server”，进入“节点”列表页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK 如果需要在个人PC或虚拟机上使用ModelArts SDK，则需要在本地环境中安装ModelArts SDK，安装后可直接调用ModelArts SDK轻松管理数据集、创建ModelArts训练作业及创建AI应用，并将其部署为在线服务。

帮助中心 > AI开发平台ModelArts > SDK参考

总条数： 1488

上一页
1
2
3
4
5
...
75
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

服务启动失败 - AI开发平台ModelArts

启动Notebook实例 - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

启动智能任务 - AI开发平台ModelArts

启动DevServer实例 - AI开发平台ModelArts

查看Lite Server服务器详情 - AI开发平台ModelArts

启动停止边缘节点服务实例 - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

同步Lite Server服务器状态 - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线