搜索_华为云

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

排查训练代码是否存在不断占用资源的代码，使得资源未被合理使用。是，优化代码，等待作业运行正常。否，提高训练作业使用的资源规格或者联系技术支持。重启训练作业，使用CloudShell登录训练容器监控内存指标，确认是否有突发性的内存增加现象。是，排查内存突发增加的时间点附近的训练作业日志，优化对应的代码逻辑，减少内存申请。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题问题现象创建模型成功后，部署服务失败，如何定位是模型代码编写有问题。原因分析用户自定义镜像或者通过基础镜像导入的模型时，用户自己编写了很多自定义的业务逻辑，这些逻辑有问题将会导致服务部署或者预测失败，需要能够排查出哪里有问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
服务部署失败，报错No Module named XXX - AI开发平台ModelArts

服务部署失败，报错No Module named XXX 问题现象服务部署失败，报错：No Module named XXX 原因分析 No Module named XXX，表示模型中没有导入对应依赖模块。处理方法依赖模块没有导入，需要您在模型推理代码中导入缺失依赖模块。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

to initialize NVML。若遇到加载到内核的nvidia进程循环依赖，无法从内核中卸载nvidia，此时执行reboot命令重启服务器即可。安装NVIDIA-515和CUDA-11.7配套软件环境。具体步骤请参考GP Ant8裸金属服务器Ubuntu 20.04安装NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
创建网络 - AI开发平台ModelArts
创建网络 - AI开发平台ModelArts

创建网络登录ModelArts管理控制台，在左侧导航栏中选择“AI专属资源池 > 弹性集群 Cluster”，进入“弹性集群 Cluster”页面。切换到“网络”页签，单击“创建”，弹出“创建网络”页面。图1 网络列表在“创建网络”弹窗中填写网络信息。网络名称：创建网络时默认生成网络名称，也可自行修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
训练作业运行失败排查指导 - AI开发平台ModelArts

(errno: 98 - Address already in use).”。原因：训练作业的端口号有冲突。处理建议：更改代码中的端口号，重启训练作业。查看训练作业的“日志”，出现报错“WARNING: root: Retry=7, Wait=0.4, Times tamp=1697620658

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
资源超分对在ModelArts的Notebook实例有什么影响？ - AI开发平台ModelArts

时启动了6个2U的实例，如果其中一个实例CPU使用增大到超过节点的上限（8U）时，k8S会将使用资源最多的实例终止掉。因此超分会带来实例重启的风险，请不要超分使用。父主题： Standard Notebook

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

-aux查到的进程号，使用kill -9强制关闭进程。 sudo kill -9 <进程ID> 方法2：如果方法1执行后无法消除D+进程，请尝试重启服务器。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

[2022-10-24 11:37:54 +0000] [997] [INFO] Booting worker with pid: 997 服务异常进程反复重启导致预测请求无法发送到服务实例。可以通过以下方式解决问题：缩小预测请求数量看是否问题还复现，如果不复现是因为负载过大导致服务进程退出，需要扩容实例数量或者提升规格。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
部署模型为在线服务 - AI开发平台ModelArts

时发送消息通知。可选：配置高级选项。表3 高级选项参数说明参数名称说明故障自动重启开启该功能后，系统检测到在线服务异常，会自动重新部署在线服务。详细请参见设置在线服务故障自动重启。 “支持IPV6” 默认关闭。开启该功能后，待在线服务部署完成，服务预测地址中的域名在公网解析时可解析为IPV6地址。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
删除DevServer实例 - AI开发平台ModelArts

STOPPED: 已停止； STOPPING: 停止中； STOP_FAILED: 停止失败： REBOOTING: 重启中： REBOOT_FAILED: 重启失败； CHANGINGOS: 切换操作系统中： CHANGINGOS_FAILED: 切换操作系统失败： REINSTALLINGOS:

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
停止DevServer实例 - AI开发平台ModelArts

STOPPED: 已停止； STOPPING: 停止中； STOP_FAILED: 停止失败： REBOOTING: 重启中： REBOOT_FAILED: 重启失败； CHANGINGOS: 切换操作系统中： CHANGINGOS_FAILED: 切换操作系统失败： REINSTALLINGOS:

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
创建DevServer - AI开发平台ModelArts

STOPPED: 已停止； STOPPING: 停止中； STOP_FAILED: 停止失败： REBOOTING: 重启中： REBOOT_FAILED: 重启失败； CHANGINGOS: 切换操作系统中： CHANGINGOS_FAILED: 切换操作系统失败： REINSTALLINGOS:

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
查询DevServer实例详情 - AI开发平台ModelArts

STOPPED: 已停止； STOPPING: 停止中； STOP_FAILED: 停止失败： REBOOTING: 重启中： REBOOT_FAILED: 重启失败； CHANGINGOS: 切换操作系统中： CHANGINGOS_FAILED: 切换操作系统失败： REINSTALLINGOS:

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
JupyterLab常用功能介绍 - AI开发平台ModelArts

保存文件。添加新代码块。剪切选中的代码块。复制选中的代码块。粘贴选中的代码块。执行选中的代码块。终止kernel。重启kernel。重启kernel，然后重新运行当前Notebook的所有代码。此处下拉框有4个选项，分别是： Code（写python代码），Ma

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
训练网络迁移总结 - AI开发平台ModelArts

训练网络迁移总结确保算法在GPU训练时，持续稳定可收敛。避免在迁移过程中排查可能的算法问题，并且要有好的对比标杆。如果是NPU上全新开发的网络，请参考PyTorch迁移精度调优排查溢出和精度问题。理解GPU和NPU的构造以及运行的差别，有助于在迁移过程中分析问题并发挥NPU的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
删除网络资源 - AI开发平台ModelArts

删除网络资源功能介绍删除指定网络资源。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI DELETE /v1/{project_id}/networks/{network_name}

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询网络资源 - AI开发平台ModelArts

查询网络资源功能介绍查询指定网络资源的详情信息。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/networks/{network_name}

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
启动DevServer实例 - AI开发平台ModelArts

STOPPED: 已停止； STOPPING: 停止中； STOP_FAILED: 停止失败： REBOOTING: 重启中： REBOOT_FAILED: 重启失败； CHANGINGOS: 切换操作系统中： CHANGINGOS_FAILED: 切换操作系统失败： REINSTALLINGOS:

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
启动推理服务 - AI开发平台ModelArts

S指定的可用卡数一致。 --address：头节点IP+端口号，头节点创建成功后，会有打印。环境变量每个节点都要设置。更新环境变量需要重启Ray集群。选择其中一个节点，添加指定分布式后端参数【--distributed-executor-backend=ray】，其他参数与

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理服务部署

总条数： 1988

上一页
1
...
5
6
7
...
100
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

服务部署失败，报错No Module named XXX - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

创建网络 - AI开发平台ModelArts

训练作业运行失败排查指导 - AI开发平台ModelArts

资源超分对在ModelArts的Notebook实例有什么影响？ - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

删除DevServer实例 - AI开发平台ModelArts

停止DevServer实例 - AI开发平台ModelArts

创建DevServer - AI开发平台ModelArts

查询DevServer实例详情 - AI开发平台ModelArts

JupyterLab常用功能介绍 - AI开发平台ModelArts

训练网络迁移总结 - AI开发平台ModelArts

删除网络资源 - AI开发平台ModelArts

查询网络资源 - AI开发平台ModelArts

启动DevServer实例 - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线