搜索_华为云

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

存在锁死的风险。出现D+进程后可以尝试如下方法：方法1：可以根据ps -aux查到的进程号，使用kill -9强制关闭进程。 sudo kill -9 <进程ID> 方法2：如果方法1执行后无法消除D+进程，请尝试重启服务器。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
远程连接处于retry状态如何解决？ - AI开发平台ModelArts

载。解决方法方法一（本地）：打开命令面板（Windows： Ctrl+Shift+P，macOS：Cmd+Shift+P），搜索“Kill VS Code Server on Host”，选择出问题的实例进行自动清除，然后重新进行连接。图1 清除异常的实例方法二（远端）：在VS

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
远程连接处于retry状态如何解决？ - AI开发平台ModelArts

载。解决方法方法一（本地）：打开命令面板（Windows： Ctrl+Shift+P，macOS：Cmd+Shift+P），搜索“Kill VS Code Server on Host”，选择出问题的实例进行自动清除，然后重新进行连接。图1 清除异常的实例方法二（远端）：在VS

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
模型的自定义镜像制作流程 - AI开发平台ModelArts

图2 模型的自定义镜像制作场景二场景三：预置镜像既不满足软件环境要求，同时需要放入模型包，新的镜像超过35G，在服务器（如ECS）上制作。具体案例参考在ECS中通过Dockerfile从0制作自定义镜像用于推理。图3 模型的自定义镜像制作场景三约束限制自定义镜像中不能包含恶意代码。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
显存溢出错误 - AI开发平台ModelArts

allocated memory try setting max_split_size_mb to avoid fragmentation. 解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

allocated memory try setting max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

allocated memory try setting max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

allocated memory try setting max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

biu.com/blog/linux-ssh-session-alive.html），后台的实例运行是一直稳定的，重连即可再次连上。解决方法如果想保持长时间连接不断开，可以通过配置SSH定期发送通信消息，避免防火墙认为链路空闲而关闭。客户端配置（用户可根据需要自行配置，不配

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
安装远端插件时不稳定，需尝试多次 - AI开发平台ModelArts

vsix文件拖动到远端Notebook中。右键单击该文件，选择Install Extension VSIX。方法二：设置远端默认安装的插件按照VS Code中设置远端默认安装的插件配置，即会在连接远端时自动安装，减少等待时间。方法三：VS Code官网排查方式https://code.visualstudio

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code使用技巧
显存溢出错误 - AI开发平台ModelArts

allocated memory try setting max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

allocated memory try setting max_split_size_mb to avoid fragmentation. 解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

allocated memory try setting max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

allocated memory try setting max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业，实际可用的卡ID为0、1、2、3，但是您在进行cuda相关的运算时，例如"tensor.to(device="cuda:7")"，将张量搬到了7号GPU卡上，超过了实际可用的ID号。如果cuda相关运算设置的卡ID号

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
使用边缘节点部署边缘服务能否使用http接口协议？ - AI开发平台ModelArts

MODELARTS_SSL_ENABLED = false 图1 添加环境变量方式二：在使用自定义镜像导入模型时，创建AI应用页面中“容器调用接口”设置为“http”，再部署边缘服务。父主题：边缘服务

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 边缘服务
创建标注团队的成员 - AI开发平台ModelArts

rce_id}/workers 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workforce_id 是 String 标注团队ID。请求参数表2 请求Body参数参数是否必选参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
创建标注团队 - AI开发平台ModelArts

/v2/{project_id}/workforces 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数表2 请求Body参数参数是否必选参数类型描述 description 否 String 标

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
通过Function Calling扩展大语言模型对外部环境的理解 - AI开发平台ModelArts

Calling扩展大语言模型对外部环境的理解本示例将展示如何定义一个获取送货日期的函数，并通过LLM来调用外部API来获取外部信息。操作步骤设置Maas的api key和模型服务地址。 import requests from openai import OpenAI client

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 通过Function Calling扩展大语言模型交互能力
权限配置 - AI开发平台ModelArts
权限配置 - AI开发平台ModelArts

CommonOperations权限只能二选一，不能同时选。 SFS弹性文件服务弹性文件服务SFS Turbo的所有权限。使用SFS服务时需要配置。 ECS弹性云服务器弹性云服务器所有权限。使用ECS服务时需要配置。 SWR容器镜像仓库容器镜像仓库所有权限。使用SWR服务时需要配置。同时，还需开通SWR组织权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置

总条数： 1578

上一页
1
...
11
12
13
...
79
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

远程连接处于retry状态如何解决？ - AI开发平台ModelArts

远程连接处于retry状态如何解决？ - AI开发平台ModelArts

模型的自定义镜像制作流程 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

安装远端插件时不稳定，需尝试多次 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

使用边缘节点部署边缘服务能否使用http接口协议？ - AI开发平台ModelArts

创建标注团队的成员 - AI开发平台ModelArts

创建标注团队 - AI开发平台ModelArts

通过Function Calling扩展大语言模型对外部环境的理解 - AI开发平台ModelArts

权限配置 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线