搜索_华为云

GPU A系列裸金属服务器没有任务但GPU被占用如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器没有任务但GPU被占用如何解决问题现象服务器没有任务，但GPU显示被占用。图1 显卡运行状态处理方法 nvidia-smi -pm 1 父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
调用API接口创建训练作业和部署服务时，如何填写资源池的参数？ - AI开发平台ModelArts

调用API接口创建训练作业和部署服务时，如何填写资源池的参数？调用API接口创建训练作业时，“pool_id”为“资源池ID”。调用API接口部署在线服务时，“pool_name”为“资源池ID” 。图1 资源池ID 父主题： API/SDK

帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK
托管模型到AI Gallery - AI开发平台ModelArts

托管模型到AI Gallery AI Gallery上每个资产的文件都会存储在线上的AI Gallery存储库（简称AI Gallery仓库）里面。每一个模型实例视作一个资产仓库，模型实例与资产仓库之间是一一对应的关系。例如，模型名称为“Test”，则AI Gallery仓库有个名为

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在线服务运行中但是预测失败时，如何排查报错是不是模型原因导致的 - AI开发平台ModelArts

在线服务运行中但是预测失败时，如何排查报错是不是模型原因导致的问题现象在线服务启动后，当在线服务进入到“运行中”状态后，进行预测，预测请求发出后，收到的响应不符合预期，无法判断是不是模型的问题导致的不符合预期。原因分析在线服务启动后，ModelArts提供两种方式的预测：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% 原因是代码运行卡死导致被进程清理，GPU显存没有释放；或者代码运行过程中内存溢出导致程序被清理，需要释放下显存，清理GPU，然后重新启动。为了避免进程结束引起的代码未保存，建议您每隔一段时间保存下代码输出至

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误
在线服务处于运行中状态时，如何填写推理请求的request header和request body - AI开发平台ModelArts

在线服务处于运行中状态时，如何填写推理请求的request header和request body 问题现象部署在线服务完成且在线服务处于“运行中”状态时，通过ModelArts console的调用指南tab页签可以获取到推理请求的地址，但是不知道如何填写推理请求的header

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
请求超时返回Timeout - AI开发平台ModelArts

请求超时返回Timeout 问题现象服务预测请求超时原因分析请求超时，大概率是APIG（API网关）拦截问题。需排查APIG（API网关）和模型。处理方法优先排查APIG（API网关）是否是通的，可以在本地使用curl命令排查，命令行：curl -kv {预测地址}。如返回

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
Standard资源池节点故障定位 - AI开发平台ModelArts

Standard资源池节点故障定位节点故障定位对于Standard资源池，ModelArts平台在识别到节点故障后，通过给K8S节点增加污点的方式（taint）将节点隔离避免新作业调度到该节点而受到影响，并且使本次作业不受污点影响。当前可识别的故障类型如下，可通过隔离码及对应检测方法定位故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
时序预测-time - AI开发平台ModelArts

时序预测-time_series_v2算法部署在线服务预测报错问题现象在线服务预测报错：ERROR: data is shorter than windows。原因分析该报错说明预测使用的数据行数小于window超参值。在使用订阅算法时序预测-time_series_v2

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

VS Code连接后长时间未操作，连接自动断开问题现象 VS Code SSH连接后，长时间未操作，窗口未关闭，再次使用发现VS Code在重连环境，无弹窗报错。左下角显示如下图：查看VS Code Remote-SSH日志发现，连接在大约2小时后断开了：原因分析用户SSH

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

VS Code连接后长时间未操作，连接自动断开问题现象 VS Code SSH连接后，长时间未操作，窗口未关闭，再次使用发现VS Code在重连环境，无弹窗报错。左下角显示如下图：查看VS Code Remote-SSH日志发现，连接在大约2小时后断开了：原因分析用户SSH

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
算法运行时需要依赖鉴权服务，公共资源池是否支持两者打通网络？ - AI开发平台ModelArts

算法运行时需要依赖鉴权服务，公共资源池是否支持两者打通网络？不支持，公共资源池不能打通网络。可通过专属资源池打通网络，使用ModelArts服务。父主题： Standard资源池

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard资源池
产品发布说明 - AI开发平台ModelArts

产品发布说明昇腾云服务6.3.909版本说明昇腾云服务6.3.908版本说明昇腾云服务6.3.907版本说明（推荐）昇腾云服务6.3.906版本说明昇腾云服务6.3.905版本说明昇腾云服务6.3.904版本说明

 帮助中心 > AI开发平台ModelArts > 服务公告
使用AI市场物体检测YOLOv3 - AI开发平台ModelArts

使用AI市场物体检测YOLOv3_Darknet53算法训练后部署在线服务报错问题现象使用AI市场物体检测YOLOv3_Darknet53算法进行训练，将数据集切分后进行部署在线服务报错，日志如下：TypeError: Cannot interpret feed_dict key

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
内存不足如何处理？ - AI开发平台ModelArts

内存不足如何处理？问题现象在部署或升级在线服务时，如果部署或升级失败，并且在事件中出现如下类似提示。图1 内存不足提示样例1 运行中服务出现告警时，在事件中出现建议：内存不足，请增加内存。图2 内存不足提示样例2 原因分析部署或升级时出现该提示，可能原因是选择的计算节点规格内存太小

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器，

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
下线公告 - AI开发平台ModelArts
下线公告 - AI开发平台ModelArts

下线公告【下线公告】华为云ModelArts服务旧版训练管理下线公告【下线公告】华为云ModelArts服务模型转换下线公告【下线公告】华为云ModelArts旧版自动学习下线公告【下线公告】华为云ModelArts自动学习模块的文本分类功能下线公告【下线公告】华为云ModelArts

帮助中心 > AI开发平台ModelArts > 服务公告
环境准备 - AI开发平台ModelArts
环境准备 - AI开发平台ModelArts

环境准备迁移环境简介 ModelArts开发环境针对推理昇腾迁移的场景提供了云上可以直接访问的开发环境，具有如下优点：利用云服务的资源使用便利性，可以直接使用到不同规格的昇腾设备。通过指定对应的运行镜像，可以直接使用预置的、在迁移过程中所需的工具集，且已经适配到最新的版本可以直接使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导

总条数： 1249

上一页
1
...
10
11
12
...
63
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器没有任务但GPU被占用如何解决 - AI开发平台ModelArts

调用API接口创建训练作业和部署服务时，如何填写资源池的参数？ - AI开发平台ModelArts

托管模型到AI Gallery - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

在线服务运行中但是预测失败时，如何排查报错是不是模型原因导致的 - AI开发平台ModelArts

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

在线服务处于运行中状态时，如何填写推理请求的request header和request body - AI开发平台ModelArts

请求超时返回Timeout - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

时序预测-time - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

算法运行时需要依赖鉴权服务，公共资源池是否支持两者打通网络？ - AI开发平台ModelArts

产品发布说明 - AI开发平台ModelArts

使用AI市场物体检测YOLOv3 - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

下线公告 - AI开发平台ModelArts

环境准备 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线