搜索_华为云

GPU A系列裸金属服务器没有任务但GPU被占用如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器没有任务但GPU被占用如何解决问题现象服务器没有任务，但GPU显示被占用。图1 显卡运行状态处理方法 nvidia-smi -pm 1 父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在ModelArts使用自定义镜像创建训练作业时如何激活conda环境？ - AI开发平台ModelArts

在ModelArts使用自定义镜像创建训练作业时如何激活conda环境？由于训练作业运行时不是交互式的shell环境，因此无法直接使用“conda activate”命令激活指定的conda环境。但是，在自定义镜像中可参考以下命令激活conda环境： source /home/

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
模型包结构介绍 - AI开发平台ModelArts

模型文件）推荐使用自定义镜像方式。 ModelArts推理平台不支持的AI引擎，推荐使用自定义镜像方式。请参考创建AI应用的自定义镜像规范和从0-1制作自定义镜像并创建AI应用，制作自定义镜像。推荐在开发环境Notebook中调试模型包，制作自定义镜像。请参考在开发环境中构建

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linu

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

A系列裸金属服务器如何进行RoCE性能带宽测试？场景描述本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。前提条件 GPU A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
迁移环境准备 - AI开发平台ModelArts

演示、体验和快速原型调试场景。优点：可快速、低成本地搭建环境，使用标准化容器镜像，官方notebook示例可直接运行。缺点：由于是容器化环境因此不如裸机方式灵活，例如不支持root权限操作、驱动更新等。环境开通指导参考：Notebook环境创建。样例演示可参考Notebook样例：Stable

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
使用python3.6-torch1.4版本镜像环境安装MMCV报错 - AI开发平台ModelArts

使用python3.6-torch1.4版本镜像环境安装MMCV报错问题现象日志报错中存在AssertionError: MMCV==1.2.5 is used but incompatible. Please install mmcv>=1.3.1, <=1.5.0。原因分析

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
导入模型 - AI开发平台ModelArts
导入模型 - AI开发平台ModelArts

导入模型如何将Keras的.h5格式模型导入到ModelArts中导入模型时，模型配置文件中的安装包依赖参数如何编写？使用自定义镜像创建在线服务，如何修改默认端口 ModelArts平台是否支持多模型导入导入AI应用对于镜像大小的限制父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 模型管理
批量更新样本标签 - AI开发平台ModelArts

批量更新样本标签功能介绍批量更新样本标签，包括添加、修改和删除样本标签。当请求体中单个样本的“labels”参数传空列表时，表示删除该样本的标签。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
API概览 - AI开发平台ModelArts
API概览 - AI开发平台ModelArts

量删除。镜像管理查询支持的镜像列表根据指定条件分页查询满足条件的所有镜像。注册自定义镜像将用户自定义的镜像注册到ModelArts镜像管理。查询用户镜像组列表查询用户镜像信息概览，以镜像名称作为聚合的信息。查询镜像详情查询镜像详情。删除镜像删除镜像对象，对于

 帮助中心 > AI开发平台ModelArts > API参考
服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

容器提供的健康检查接口调用失败。容器健康检查接口调用失败，原因可能有两种：镜像健康检查配置问题 AI应用健康检查配置问题解决方法根据容器日志进行排查，查看健康检查接口失败的具体原因。镜像健康检查配置问题，需修复代码后重新制作镜像创建AI应用后部署服务。了解镜像健康接口配置请参考模型配置文件编写说明中health参数说明。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
使用ModelArts VS Code插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

钟。详细操作请参考保存Notebook镜像环境。查看所保存的镜像保存后的镜像可以在ModelArts控制台“镜像管理”页面查看到该镜像详情。单击镜像的名称，进入镜像详情页，可以查看镜像版本/ID，状态，资源类型，镜像大小，SWR地址等。步骤5：使用SDK提交训练作业本地调

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
端到端运维ModelArts Standard推理服务方案 - AI开发平台ModelArts

以出行场景的司乘安全算法为例，介绍使用ModelArts进行流程化服务部署和更新、自动化服务运维和监控的实现步骤。图3 司乘安全算法将用户本地开发完成的模型，使用自定义镜像在ModelArts构建成AI应用。具体操作请参考从0-1制作自定义镜像并创建AI应用。在ModelArts管理控制台，使用创建好的AI应用部署为在线服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器，单台服务

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
创建Workflow模型注册节点 - AI开发平台ModelArts

steps=[model_registration] ) 从自定义镜像中注册模型 import modelarts.workflow as wf # 通过ModelStep来定义一个模型注册节点，输入来源于自定义镜像地址 # 定义镜像数据 swr = wf.data.SWRImagePla

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

前ModelArts支持的昇腾迁移调优工具及对应指导。表格中的部分工具已集成到ModelArts基础镜像中（镜像地址详见基础镜像章节），若您使用的是ModelArts基础镜像，可先尝试直接使用工具命令，如果相关命令不存在则需要参考工具安装指导自行安装。表1 ModelArts昇腾迁移调优工具总览表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

使用从容器镜像中选择创建AI应用时，在构建镜像环节，需要采用业界公开的可信基础镜像，例如来自OpenEuler，Ubuntu等的发布镜像，镜像运行用户需要创建非root普通用户，不能采用root用户直接运行。镜像中只安装运行时依赖的安全包，减少镜像的大小，同时安装包需要更新到最新的

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
更新服务配置 - AI开发平台ModelArts

更新服务配置功能介绍更新模型服务配置。也可以使用此接口启停服务。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI PUT /v1/{project_id}/services/{service_id}

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理

总条数： 870

上一页
1
...
8
9
10
...
44
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器没有任务但GPU被占用如何解决 - AI开发平台ModelArts

在ModelArts使用自定义镜像创建训练作业时如何激活conda环境？ - AI开发平台ModelArts

模型包结构介绍 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

迁移环境准备 - AI开发平台ModelArts

使用python3.6-torch1.4版本镜像环境安装MMCV报错 - AI开发平台ModelArts

导入模型 - AI开发平台ModelArts

批量更新样本标签 - AI开发平台ModelArts

API概览 - AI开发平台ModelArts

服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

使用ModelArts VS Code插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

端到端运维ModelArts Standard推理服务方案 - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

创建Workflow模型注册节点 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

安全边界 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线