搜索_华为云

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃在Notebook实例中运行训练代码，如果数据量太大或者训练层数太多，亦或者其他原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 代码运行常见错误
自动学习和订阅算法有什么区别？ - AI开发平台ModelArts

自动学习和订阅算法有什么区别？针对不同目标群体，ModelArts提供不同的AI开发方式。如果您是新手，推荐您使用自动学习实现零代码模型开发。当您使用自动学习，系统会自动选择适合的算法和适合的参数进行模型训练。如果您是AI开发进阶者，通过订阅算法进行模型训练有更多算法上的选择，并且您可以自定义训练所需的参数。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 功能咨询
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标背景信息 Prometheus是一款开源监控工具，ModelArts支持Exporter功能，方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。使用说明该功能为白名单功能，如需要使用，请联系提交工单开通此功能。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃在Notebook实例中运行训练代码，如果数据量太大或者训练层数太多，亦或者其他原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
MaaS使用场景和使用流程 - AI开发平台ModelArts

MaaS使用场景和使用流程 ModelArts Studio大模型即服务平台（后续简称为MaaS服务），提供了简单易用的模型开发工具链，支持大模型定制开发，让模型应用与业务系统无缝衔接，降低企业AI落地的成本与难度。当您第一次使用MaaS服务时，可以参考快速入门使用ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
导入AI应用后部署服务，提示磁盘不足 - AI开发平台ModelArts

导入AI应用后部署服务，提示磁盘不足问题现象用户在导入AI应用后，部署服务时，提示磁盘空间不足：“No space left on device”。原因分析 ModelArts部署使用的是容器化部署，容器运行时有空间大小限制，当用户的模型文件或者其他自定义文件，系统文件超过Docker

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > AI应用管理
报错“Permissions for 'x:/xxx.pem' are too open”如何解决？ - AI开发平台ModelArts

报错“Permissions for 'x:/xxx.pem' are too open”如何解决？问题现象原因分析原因分析一：密钥文件未放在指定路径，详情请参考安全限制或VS Code文档。请参考解决方法一处理。原因分析二：当操作系统为macOS/Linux时，可能是密

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Tensorflow+GPU）本章节介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是Tensorflow，训练使用的资源是GPU。本实践教程仅适用于新版训练作业。场景描述本示例使用Linux

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
报错“Permissions for 'x:/xxx.pem' are too open”如何解决？ - AI开发平台ModelArts

报错“Permissions for 'x:/xxx.pem' are too open”如何解决？问题现象原因分析原因分析一：密钥文件未放在指定路径，详情请参考安全限制或VS Code文档。请参考解决方法一处理。原因分析二：当操作系统为macOS/Linux时，可能是密

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
使用AppCode认证鉴权方式进行在线预测 - AI开发平台ModelArts

使用AppCode认证鉴权方式进行在线预测场景描述 APPcode认证是一种简易的API调用认证方式，通过在HTTP请求头中添加参数X-Apig-AppCode来实现身份认证，无需复杂的签名过程，适合于客户端环境安全可控的场景，如内网系统之间的API调用。在ModelArts中

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
训练模型时引用依赖包，如何创建训练作业？ - AI开发平台ModelArts

训练模型时引用依赖包，如何创建训练作业？ ModelArts支持训练模型过程中安装第三方依赖包。在训练代码目录下放置“pip-requirements.txt”文件后，在训练启动文件被执行前系统会执行如下命令，以安装用户指定的Python Packages。 pip install

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
AIGC工具tailor使用指导 - AI开发平台ModelArts

AIGC工具tailor使用指导 tailor简介 tailor是AIGC场景下用于模型转换（onnx到mindir）和性能分析的辅助工具，当前支持以下功能。表1 功能总览功能大类具体功能模型转换固定shape转模型动态shape传入指定档位转模型支持fp32 支持AOE优化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
训练作业失败，返回错误码139 - AI开发平台ModelArts

训练作业失败，返回错误码139 问题现象训练作业运行失败，返回错误码139，如下图所示： [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？场景描述本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。前提条件 GPU A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
示例：从 0 到 1 制作自定义镜像并用于训练（Pytorch+CPU/GPU） - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（Pytorch+CPU/GPU）本章节介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch，训练使用的资源是CPU或GPU。本实践教程仅适用于新版训练作业。场景描述本示例使用Linux

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
使用大模型在ModelArts Standard创建AI应用部署在线服务 - AI开发平台ModelArts

使用大模型在ModelArts Standard创建AI应用部署在线服务背景说明目前大模型的参数量已经达到千亿甚至万亿，随之大模型的体积也越来越大。千亿参数大模型的体积超过200G，在版本管理、生产部署上对平台系统产生了新的要求。例如：导入AI应用时，需要支持动态调整租户存储

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU）本章节介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是MPI，训练使用的资源是CPU或GPU。本实践教程仅适用于新版训练作业。场景描述本示例使用Linux x86_

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
使用CES监控Lite Server资源 - AI开发平台ModelArts

使用CES监控Lite Server资源场景描述本文主要介绍如何配置华为云BMS+CES联合提供的裸金属服务器的指标监控方案，可帮助您查看CPU相关监控指标、CPU负载类相关监控指标、内存相关监控指标、磁盘相关监控指标、磁盘I/O类、文件系统类、网卡类、软RAID相关监控指标和进程相关监控指标。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

使用ModelArts时提示“权限不足”，如何解决？当您使用ModelArts时如果提示权限不足，请您按照如下指导对相关服务和用户进行授权，并对用户权限进行检查操作。以下案例以缺失OBS权限不足为例，介绍如何进行授权操作。由于ModelArts的使用权限依赖OBS服务的授权，您需要为用户授予OBS的系统权限。

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题

总条数： 428

上一页
1
2
3
4
5
...
22
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

自动学习和订阅算法有什么区别？ - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

MaaS使用场景和使用流程 - AI开发平台ModelArts

导入AI应用后部署服务，提示磁盘不足 - AI开发平台ModelArts

报错“Permissions for 'x:/xxx.pem' are too open”如何解决？ - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

报错“Permissions for 'x:/xxx.pem' are too open”如何解决？ - AI开发平台ModelArts

使用AppCode认证鉴权方式进行在线预测 - AI开发平台ModelArts

训练模型时引用依赖包，如何创建训练作业？ - AI开发平台ModelArts

AIGC工具tailor使用指导 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（Pytorch+CPU/GPU） - AI开发平台ModelArts

使用大模型在ModelArts Standard创建AI应用部署在线服务 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线