搜索_华为云

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查询OS的配额 - AI开发平台ModelArts

查询OS的配额功能介绍获取ModelArts OS服务中部分资源的配额，如资源池配额、网络配额等。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1

帮助中心 > AI开发平台ModelArts > API参考 > 配额管理
Lite Cluster&Server介绍 - AI开发平台ModelArts

Lite Cluster&Server介绍 ModelArts Lite基于软硬件深度结合、垂直优化，构建开放兼容、极致性价比、长稳可靠、超大规模的云原生AI算力集群，提供一站式开通、网络互联、高性能存储、集群管理等能力，满足AI高性能计算等场景需求。目前其已在大模型训练推理、自

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
准备镜像环境 - AI开发平台ModelArts

准备镜像环境 Step1 检查环境请参考DevServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
准备镜像环境 - AI开发平台ModelArts

准备镜像环境 Step1 检查环境请参考DevServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
版本说明和要求 - AI开发平台ModelArts

版本说明和要求资源规格要求本文档中的模型运行环境是ModelArts Lite的弹性节点Server。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。请参考Lite Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

在DevServer上部署SD WebUI推理服务本章节主要介绍如何在ModelArts的DevServer环境上部署Stable Diffusion的WebUI套件，使用NPU卡进行推理。步骤一准备环境请参考DevServer资源开通，购买DevServer资源，并确保

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD WEBUI套件适配PyTorch NPU的推理指导（6.3.908）
与其他云服务的关系 - AI开发平台ModelArts

与其他云服务的关系图1 ModelArts与其他服务的关系示意图与统一身份认证服务的关系 ModelArts使用统一身份认证服务（Identity and Access Management，简称IAM）实现认证功能。IAM的更多信息请参见《统一身份认证服务产品文档》。与对象存储服务的关系

 帮助中心 > AI开发平台ModelArts > 产品介绍
ModelArts与其他服务的关系 - AI开发平台ModelArts

ModelArts与其他服务的关系图1 ModelArts与其他服务的关系示意图与统一身份认证服务的关系 ModelArts使用统一身份认证服务（Identity and Access Management，简称IAM）实现认证功能。IAM的更多信息请参见《统一身份认证服务用户指南》。

帮助中心 > AI开发平台ModelArts > 常见问题 > 历史文档待下线
Lite Server资源开通 - AI开发平台ModelArts

Lite Server资源开通图1 Server资源开通流程图表1 Server资源开通流程阶段任务准备工作 1、申请开通资源规格。 2、资源配额提升。 3、基础权限开通。 4、配置ModelArts委托授权。 5、创建虚拟私有云。 6、创建密钥对。（可选，若为密码登录方式则不需要）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
查询算法详情 - AI开发平台ModelArts

i18n_description 参数参数类型描述 language String 国际语种，可选值如下： zh-cn（中文） en-us（英文） description String 国际化语种的描述信息。表8 inputs 参数参数类型描述 name String 数据输入通道名称。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU）本文介绍了使用训练作业的自定义镜像+自定义启动命令来启动PyTorch DDP on Ascend加速卡训练。前提条件需要有Ascend加速卡资源池。创建训练作业本案例创建训练作业时，需要配置如下参数。表1 创建训练作业的配置说明

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

ModelArts Standard的WebSocket在线服务全流程开发背景说明 WebSocket是一种网络传输协议，可在单个TCP连接上进行全双工通信，位于OSI模型的应用层。WebSocket协议在2011年由IETF标准化为RFC 6455，后由RFC 7936补充规范。Web

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
服务预测失败 - AI开发平台ModelArts

服务预测失败问题现象在线服务部署完成且服务已经处于“运行中”的状态，向服务发起推理请求，预测失败。原因分析及处理方法服务预测需要经过客户端、外部网络、APIG、Dispatch、模型服务多个环节。每个环节出现都会导致服务预测失败。图1 推理服务流程图出现APIG.XX

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务背景说明 WebSocket是一种网络传输协议，可在单个TCP连接上进行全双工通信，位于OSI模型的应用层。WebSocket协议在2011年由IETF标准化为RFC 6455，后由RFC 7936补充规范。Web IDL中的WebSocket

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
msprobe精度分析工具使用指导 - AI开发平台ModelArts

msprobe精度分析工具使用指导 msprobe是MindStudio Training Tools工具链下精度调试部分的工具包，其通过采集和对比标杆（GPU/CPU）环境和昇腾环境上运行训练时的差异点来判断问题所在，主要包括精度预检、精度比对和梯度监控等功能。更多内容请参考msprobe工具介绍。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
Standard资源管理 - AI开发平台ModelArts

Standard资源管理在使用ModelArts进行AI开发时，您可以选择使用如下两种资源池：专属资源池：专属资源池提供独享的计算资源，不与其他用户共享，资源更可控。使用ModelArts Standard开发平台的训练作业、部署模型以及开发环境时，可以使用Standard专

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表2。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表2。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作

总条数： 538

上一页
1
...
6
7
8
...
27
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

查询OS的配额 - AI开发平台ModelArts

Lite Cluster&Server介绍 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

版本说明和要求 - AI开发平台ModelArts

在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

与其他云服务的关系 - AI开发平台ModelArts

ModelArts与其他服务的关系 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

查询算法详情 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

服务预测失败 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

Standard资源管理 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线