搜索_华为云

运行训练作业时提示URL连接超时 - AI开发平台ModelArts

运行训练作业时提示URL连接超时问题现象训练作业在运行时提示URL连接超时，具体报错如下： urllib.error.URLERROR:<urlopen error [Errno 110] Connection timed out> 原因分析由于安全性问题在ModelArts

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

在DevServer上部署SD WebUI推理服务本章节主要介绍如何在ModelArts的DevServer环境上部署Stable Diffusion的WebUI套件，使用NPU卡进行推理。步骤一准备环境请参考DevServer资源开通，购买DevServer资源，并确保机器已开通

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD WEBUI套件适配PyTorch NPU的推理指导（6.3.908）
委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

委托授权ModelArts云服务使用SFS Turbo 本章节介绍如何配置ModelArts委托权限，允许用户使用专属资源池的网络中的“关联sfsturbo”和“解除关联”功能。当用户新增委托并授权操作SFS Turbo时，请参考新增委托授权操作SFS Turbo。当用户为已有的委托新增权限

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
Lite Server资源开通 - AI开发平台ModelArts

Lite Server资源开通图1 Server资源开通流程图表1 Server资源开通流程阶段任务准备工作 1、申请开通资源规格。 2、资源配额提升。 3、基础权限开通。 4、配置ModelArts委托授权。 5、创建虚拟私有云。 6、创建密钥对。（可选，若为密码登录方式则不需要

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
请求超时返回Timeout - AI开发平台ModelArts

请求超时返回Timeout 问题现象服务预测请求超时原因分析请求超时，大概率是APIG（API网关）拦截问题。需排查APIG（API网关）和模型。处理方法优先排查APIG（API网关）是否是通的，可以在本地使用curl命令排查，命令行：curl -kv {预测地址}。如返回

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
版本说明和要求 - AI开发平台ModelArts

版本说明和要求资源规格要求本文档中的模型运行环境是ModelArts Lite的弹性节点Server。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。请参考Lite Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，能通过

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

ModelArts Standard的WebSocket在线服务全流程开发背景说明 WebSocket是一种网络传输协议，可在单个TCP连接上进行全双工通信，位于OSI模型的应用层。WebSocket协议在2011年由IETF标准化为RFC 6455，后由RFC 7936补充规范

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
Lite Cluster&Server介绍 - AI开发平台ModelArts

Lite Cluster&Server介绍 ModelArts Lite基于软硬件深度结合、垂直优化，构建开放兼容、极致性价比、长稳可靠、超大规模的云原生AI算力集群，提供一站式开通、网络互联、高性能存储、集群管理等能力，满足AI高性能计算等场景需求。目前其已在大模型训练推理、自动驾驶

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
服务预测失败 - AI开发平台ModelArts

服务预测失败问题现象在线服务部署完成且服务已经处于“运行中”的状态，向服务发起推理请求，预测失败。原因分析及处理方法服务预测需要经过客户端、外部网络、APIG、Dispatch、模型服务多个环节。每个环节出现都会导致服务预测失败。图1 推理服务流程图出现APIG.XXXX

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务背景说明 WebSocket是一种网络传输协议，可在单个TCP连接上进行全双工通信，位于OSI模型的应用层。WebSocket协议在2011年由IETF标准化为RFC 6455，后由RFC 7936补充规范。Web IDL中的WebSocket

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
msprobe精度分析工具使用指导 - AI开发平台ModelArts

msprobe精度分析工具使用指导 msprobe是MindStudio Training Tools工具链下精度调试部分的工具包，其通过采集和对比标杆（GPU/CPU）环境和昇腾环境上运行训练时的差异点来判断问题所在，主要包括精度预检、精度比对和梯度监控等功能。更多内容请参考msprobe

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
准备镜像环境 - AI开发平台ModelArts

准备镜像环境 Step1 检查环境请参考DevServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
准备镜像环境 - AI开发平台ModelArts

准备镜像环境 Step1 检查环境请参考DevServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表2。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表2。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决问题现象创建资源池时作业类型选择了推理服务，资源池创建成功后推理一直显示“环境初始化。原因分析专属池网段和推理微服务dispatcher网段冲突，导致专属池上的VPCEP终端节点无法创建，该region无法使用此网段创建包含推理服务的资源池

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
使用CES监控Lite Server资源 - AI开发平台ModelArts

使用CES监控Lite Server资源场景描述 Lite Server的监控能力依赖于CES云监控服务。本文主要介绍如何对接CES云监控服务，对Lite Server上的资源和事件进行监控。监控方案介绍监控概述请参考BMS官方文档。除文档所列支持的镜像之外，目前还支持Ubuntu20.04

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
如何关闭Mox的warmup - AI开发平台ModelArts

如何关闭Mox的warmup 问题现象训练作业mox的Tensorflow版本在运行的时候，会先执行“50steps” 4次，然后才会开始正式运行。 warmup即先用一个小的学习率训练几个epoch（warmup），由于网络的参数是随机初始化的，如果一开始就采用较大的学习率会出现数值不稳定的问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU）本文介绍了使用训练作业的自定义镜像+自定义启动命令来启动PyTorch DDP on Ascend加速卡训练。前提条件需要有Ascend加速卡资源池。创建训练作业本案例创建训练作业时，需要配置如下参数。表1 创建训练作业的配置说明

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练

总条数： 470

上一页
1
2
3
4
5
...
24
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

运行训练作业时提示URL连接超时 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

请求超时返回Timeout - AI开发平台ModelArts

版本说明和要求 - AI开发平台ModelArts

ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

Lite Cluster&Server介绍 - AI开发平台ModelArts

服务预测失败 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

如何关闭Mox的warmup - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线