搜索_华为云

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

性能调优性能测试 benchmark工具也可用于性能测试，其主要的测试指标为模型单次前向推理的耗时。在性能测试任务中，与精度测试不同，并不需要用户指定对应的输入（inDataFile）和输出的标杆数据（benchmarkDataFile），benchmark工具会随机生成一个输

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
数据集图片无法显示，如何解决？ - AI开发平台ModelArts

数据集图片无法显示，如何解决？问题现象创建的数据集，在进行标注时无法显示图片，单击单张图片也无法查看。或者数据集中提示图片加载异常。原因分析可能由于用户本地网络原因，无法正常访问OBS导致图片无法正常加载。可能由于没有OBS桶的访问权限导致，请检查数据集输入位置所在的OBS桶，是否具有访问权限。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

-n 1000 address 192.168.100.18 -tcp RoCE测试结果如图：图14 RoCE测试结果（接收端）图15 RoCE测试结果（服务端）当某网卡已经开始RoCE带宽测试时，再次启动任务会有如下报错：图16 报错信息需要执行下述命令后关闭roce_test任务后再启动任务。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
什么是区域、可用区？ - AI开发平台ModelArts

不同区域的资源价格可能有差异，请参见华为云服务价格详情。如何选择可用区？是否将资源放在同一可用区内，主要取决于您对容灾能力和网络时延的要求。如果您的应用需要较高的容灾能力，建议您将资源部署在同一区域的不同可用区内。如果您的应用要求实例之间的网络延时较低，则建议您将资源创建在同一可用区内。

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程自定义容器在ModelArts上训练和本地训练的区别如下图：图1 本地与ModelArts上训练对比 ModelArts上进行训练比本地训练多了一步OBS和容器环境的数据迁移工作。增加了和OBS交互工作的整个训练流程如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
欠拟合的解决方法有哪些？ - AI开发平台ModelArts

欠拟合的解决方法有哪些？模型复杂化。对同一个算法复杂化。例如回归模型添加更多的高次项，增加决策树的深度，增加神经网络的隐藏层数和隐藏单元数等。弃用原来的算法，使用一个更加复杂的算法或模型。例如用神经网络来替代线性回归，用随机森林来代替决策树。增加更多的特征，使输入数据具有更强的表达能力。特征

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？问题现象原因分析当前本地网络原因，导致远程自动安装VS Code Server时间过长。解决方法手动安装vscode-server。获取VS

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？问题现象原因分析当前本地网络原因，导致远程自动安装VS Code Server时间过长。解决方法打开VS Code，选择“Help>About”，并记下“Commit”的ID码。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

volumes=[nfs-x]”。原因分析用户账号下的SFS Turbo所在的VPC网络需要与专属资源池所在的网络打通，运行于该专属资源池的训练作业才能正常挂载SFS。因此，当训练作业挂载SFS失败时，可能是网络不通导致的。处理步骤进入训练作业详情页，在左侧获取SFS Turbo的名称。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
作为调用发起方的客户端无法访问已经获取到的推理请求地址 - AI开发平台ModelArts

I网关服务）的地址。调用发起方的客户端和华为云网络不通。处理方法如果客户端位于华为云网络之外，保证客户端所处的网络环境可以连接Internet；如果客户端位于华为云网络内，默认的网络配置即可以访问通这个地址，避免设置特殊的网络配置，例如防火墙规则等。建议与总结无父主题：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？ - AI开发平台ModelArts

报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？问题现象原因分析网络不通；端口不通。解决方法检查实例是否运行。请前往ModelArts控制台查看实例是否处于运行状态，如果实例已停止，请

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

弹性文件服务（Scalable File Service，SFS）提供按需扩展的高性能文件存储（NAS），可以在裸金属服务器中通过网络协议挂载使用，SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时，将数据放在SFS盘中，并发建立多个NFS链接、并发的读写数据、做大模型训练。但有时

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
步骤总览 - AI开发平台ModelArts
步骤总览 - AI开发平台ModelArts

步骤总览单机单卡资源购买：购买对象存储服务OBS 购买容器镜像服务SWR 创建网络购买ModelArts专属资源池基本配置：权限配置 obsutils安装和配置（可选）工作空间配置训练：线下容器镜像构建及调试上传镜像上传数据和算法至OBS（首次使用时需要）使用Notebook进行代码调试

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
Step4 测试用户权限 - AI开发平台ModelArts

Step4 测试用户权限由于4中的权限需要等待15-30分钟生效，建议在配置完成后，等待30分钟，再执行如下验证操作。使用用户组02中任意一个子账号登录ModelArts管理控制台。在登录页面，请使用“IAM用户登录”方式进行登录。首次登录会提示修改密码，请根据界面提示进行修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
服务韧性 - AI开发平台ModelArts
服务韧性 - AI开发平台ModelArts

检测等能力。安全防护套件覆盖和使用堡垒机，增强入侵检测和防御能力 ModelArts服务部署主机层、应用层、网络层和数据层的安全防护套件。及时检测主机层、应用层、网络层和数据层的安全入侵行为。 ModelArts服务涉及对互联网开放的Web应用，采用了统一推荐的Web安全组件防

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
PyCharm ToolKit工具中Edit Credential时，出现错误 - AI开发平台ModelArts

在本地PC的hosts文件中配置域名和IP地址的对应关系。三、网络代理设置如果用户使用的网络有代理设置要求，请检查代理配置是否正确。也可以使用手机热点网络连接进行测试排查。检查代理配置是否正确。图2 PyCharm网络代理设置四、AK/SK不正确获取到的AK/SK信息不正确

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > PyCharm Toolkit使用
使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

语句中的“logits”，表示根据不同网络中分类层权重的变量名，配置不同的参数。此处填写其对应的关键字。 mox.set_flag('checkpoint_exclude_patterns', 'logits') 如果使用的是MoXing内置网络，其对应的关键字需使用如下API获取

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

ranktable路由规划是一种用于分布式并行训练中的通信优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度。本案例介绍如何在ModelArts Lite场景下使用ranktable路由规划完成Pytorch NPU分布式训练任务，训练任务默认使用Volcano

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

在DevServer上部署SD WebUI推理服务本章节主要介绍如何在ModelArts的DevServer环境上部署Stable Diffusion的WebUI套件，使用NPU卡进行推理。步骤一准备环境请参考DevServer资源开通，购买DevServer资源，并确保

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD WEBUI套件适配PyTorch NPU的推理指导（6.3.908）

总条数： 830

上一页
1
2
3
4
5
...
42
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

数据集图片无法显示，如何解决？ - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

什么是区域、可用区？ - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

欠拟合的解决方法有哪些？ - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

作为调用发起方的客户端无法访问已经获取到的推理请求地址 - AI开发平台ModelArts

报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？ - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

步骤总览 - AI开发平台ModelArts

Step4 测试用户权限 - AI开发平台ModelArts

服务韧性 - AI开发平台ModelArts

PyCharm ToolKit工具中Edit Credential时，出现错误 - AI开发平台ModelArts

使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线