搜索_华为云

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题问题现象创建模型成功后，部署服务失败，如何定位是模型代码编写有问题。原因分析用户自定义镜像或者通过基础镜像导入的模型时，用户自己编写了很多自定义的业务逻辑，这些逻辑有问题将会导致服务部署或者预测失败，需要能够排查出哪里有问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
PyCharm ToolKit工具中Edit Credential时，出现错误 - AI开发平台ModelArts

在本地PC的hosts文件中配置域名和IP地址的对应关系。三、网络代理设置如果用户使用的网络有代理设置要求，请检查代理配置是否正确。也可以使用手机热点网络连接进行测试排查。检查代理配置是否正确。图2 PyCharm网络代理设置四、AK/SK不正确获取到的AK/SK信息不正确

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > PyCharm Toolkit使用
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

Cluster资源池上使用Snt9B完成分布式训练任务场景描述本案例介绍如何在Snt9B上进行分布式训练任务，其中Cluster资源池已经默认安装volcano调度器，训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型，详细代码和指导可参考Bert。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
工具介绍及准备工作 - AI开发平台ModelArts

base块：基础配置块 ModelName块：该模型所需配置的参数，如qwen2.5-7b块样例截图如下：开始训练测试，具体步骤参考训练性能测试或训练精度测试，根据实际情况决定。父主题：训练benchmark工具

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

ping命令是一种基于ICMP协议（Internet Control Message Protocol）的网络诊断工具，利用ICMP协议向目标主机发送数据包并接收返回的数据包来判断网络连接质量。当安全组的入方向规则中没有包含ICMP协议，就会出现ping不通的问题。处理方法在当前安全组的

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
专属资源池VPC打通 - AI开发平台ModelArts

“AI专属资源池 > 弹性集群Cluster”，在“网络”页签，单击网络列表中某个网络操作列的“打通VPC”。图1 打通VPC 在打通VPC弹框中，打开“打通VPC”开关，在下拉框中选择可用的VPC和子网。需要打通的对端网络不能和当前网段重叠。图2 打通VPC参数选择如果

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

场景描述本案例介绍如何在Snt9B环境中利用Deployment机制部署在线推理服务。首先创建一个Pod以承载服务，随后登录至该Pod容器内部署在线服务，并最终通过新建一个终端作为客户端来访问并测试该在线服务的功能。图1 任务示意图操作步骤拉取镜像。本测试镜像为bert_p

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决问题现象创建资源池时作业类型选择了推理服务，资源池创建成功后推理一直显示“环境初始化。原因分析专属池网段和推理微服务dispatcher网段冲突，导致专属池上的VPCEP终端节点无法创建，该region无法使用此网段创建包含推理服务的资源池。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
Lite Cluster资源配置流程 - AI开发平台ModelArts

举例。仅做测试验证，可以不需要通过创建deployment或者volcano job的方式，直接启动容器进行测试。训练测试用例使用NLP的bert模型，详细代码和指导可参考Bert。拉取镜像。本测试镜像为bert_pretrain_mindspore:v1，已经把测试数据和代码打进镜像中。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
数据集图片无法显示，如何解决？ - AI开发平台ModelArts

数据集图片无法显示，如何解决？问题现象创建的数据集，在进行标注时无法显示图片，单击单张图片也无法查看。或者数据集中提示图片加载异常。原因分析可能由于用户本地网络原因，无法正常访问OBS导致图片无法正常加载。可能由于没有OBS桶的访问权限导致，请检查数据集输入位置所在的OBS桶，是否具有访问权限。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
创建Standard专属资源池 - AI开发平台ModelArts

指定可用区：自定义选择控制节点的可用区。网络 MA网络指定资源池运行的网络，可以与该网络中的其他云服务资源实例互通。仅物理资源池需要设置网络。在下拉框中选择，如果没有可用网络，单击右侧的“创建”，创建一个可用的网络。创建网络相关可以参考步骤一：创建网络章节。 IPv6网络开启IPv6功能。如

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
工具介绍及准备工作 - AI开发平台ModelArts

base块：基础配置块 ModelName块：该模型所需配置的参数，如qwen2.5-7b块样例截图如下：开始训练测试，具体步骤参考训练性能测试或训练精度测试，根据实际情况决定。父主题：训练benchmark工具

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
什么是区域、可用区？ - AI开发平台ModelArts

不同区域的资源价格可能有差异，请参见华为云服务价格详情。如何选择可用区？是否将资源放在同一可用区内，主要取决于您对容灾能力和网络时延的要求。如果您的应用需要较高的容灾能力，建议您将资源部署在同一区域的不同可用区内。如果您的应用要求实例之间的网络延时较低，则建议您将资源创建在同一可用区内。

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
按需计费 - AI开发平台ModelArts
按需计费 - AI开发平台ModelArts

无需任何预付款或长期承诺的用户。本文将介绍按需计费资源的计费规则。适用场景按需计费适用于资源需求波动的场景，例如面向ToC业务的AIGC推理场景，客户业务量会随时间有规律的波动，按需计费模式能大幅降低客户的业务成本。可在运行自动学习作业、Workflow工作流、创建Noteb

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
服务启动失败 - AI开发平台ModelArts

服务启动失败，提示拉取镜像失败，请参考服务部署、启动、升级和修改时，拉取镜像失败如何处理？资源不足，服务调度失败服务启动失败，提示资源不足，服务调度失败，请参考服务部署、启动、升级和修改时，资源不足如何处理？内存不足服务启动失败，提示内存不足，请参考内存不足如何处理？父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
欠拟合的解决方法有哪些？ - AI开发平台ModelArts

欠拟合的解决方法有哪些？模型复杂化。对同一个算法复杂化。例如回归模型添加更多的高次项，增加决策树的深度，增加神经网络的隐藏层数和隐藏单元数等。弃用原来的算法，使用一个更加复杂的算法或模型。例如用神经网络来替代线性回归，用随机森林来代替决策树。增加更多的特征，使输入数据具有更强的表达能力。特征

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
作为调用发起方的客户端无法访问已经获取到的推理请求地址 - AI开发平台ModelArts

I网关服务）的地址。调用发起方的客户端和华为云网络不通。处理方法如果客户端位于华为云网络之外，保证客户端所处的网络环境可以连接Internet；如果客户端位于华为云网络内，默认的网络配置即可以访问通这个地址，避免设置特殊的网络配置，例如防火墙规则等。建议与总结无父主题：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？ - AI开发平台ModelArts

报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？问题现象原因分析网络不通；端口不通。解决方法检查实例是否运行。请前往ModelArts控制台查看实例是否处于运行状态，如果实例已停止，请

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

volumes=[nfs-x]”。原因分析用户账号下的SFS Turbo所在的VPC网络需要与专属资源池所在的网络打通，运行于该专属资源池的训练作业才能正常挂载SFS。因此，当训练作业挂载SFS失败时，可能是网络不通导致的。处理步骤进入训练作业详情页，在左侧获取SFS Turbo的名称。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业

总条数： 955

上一页
1
...
4
5
6
...
48
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

PyCharm ToolKit工具中Edit Credential时，出现错误 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

专属资源池VPC打通 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

数据集图片无法显示，如何解决？ - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

什么是区域、可用区？ - AI开发平台ModelArts

按需计费 - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

欠拟合的解决方法有哪些？ - AI开发平台ModelArts

作为调用发起方的客户端无法访问已经获取到的推理请求地址 - AI开发平台ModelArts

报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？ - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线