搜索_华为云

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。图2 volcano资源争抢解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境场景描述本文旨在指导如何在GPU裸金属服务器上，安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同，您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

AppKey和AppSecret不匹配当服务预测使用的AppKey和AppSecret不匹配时，报错“APIG.1009”：“AppKey or AppSecret is invalid”。查询AppKey和AppSecret，使用APP认证访问在线服务，请参考访问在线服务（APP认证）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
在ModelArts中部署模型时，为什么无法选择Ascend Snt3资源？ - AI开发平台ModelArts

nd Snt3资源？由于Ascend Snt3资源有限，当资源售罄后，您在部署上线时，无法选择Ascend Snt3资源（公共资源池）进行推理，即在部署页面中，“Ascend: 1* Snt3 (8GB) | ARM: 3 核 6GB”资源为灰色，无法选择。解决方案：方法1

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
在ModelArts中使用Moxing复制数据时如何定义路径变量？ - AI开发平台ModelArts

'obs://dyyolov8/yolov5_test/yolov5-7.0/datasets'), mox这个函数怎么定义以变量的形式填写OBS路径？解决方案变量定义参考如下示例： input_storage = './test.py' import moxing as mox

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

later”，同时在“日志”页签中，无任何信息。图1 部署在线服务异常解决方法出现此问题现象，通常是因为您部署的模型过大导致的。解决方法如下：精简模型，重新导入模型和部署上线。购买专属资源池，在部署上线为在线服务时，使用专属资源池进行部署。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
配置Lite Server存储 - AI开发平台ModelArts

件，需要先格式化文件系统后使用。访问方式在BMS中通过网络协议挂载使用，支持NFS和CIFS的网络协议。需要指定网络地址进行访问，也可以将网络地址映射为本地目录后进行访问。可以通过互联网或专线访问。需要指定桶地址进行访问，使用的是HTTP和HTTPS等传输协议。只能在BM

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
身份认证与访问控制 - AI开发平台ModelArts

服务的资源。基于策略授权时，管理员可以按ModelArts的资源类型选择授权范围。详细的资源权限项可以参见API参考中的权限策略和授权项章节。委托授权为了完成AI计算的各种操作，ModelArts在AI计算任务执行过程中需要访问用户的其他服务，例如训练过程中，需要访问OBS读

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 ModelArts Lite Cluster会定期收集资源池中各节点的关键资源（GPU、NPU、CPU、Memory等）的使用情况并上报到AOM，用户可直接在AOM上查看默认配置好的基础指标，也支持用户自定义一些指标项上报到AOM查看。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
准备推理环境 - AI开发平台ModelArts

准备推理环境前提条件已准备Lite Server资源，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。安装过程需要连接互联网git clone，确保容器可以访问公网。步骤一：检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
工作负载Pod异常 - AI开发平台ModelArts

通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

xxx: Connection timed out"如何解决？问题现象原因分析原因分析一：实例配置的白名单IP与本地网络访问IP不符。解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
服务预测失败 - AI开发平台ModelArts

I网关）出现问题而被拦截。常见问题请参见服务预测失败，报错APIG.XXXX。其他被APIG（API网关）拦截的场景： Method Not Allowed 请求超时返回Timeout 出现ModelArts.XXXX类型的报错，表示请求在Dispatcher出现问题而被拦截。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
工作负载Pod异常 - AI开发平台ModelArts

通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
创建训练任务 - AI开发平台ModelArts

创建训练任务针对专属池场景，应注意挂载的目录设置和调试时一致。登录ModelArts管理控制台，检查当前账号是否已完成访问授权的配置。如果未完成，请参考使用委托授权。针对之前使用访问密钥授权的用户，建议清空授权，然后使用委托进行授权。在左侧导航栏中选择“模型训练 > 训练作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
显存溢出错误 - AI开发平台ModelArts

max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。父主题：常见错误原因和解决方法

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。父主题：常见错误原因和解决方法

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
配置kubectl工具 - AI开发平台ModelArts

登录ModelArts管理控制台，在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”，进入“弹性集群 Cluster”页面，选择“Lite 资源池”页签。在“Lite资源池”页签中，单击创建的Lite Cluster专属资源池，进入资源池详情页面。图1 资源池详情-基本信息单击基本信息列

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置

总条数： 714

上一页
1
...
4
5
6
...
36
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

在ModelArts中部署模型时，为什么无法选择Ascend Snt3资源？ - AI开发平台ModelArts

在ModelArts中使用Moxing复制数据时如何定义路径变量？ - AI开发平台ModelArts

自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

身份认证与访问控制 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

准备推理环境 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

服务预测失败 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

配置kubectl工具 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线