搜索_华为云

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务场景描述本案例介绍如何在Snt9B环境中利用Deployment机制部署在线推理服务。首先创建一个Pod以承载服务，随后登录至该Pod容器内部署在线服务，并最终通过新建一个终端作为客户端来访问并测试该在线服务的功能。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
使用Qwen2.5-72B-1K、Qwen2.5-32B调优的Checkpoint创建模型时，权重校验失败 - AI开发平台ModelArts

5-72B-1K、Qwen2.5-32B调优的Checkpoint创建模型时，权重校验失败问题现象使用Qwen2.5-72B-1K、Qwen2.5-32B调优的Checkpoint创建模型时，权重校验失败。版本详情的报错信息如下： Insufficient storage space;solution:The

帮助中心 > AI开发平台ModelArts > 常见问题 > Studio
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境场景描述本文旨在指导如何在GPU裸金属服务器上，安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同，您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
数据集版本发布失败 - AI开发平台ModelArts

数据集版本发布失败出现此问题时，表示数据不满足数据管理模块的要求，导致数据集发布失败，无法执行自动学习的下一步流程。请根据如下几个要求，检查您的数据，将不符合要求的数据排除后再重新启动自动学习的训练任务。 ModelArts.4710 OBS权限问题 ModelArts在跟O

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 准备数据
Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

问题现象训练失败并提示“Cann软件与Ascend驱动版本不匹配”。原因分析当昇腾规格的训练作业在ModelArts训练平台上运行时，会自动对Cann软件与Ascend驱动的版本匹配情况进行检查。如果平台发现版本不匹配，则会立即训练失败，避免后续无意义的运行时长。解决方案专属资

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务场景描述本案例介绍如何在Snt9B上进行分布式训练任务，其中Cluster资源池已经默认安装volcano调度器，训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型，详细代码和指导可参考Bert。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

s等第三方监控系统获取ModelArts采集到的指标数据。本章节主要介绍如何通过Prometheus查看Lite Cluster监控指标。约束限制需要在ModelArts Lite Cluster资源池详情页的配置管理页面中先打开“监控”开关。开通此功能后，兼容Prome

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
Lite Cluster资源管理 - AI开发平台ModelArts

Cluster资源管理 Lite Cluster资源管理介绍管理Lite Cluster资源池管理Lite Cluster节点池管理Lite Cluster节点扩缩容Lite Cluster资源池升级Lite Cluster资源池驱动升级Lite Cluster资源池单个节点驱动

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
权限配置 - AI开发平台ModelArts
权限配置 - AI开发平台ModelArts

授予子用户使用ModelArts服务的权限。 ModelArts CommonOperations没有任何专属资源池的创建、更新、删除权限，只有使用权限。推荐给子用户配置此权限。如果需要给子用户开通专属资源池的创建、更新、删除权限，此处要勾选ModelArts FullAccess，请谨慎配置。 ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
Lite Cluster资源配置 - AI开发平台ModelArts

Lite Cluster资源配置 Lite Cluster资源配置流程配置Lite Cluster网络配置kubectl工具配置Lite Cluster存储（可选）配置驱动（可选）配置镜像预热

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
Lite Server资源配置 - AI开发平台ModelArts

Lite Server资源配置 Lite Server资源配置流程配置Lite Server网络配置Lite Server存储配置Lite Server软件环境

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
Lite Server资源管理 - AI开发平台ModelArts

Lite Server资源管理查看Lite Server服务器详情启动或停止Lite Server服务器同步Lite Server服务器状态切换Lite Server服务器操作系统监控Lite Server资源 NPU日志收集上传释放Lite Server资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
（可选）配置镜像预热 - AI开发平台ModelArts

Lite Cluster资源池支持镜像预热功能，镜像预热可实现将镜像提前在资源池节点上拉取好，在推理及大规模分布式训练时有效缩短镜像拉取时间。本文将介绍如何配置镜像预热功能。操作步骤在ModelArts控制台左侧导航栏中找到“资源管理 > AI专属资源池 > 弹性集群Clus

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
如何查看ModelArts训练作业资源占用情况？ - AI开发平台ModelArts

如何查看ModelArts训练作业资源占用情况？在ModelArts管理控制台，选择“模型训练>训练作业”，进入训练作业列表页面。在训练作业列表中，单击目标作业名称，查看该作业的详情。您可以在“资源占用情况”页签查看到如下指标信息。 CPU：CPU使用率（cpuUsage）百分比（Percent）。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

Cluster资源池节点故障如何定位故障说明和处理建议图1 Lite池故障处理流程对于ModelArts Lite资源池，每个节点会以DaemonSet方式部署node-agent组件，该组件会检测节点状态，并将检测结果写到K8S NodeCondtition中。同时，节点

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
Lite Cluster高危操作一览表 - AI开发平台ModelArts

lArts Lite Lite Cluster资源时，可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因，风险操作包括但不限于以下内容。高危操作风险等级说明：高：对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。中：对于可能导致安全风险及可靠性降低的高危操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
查询引擎规格列表 - AI开发平台ModelArts

调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String 调用失败时的错误码，具体请参见错误码，调用成功时无此字段。 error_solution String 调用失败时的提示解决信息，调用成功时无此字段。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 资源和引擎规格接口
自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

出现此问题现象，通常是因为您部署的模型过大导致的。解决方法如下：精简模型，重新导入模型和部署上线。购买专属资源池，在部署上线为在线服务时，使用专属资源池进行部署。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

行的主文件：no such file or directory。原因分析根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：在ModelArts管理控制台，使用训练的自定义镜像创建训练作业时，“创

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败

总条数： 1168

上一页
1
...
9
10
11
...
59
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

使用Qwen2.5-72B-1K、Qwen2.5-32B调优的Checkpoint创建模型时，权重校验失败 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

数据集版本发布失败 - AI开发平台ModelArts

Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

Lite Cluster资源管理 - AI开发平台ModelArts

权限配置 - AI开发平台ModelArts

Lite Cluster资源配置 - AI开发平台ModelArts

Lite Server资源配置 - AI开发平台ModelArts

Lite Server资源管理 - AI开发平台ModelArts

（可选）配置镜像预热 - AI开发平台ModelArts

如何查看ModelArts训练作业资源占用情况？ - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

查询引擎规格列表 - AI开发平台ModelArts

自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线