搜索_华为云

配置kubectl工具 - AI开发平台ModelArts

配置kubectl工具 kubectl是Kubernetes集群的命令行工具，配置kubectl后，您可通过kubectl命令操作Kubernetes集群。本文介绍如何配置kubectl工具，操作步骤如下。登录ModelArts管理控制台，在左侧菜单栏中选择“AI专属资源池 >

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
报名实践活动（实践） - AI开发平台ModelArts

报名实践活动（实践）在AI Gallery中，可以报名参加正在进行中的实践活动。查找实践活动进入AI Gallery首页，单击“实践”，在下拉框中单击“实践 >”，进入实践首页。在实践页面，有“进行中”、“即将开始”和“已结束”三种状态的实践活动筛选方式。图1 查找实践活动

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 参加活动
管理AI Gallery中的AI应用 - AI开发平台ModelArts

管理AI Gallery中的AI应用当AI应用创建完成后，支持修改内容，例如修改环境变量、可见范围。约束限制当AI应用的“可见范围”是“私密”时，才支持修改环境变量、可见范围或删除AI应用。管理AI应用环境变量 AI应用支持增删改查环境变量，配置好的环境变量可以在运行文件中直接调用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
管理Lite Cluster节点池 - AI开发平台ModelArts

管理Lite Cluster节点池为帮助您更好地管理Kubernetes集群内的节点，ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点，能通过节点池批量配置一组节点。在资源池详情页，单击“节点池管理”页签，您可以创建、更新和删除节点池。图1 节点池管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
升级Lite Cluster资源池驱动 - AI开发平台ModelArts

升级Lite Cluster资源池驱动场景介绍当专属资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。驱动升级有两种升级方式：安全升级

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决问题现象 GP Vnt1裸金属服务器，操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版)，经常遇到服务器重启后，操作系统内核无故升级，导致系统上原安装的nvidia-driver等软件无法使用，只能卸载重新安装

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” 问题现象训练作业日志运行出现如下报错：Runtimeerror: Dataloader worker (pid 46212

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
发布解决方案 - AI开发平台ModelArts

发布解决方案如果你已经注册成为了AI Gallery平台上的合作伙伴，AI Gallery支持发布共享你的解决方案。在“AI Gallery”页面中，单击右上角“我的Gallery > 我的主页”进入个人中心页面。左侧菜单栏选择“解决方案”进入解决方案列表页，单击右上方的“发布

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 合作伙伴
（可选）配置驱动 - AI开发平台ModelArts

（可选）配置驱动当专属资源池中的节点含有GPU/Ascend资源时，为确保GPU/Ascend资源能够正常使用，需要配置好对应的驱动。 Cluster支持两种配置驱动的方式：方式一：购买资源池时通过自定义驱动参数进行配置方式二：通过驱动升级功能对已有的资源池驱动版本进行升级

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
发布本地AI应用到AI Gallery - AI开发平台ModelArts

发布本地AI应用到AI Gallery 场景描述 AI Gallery自定义AI应用能力为您提供了一个自由灵活的AI应用创建方式，您可以基于AI Gallery上提供的基础能力，发挥您的创造力，通过自定义代码的形式，自由地构建出您需要的AI应用形态。准备AI应用运行文件“app.py

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
（可选）配置镜像预热 - AI开发平台ModelArts

（可选）配置镜像预热 Lite Cluster资源池支持镜像预热功能，镜像预热可实现将镜像提前在资源池节点上拉取好，在推理及大规模分布式训练时有效缩短镜像拉取时间。本文将介绍如何配置镜像预热功能。操作步骤在ModelArts控制台左侧导航栏中找到“资源管理 > AI专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

扩缩容Lite Cluster资源池场景介绍当Lite Cluster资源池创建完成，使用一段时间后，由于用户业务的变化，对于资源池资源量的需求可能会产生变化，面对这种场景，ModelArts Lite Cluster资源池提供了扩缩容功能，用户可以根据需求动态调整资源。缩容操作可能影响到正在运行的业务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
Lite Cluster高危操作一览表 - AI开发平台ModelArts

Lite Cluster高危操作一览表当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时，可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因，风险操作包括但不限于以下内容。高危操作风险等级说明：高：对于可能直接导致业务失败

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 ModelArts Lite Cluster会定期收集资源池中各节点的关键资源（GPU、NPU、CPU、Memory等）的使用情况并上报到AOM，用户可直接在AOM上查看默认配置好的基础指标，也支持用户自定义一些指标项上报到AOM查看

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
发布技术文章（AI说） - AI开发平台ModelArts

发布技术文章（AI说） AI Gallery中的“AI说”，是一个AI开发人员的交流园地。在这里可以阅读其他用户分享的技术文章，并参与评论。也可以发布分享个人技术文章。前提条件已入驻AI Gallery。发布技术文章进入AI Gallery首页，单击“AI说”，在下拉框中单击

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 参加活动
Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ ModelArts提供AI诊断功能，用户可以通过NCCl Test，测试节点GPU状态，并且测试多个节点间的通信速度。操作步骤单击资源池名称，进入资源池详情。单击左侧“AI组件管理 > AI诊断”。单击“诊断”，选择“日志上传路径

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Cluster
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

Cluster资源池节点故障如何定位故障说明和处理建议图1 Lite池故障处理流程对于ModelArts Lite资源池，每个节点会以DaemonSet方式部署node-agent组件，该组件会检测节点状态，并将检测结果写到K8S NodeCondtition中。同时，节点故障指标默认会上报到

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
自定义模型规范 - AI开发平台ModelArts

自定义模型规范 AI Gallery除了支持托管文本生成和文本问答任务类型的模型，还支持托管其他任务类型的模型，其他任务类型的模型被称为自定义模型。但是托管的自定义模型要满足规范才支持使用AI Gallery工具链服务（微调大师、在线推理服务）。自定义模型的使用流程托管模型到AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
自定义镜像规范 - AI开发平台ModelArts

自定义镜像规范 AI Gallery支持托管自定义镜像，但是托管的自定义镜像要满足规范才支持使用AI Gallery工具链服务（微调大师、在线推理服务）。自定义镜像的使用流程托管自定义镜像，操作步骤请参考托管模型到AI Gallery。如果自定义镜像要支持训练，则需要满足自定义镜像规范

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

升级Lite Cluster资源池单个节点驱动场景介绍当Lite Cluster资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助Lite Cluster资源池升级节点GPU/

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理

总条数： 2647

上一页
1
...
6
7
8
...
133
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

配置kubectl工具 - AI开发平台ModelArts

报名实践活动（实践） - AI开发平台ModelArts

管理AI Gallery中的AI应用 - AI开发平台ModelArts

管理Lite Cluster节点池 - AI开发平台ModelArts

升级Lite Cluster资源池驱动 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

发布解决方案 - AI开发平台ModelArts

（可选）配置驱动 - AI开发平台ModelArts

发布本地AI应用到AI Gallery - AI开发平台ModelArts

（可选）配置镜像预热 - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

发布技术文章（AI说） - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

自定义镜像规范 - AI开发平台ModelArts

升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线