搜索_华为云

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

使用DCGM监控Lite Server资源场景描述本文主要介绍如何在Lite Server上配置DCGM监控，用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具，提供多种能力，包括主动健康监控、

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
使用CES监控Lite Server资源 - AI开发平台ModelArts

使用CES监控Lite Server资源场景描述 Lite Server的监控能力依赖于CES云监控服务。本文主要介绍如何对接CES云监控服务，对Lite Server上的资源和事件进行监控。监控方案介绍监控概述请参考BMS官方文档。除文档所列支持的镜像之外，目前还支持Ubuntu20.04

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
Lite Server使用前必读 - AI开发平台ModelArts

Lite Server使用前必读 Lite Server使用流程 Lite Server高危操作一览表 Lite Server算力资源和镜像版本配套关系

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
Lite Server资源配置流程 - AI开发平台ModelArts

Lite Server资源配置流程在开通Lite Server资源后，需要完成相关配置才能使用，配置流程如下图所示。图1 Lite Server资源配置流程图表1 Server资源配置流程配置顺序配置任务场景说明 1 配置Lite Server网络 Server资源开通后

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境场景描述本文旨在指导如何在GPU裸金属服务器上，安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同，您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安装步骤

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
同步Lite Server服务器状态 - AI开发平台ModelArts

同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器，当用户在云服务器页面修改了裸金属服务器状态后，您可通过“同步”功能，同步其状态至ModelArts。登录ModelArts管理控制台。在左侧导航栏中，选择“AI专属资源池 > 弹性节点 Server

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
查看Lite Server服务器详情 - AI开发平台ModelArts

查看Lite Server服务器详情在您创建了Lite Server服务器后，可以通过管理控制台查看和管理您的Lite Server服务器。本节介绍如何查看Lite Server服务器的详细信息，包括名称/ID、规格、镜像等信息。在弹性节点Server的节点列表页中，可以查看Server

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

用户结束kernelgateway进程后报错Server Connection Error，如何恢复？问题现象当kernelgateway进程被结束后，出现如下报错，以及选不到Kernel。图1 报错Server Connection Error截图图2 选不到Kernel

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 问题现象使用pandas读取csv数据表时，日志报出如下错误导致训练作业失败： pandas.errors.ParserError

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
配置Lite Server软件环境 - AI开发平台ModelArts

配置Lite Server软件环境 NPU服务器上配置Lite Server资源软件环境 GPU服务器上配置Lite Server资源软件环境父主题： Lite Server资源配置

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
Lite Server资源配置 - AI开发平台ModelArts

Lite Server资源配置 Lite Server资源配置流程配置Lite Server网络配置Lite Server存储配置Lite Server软件环境

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
Lite Server资源管理 - AI开发平台ModelArts

Lite Server资源管理查看Lite Server服务器详情启动或停止Lite Server服务器同步Lite Server服务器状态切换Lite Server服务器操作系统监控Lite Server资源 NPU日志收集上传释放Lite Server资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境注意事项本文旨在指导如何在Snt9b裸金属服务器上，进行磁盘合并挂载、安装docker等环境配置。在配置前请注意如下事项：首次装机时需要配置存储、固件、驱动、网络访问等基础内容，这部分配置尽量稳定减少变化。裸机上的开发形式建议开发者启动独立的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
切换Lite Server服务器操作系统 - AI开发平台ModelArts

切换Lite Server服务器操作系统场景描述 Lite Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

Lite Server算力资源和镜像版本配套关系 Lite Server提供多种NPU、GPU镜像，您可在购买前了解当前支持的镜像及对应详情。 NPU Snt9裸金属服务器支持的镜像详情镜像名称：ModelArts-Euler2.8_Aarch64_Snt9_C78 表1 镜像详情

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
启动或停止Lite Server服务器 - AI开发平台ModelArts

启动或停止Lite Server服务器当您暂时不需要使用弹性节点Server的时候，可以通过对运行中的裸金属实例进行停止操作，停止对资源的消耗。当需要使用的时候，对于停止状态的弹性节点Server，可以通过启动操作重新使用弹性节点Server。登录ModelArts管理控制台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导场景描述本文将介绍在GP Ant8裸金属服务器中，使用DeepSpeed框架训练GPT-2（分别进行单机单卡和单机多卡训练）。训练完成后给出自动式生成内容，和交互式对话框模式。背景信息 Megatron-DeepSpeed

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
Bert基于Lite Server适配MindSpore Lite推理指导(6.3.910) - AI开发平台ModelArts

Bert基于Lite Server适配MindSpore Lite推理指导(6.3.910) 方案概览本方案介绍了在ModelArts的Lite Server上使用昇腾Atlas 300I Duo推理卡计算资源，部署Bert-base-chinese模型推理的详细过程。完成本方案的部署

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 内容审核模型训练推理
Lite Server高危操作一览表 - AI开发平台ModelArts

Lite Server高危操作一览表 ModelArts Lite Server在日常操作与维护过程中涉及的高危操作，需要严格按照操作指导进行，否则可能会影响业务的正常运行。高危操作风险等级说明：高：对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。中

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
LLM/AIGC/数字人基于Server适配NPU的训练推理指导 - AI开发平台ModelArts

LLM/AIGC/数字人基于Server适配NPU的训练推理指导 ModelArts提供了丰富的关于Server使用NPU进行训练推理的案例指导，涵盖了LLM大语言模型、AIGC文生图、数字人等主流应用场景。您可单击链接，即可跳转至相应文档查看详细指导。 LLM大语言模型主流开源大模型基于

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用

总条数： 2079

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

Lite Server使用前必读 - AI开发平台ModelArts

Lite Server资源配置流程 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

同步Lite Server服务器状态 - AI开发平台ModelArts

查看Lite Server服务器详情 - AI开发平台ModelArts

用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

配置Lite Server软件环境 - AI开发平台ModelArts

Lite Server资源配置 - AI开发平台ModelArts

Lite Server资源管理 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

Bert基于Lite Server适配MindSpore Lite推理指导(6.3.910) - AI开发平台ModelArts

Lite Server高危操作一览表 - AI开发平台ModelArts

LLM/AIGC/数字人基于Server适配NPU的训练推理指导 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线