搜索_华为云

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

使用DCGM监控Lite Server资源场景描述本文主要介绍如何配置DCGM监控。DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具，提供多种能力，包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。前提条件裸金

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
在边缘节点安装Docker后，如何设置Docker Cgroup Driver？ - 智能边缘平台 IEF

在边缘节点安装Docker后，如何设置Docker Cgroup Driver？在边缘节点安装Docker后，Docker Cgroup Driver必须设置为cgroupfs，一般Docker默认的就是cgroupfs，如需重新设置参考如下操作步骤：可以使用docker info查看Cgroup

帮助中心 > 智能边缘平台 IEF > 常见问题 > 边缘节点
报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？ - AI开发平台ModelArts

报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？问题现象原因分析实例处于非运行状态。解决方法请前往ModelArts控制台查看实例是否处于运行状态，如果实例已停止，请执行启动操作，如

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
创建告警修复规则使用EAP预置流程修复告警 - 应用平台 AppStage

创建告警修复规则使用EAP预置流程修复告警告警修复是设置特定的命中条件，告警在发送通知之前将会进行预置的修复脚本，修复操作，自动帮助您修复简单的告警。告警修复的触发场景如下：告警上报时，满足现存的告警修复规则。告警进入系统时满足告警屏蔽的规则，根据告警屏蔽规则的配置决定是否执行告警修复。

帮助中心 > 应用平台 AppStage > 运维中心用户指南 > 使用监控服务进行资源及业务监控 > 管理运维中心异常告警
在ENS中创建隔离域 - 应用平台 AppStage

HWS配置 HWS 租户选择隔离域需绑定VPC所属的华为账号。 HWS 区域选择隔离域需绑定VPC所在区域。 HWS VPC 选择在华为云已创建的VPC。 IP版本号计算类型为“虚拟机”时，需要选择对应的IP版本号。配置互通规则选择是否允许该隔离域配置互通规则，按钮允许后，该隔离域可以与其他隔离域网络互通。

帮助中心 > 应用平台 AppStage > 运维中心用户指南 > 使用弹性网络服务打通并规划网络 > 规划隔离域为业务网络进行安全分组
打印参数维护 - 硬件开发工具链平台云服务

打印参数维护维护打印参数（变量管理的参数）信息。前提条件已登录MBM Space，且拥有该菜单栏目的操作权限。添加打印参数在顶部导航栏中，选择“制造数据模型管理 > 建模工具 > 打印参数维护”。进入“打印参数维护”页面。单击“新增”。在弹出的“创建打印模板参数”窗口中，填写表1信息。

帮助中心 > 硬件开发工具链平台云服务 > 用户指南 > 数字化制造基础服务使用指南 > MBM Space界面使用指导 > 制造数据模型管理 > 建模工具
产品过站信息查询 - 硬件开发工具链平台云服务

产品过站信息查询支持查看产品过站记录和其他交易记录（如维修、故障、缺陷、报废）。前提条件已登录MBM Space，且拥有该菜单栏目的操作权限。已维护当前登录用户的所属工厂信息。注意事项已开工的工单才能查询出产品过站信息数据。查询产品过站信息在顶部导航栏中，选择“生产管理

 帮助中心 > 硬件开发工具链平台云服务 > 用户指南 > 数字化制造基础服务使用指南 > MBM Space界面使用指导 > 生产管理 > 生产看板
资源方案建模 - 硬件开发工具链平台云服务

资源方案建模维护指定产品的工艺路线中需要的资源信息，通过配置工序中的资源，来定义使用的工治具。系统支持资源方案的扩展属性配置。前提条件已登录MBM Space，且拥有该菜单栏目的操作权限。已维护工艺流程建模。已维护资源规格定义。注意事项非“发布”状态的资源方案其他

 帮助中心 > 硬件开发工具链平台云服务 > 用户指南 > 数字化制造基础服务使用指南 > MBM Space界面使用指导 > 制造数据模型管理 > 资源模型
创建Workflow模型注册节点 - AI开发平台ModelArts

创建Workflow模型注册节点功能介绍通过对ModelArts模型管理的能力进行封装，实现将训练后的结果注册到模型管理中，便于后续服务部署、更新等步骤的执行。主要应用场景如下：注册ModelArts训练作业中训练完成的模型。注册自定义镜像中的模型。属性总览您可以使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
JupyterLab常用功能介绍 - AI开发平台ModelArts

JupyterLab常用功能介绍 JupyterLab视频介绍 JupyterLab主页介绍下面介绍如何从运行中的Notebook实例打开JupyterLab。登录ModelArts管理控制台，在左侧菜单栏中选择“开发空间 > Notebook”，进入Notebook页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
配置应用网关路由 - 应用管理与运维平台 ServiceStage

配置应用网关路由为应用网关配置路由规则，当应用网关收到访问流量时，会根据已配置的路由规则判断是否匹配并做相应的处理。操作步骤登录微服务引擎控制台。为准备资源时创建的应用网关配置路由，请参考创建路由。参考下表填写相关参数，其余参数保持默认。参数名称参数说明路由名称

 帮助中心 > 应用管理与运维平台 ServiceStage > 最佳实践 > 使用ServiceStage全链路流量控制实现Spring Cloud应用全链路灰度
使用可视化分析运行日志 - 应用管理与运维平台 ServiceStage

使用可视化分析运行日志可视化提供对已完成结构化配置后的日志字段进行SQL查询与分析的功能。对原始日志结构化后，等待1~2分钟左右即可对结构化后的日志进行SQL查询与分析。前提条件日志流已完成结构化配置。组件已关联LTS日志组，请参考关联LTS日志组。使用可视化分析运行日志

 帮助中心 > 应用管理与运维平台 ServiceStage > 用户指南 > 组件管理 > 组件运维 > 管理组件日志 > 管理组件运行LTS日志
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误父主题：主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前，针对ChatGLMv3-6B模型中的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
推理性能测试 - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
推理性能测试 - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）
管理应用中的决策表 - Astro轻应用 AstroZero

管理应用中的决策表决策表是分析和表达多逻辑条件下，执行不同操作情况的工具。在AstroZero环境配置中，可管理当前账号下所有的决策表，包括查看、启用、禁用决策表。约束与限制在AstroZero沙箱环境和生产环境，才会显示此菜单。在沙箱环境和生产环境中，操作完全相同，本章节以在生产环境中操作为例。

帮助中心 > Astro轻应用 AstroZero > 用户指南（低代码） > AstroZero低代码平台管理中心 > 管理AstroZero中已安装应用的资源

总条数： 10000

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

在边缘节点安装Docker后，如何设置Docker Cgroup Driver？ - 智能边缘平台 IEF

报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？ - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

创建告警修复规则使用EAP预置流程修复告警 - 应用平台 AppStage

在ENS中创建隔离域 - 应用平台 AppStage

打印参数维护 - 硬件开发工具链平台云服务

产品过站信息查询 - 硬件开发工具链平台云服务

资源方案建模 - 硬件开发工具链平台云服务

创建Workflow模型注册节点 - AI开发平台ModelArts

JupyterLab常用功能介绍 - AI开发平台ModelArts

配置应用网关路由 - 应用管理与运维平台 ServiceStage

使用可视化分析运行日志 - 应用管理与运维平台 ServiceStage

附录：训练常见问题 - AI开发平台ModelArts

常见错误原因和解决方法 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

管理应用中的决策表 - Astro轻应用 AstroZero

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线