检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用DCGM监控Lite Server资源 场景描述 本文主要介绍如何配置DCGM监控。DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。 前提条件 裸金
在边缘节点安装Docker后,如何设置Docker Cgroup Driver? 在边缘节点安装Docker后,Docker Cgroup Driver必须设置为cgroupfs,一般Docker默认的就是cgroupfs,如需重新设置参考如下操作步骤: 可以使用docker info查看Cgroup
报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决? 问题现象 原因分析 实例处于非运行状态。 解决方法 请前往ModelArts控制台查看实例是否处于运行状态,如果实例已停止,请执行启动操作,如
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。 父主题: 业务代码问题
创建告警修复规则使用EAP预置流程修复告警 告警修复是设置特定的命中条件,告警在发送通知之前将会进行预置的修复脚本,修复操作,自动帮助您修复简单的告警。 告警修复的触发场景如下: 告警上报时,满足现存的告警修复规则。 告警进入系统时满足告警屏蔽的规则,根据告警屏蔽规则的配置决定是否执行告警修复。
HWS配置 HWS 租户 选择隔离域需绑定VPC所属的华为账号。 HWS 区域 选择隔离域需绑定VPC所在区域。 HWS VPC 选择在华为云已创建的VPC。 IP版本号 计算类型为“虚拟机”时,需要选择对应的IP版本号。 配置互通规则 选择是否允许该隔离域配置互通规则,按钮允许后,该隔离域可以与其他隔离域网络互通。
打印参数维护 维护打印参数(变量管理的参数)信息。 前提条件 已登录MBM Space,且拥有该菜单栏目的操作权限。 添加打印参数 在顶部导航栏中,选择“制造数据模型管理 > 建模工具 > 打印参数维护”。 进入“打印参数维护”页面。 单击“新增”。 在弹出的“创建打印模板参数”窗口中,填写表1信息。
产品过站信息查询 支持查看产品过站记录和其他交易记录(如维修、故障、缺陷、报废)。 前提条件 已登录MBM Space,且拥有该菜单栏目的操作权限。 已维护当前登录用户的所属工厂信息。 注意事项 已开工的工单才能查询出产品过站信息数据。 查询产品过站信息 在顶部导航栏中,选择“生产管理
资源方案建模 维护指定产品的工艺路线中需要的资源信息,通过配置工序中的资源,来定义使用的工治具。 系统支持资源方案的扩展属性配置。 前提条件 已登录MBM Space,且拥有该菜单栏目的操作权限。 已维护工艺流程建模。 已维护资源规格定义。 注意事项 非“发布”状态的资源方案其他
创建Workflow模型注册节点 功能介绍 通过对ModelArts模型管理的能力进行封装,实现将训练后的结果注册到模型管理中,便于后续服务部署、更新等步骤的执行。主要应用场景如下: 注册ModelArts训练作业中训练完成的模型。 注册自定义镜像中的模型。 属性总览 您可以使用
JupyterLab常用功能介绍 JupyterLab视频介绍 JupyterLab主页介绍 下面介绍如何从运行中的Notebook实例打开JupyterLab。 登录ModelArts管理控制台,在左侧菜单栏中选择“开发空间 > Notebook”,进入Notebook页面。
配置应用网关路由 为应用网关配置路由规则,当应用网关收到访问流量时,会根据已配置的路由规则判断是否匹配并做相应的处理。 操作步骤 登录微服务引擎控制台。 为准备资源时创建的应用网关配置路由,请参考创建路由。 参考下表填写相关参数,其余参数保持默认。 参数名称 参数说明 路由名称
使用可视化分析运行日志 可视化提供对已完成结构化配置后的日志字段进行SQL查询与分析的功能。对原始日志结构化后,等待1~2分钟左右即可对结构化后的日志进行SQL查询与分析。 前提条件 日志流已完成结构化配置。 组件已关联LTS日志组,请参考关联LTS日志组。 使用可视化分析运行日志
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.909)
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前,针对ChatGLMv3-6B模型中的
推理性能测试 benchmark方法介绍 性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动
推理性能测试 benchmark方法介绍 性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动
管理应用中的决策表 决策表是分析和表达多逻辑条件下,执行不同操作情况的工具。在AstroZero环境配置中,可管理当前账号下所有的决策表,包括查看、启用、禁用决策表。 约束与限制 在AstroZero沙箱环境和生产环境,才会显示此菜单。在沙箱环境和生产环境中,操作完全相同,本章节以在生产环境中操作为例。