检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp
问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp
问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 问题现象 在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7,使用Pytorch2.0时出现如下错误: CUDA
操作三:鼠标悬浮在图片上的时间节点,可查看对应时间节点的占用率情况。 表1 参数说明 参数 说明 cpuUsage cpu使用率。 gpuMemUsage gpu内存使用率。 gpuUtil gpu使用情况。 memUsage 内存使用率。 npuMemUsage npu内存使用率。 npuUtil
NA 内存 物理内存使用率 ma_node_memory_util 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 百分比(Percent) 0~100% 连续2个周期原始值 > 95% 重要 排查是否符合业务资源使用预期,如果业务无问题,无须处理。 物理内存容量
NA 内存 物理内存使用率 ma_node_memory_util 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 百分比(Percent) 0~100% 连续2个周期原始值 > 95% 重要 排查是否符合业务资源使用预期,如果业务无问题,无须处理。 物理内存容量
模型转换报错如何查看日志和定位? 通过如下的配置项打开对应的模型转换日志,可以看到更底层的报错。如配置以下的环境变量之后,再重新转换模型,导出对应的日志和dump图进行分析: 报错日志中搜到“not support onnx data type”,表示MindSpore暂不支持该算子。
NPU显存使用率 NPU卡的显存使用率 % instance_id,npu npu_util_rate_ai_core NPU卡AI核心使用率 NPU卡的AI核心使用率 % instance_id,npu npu_util_rate_ai_cpu NPU卡AICPU使用率 NPU卡的AI-CPU使用率
此时无论DH Cient是否关闭,服务器都可以获取分配IP。 当服务器没有网卡配置文件时,DH Client开启,此时服务器会分配私有IP。如果关闭DH Client,则服务器无法获取私有IP。 图2 查看NetworkManager配置 图3 查看网络配置 命令“yum update
源池中的数字,查看关联的资源池。可以查看该网络中可用的IP数量。 在扩展信息中可以查看监控、作业、节点、规格、事件、标签,详细介绍见下文。 查看资源池中的作业 在资源池详情页,切换到“作业”页签。您可以查看该资源池中运行的所有作业,如果当前有作业正在排队,可以查看作业在资源池排队的位置。
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
训练好的模型是否可以下载或迁移到其他账号?如何获取下载路径? 通过训练作业训练好的模型可以下载,然后将下载的模型上传存储至其他账号对应区域的OBS中。 获取模型下载路径 登录ModelArts管理控制台,在左侧导航栏中选择“模型训练 > 训练作业”,进入“训练作业”列表。 在训练
等待几分钟。 由于出现此错误,常见原因是内存占用满导致的,您可以尝试使用如下方法,从根本上解决错误。 方法1:将Notebook更换为更高规格的资源。 方法2:可以参考如下方法调整代码中的参数,减少内存占用。如果代码调整后仍然出现内存不足的情况,请使用方法1。 调用sklear
选择修改,修改后,单击保存即可生效。 修改DashBoard查询数据时间范围 图7 修改查询数据时间范围 单击右上角图标,即可修改DashBoard整体的数据查询时间。除固定查询时间外的其他panel,都会应用该数据查询时间范围。 增加新panel 图8 新增一个panel 单击
运行指标,可选值如下: cpuUsage(CPU使用率)、memUsage(物理内存使用率)、gpuUtil(GPU使用率)、gpuMemUsage(显存使用率)、npuUtil(NPU使用率)、npuMemUsage(NPU显存使用率)。 value Array of numbers
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象 在Vnt1 GPU裸金属服务器(Ubuntu18.04系统),安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc
一台可访问外网的Ubuntu服务器。如果没有请具备以下条件: 准备一台ECS服务器(建议规格选8U或者以上,镜像选择Ubuntu,建议选择22.04版本,本地存储100G),具体操作请参考《弹性云服务器快速入门》。 购买弹性公网IP,并绑定到购买的弹性云服务器ECS上,具体操作请参见《弹性公网IP快速入门》。
ModelArts”。 查看监控图表。 查看在线服务监控图表:单击目标在线服务“操作”列的“查看监控指标”。 查看模型负载监控图标:单击目标在线服务左侧的,在下拉列表中选择模型负载“操作”列的“查看监控指标”。 在监控区域,您可以通过选择时长,查看对应时间的监控数据。 当前支持查看近1小时、近
ng”、“incident”,只可选择其中一项。 时间范围:可选择查询最近七天内任意时间段的操作事件。 在需要查看的事件左侧,单击展开该事件的详细信息。 单击需要查看的事件“操作”列的“查看事件”,可以在弹窗中查看该操作事件结构的详细信息。 更多关于云审计服务事件结构的信息,请参见《云审计服务用户指南》。