弹性云服务器 ECS-怎样配置Linux分析工具:atop和kdump:分析atop日志

时间:2025-01-10 08:39:51

分析atop日志

atop启动后,会将采集记录存放在/var/log/atop目录下的日志文件中。

执行如下命令,查看日志文件。

atop -r /var/log/atop/atop_2024XXXX

  • atop常用命令
    打开日志文件后,您可以使用以下命令筛选数据。
    • c:按照进程CPU使用率进行降序筛选。
    • m:按照进程内存使用率进行降序筛选。
    • d:按照进程磁盘使用率进行降序筛选。
    • a:按照进程资源综合使用率进行降序筛选。
    • n:按照进程网络使用率进行降序筛选。
    • t:跳转到下一个监控采集点。
    • T:跳转到上一个监控采集点。
    • b:指定时间点,格式为YYYYMMDDhhmm。
  • 系统资源监控字段含义

    下图为部分监控字段以及数值,具体数值根据采样周期和atop版本有所不同。下图仅供参考,具体数据以您实际数据为准。

    图1 系统资源监控字段
    主要参数说明如下:
    • ATOP 行:主机名、信息采样日期和时间点。
    • PRC 行:进程整体运行情况。
    • #sys 及 user:内核态和用户态所占 CPU 的时间值。
    • #proc:进程总数。
    • #zombie:僵死进程的数量。
    • #exit:采样周期期间退出的进程数量。
    • CPU 行:CPU 整体(即多核 CPU 作为一个整体 CPU 资源)的使用情况。CPU 行的各字段数值相加结果为 N*100%,N 为 CPU 核数。
    • #sys 及 user:内核态和用户态所占 CPU 的时间比例。
    • #irq:CPU 被用于处理中断的时间比例。
    • #idle:CPU 处在完全空闲状态的时间比例。
    • #wait:CPU 处在进程等待磁盘 IO ,导致 CPU 空闲状态的时间比例。
    • CPL 行:CPU 负载情况。
    • #avg1、avg5 和 avg15:过去1分钟、5分钟和15分钟内运行队列中的平均进程数量。
    • #csw:指示上下文交换次数。
    • #intr:指示中断发生次数。
    • MEM 行:内存的使用情况。
    • #tot:物理内存大小。
    • #free:空闲的物理内存大小
    • #cache :用于页缓存的内存大小。
    • #buff:用于文件缓存的内存大小。
    • #slab:系统内核占用的内存大小。
    • SWP 行:交换空间的使用情况。
    • #tot:交换区总量。
    • #free:空闲交换空间大小。
    • DSK 行:磁盘使用情况,每一个磁盘设备对应一列。如果有 sdb 设备,那么增加一行 DSK 信息。
    • #sda:磁盘设备标识。
    • #busy:磁盘忙时比例。
    • #read 及 write:读、写请求数量。
    • NET 行:多列 NET 展示了网络状况,包括传输层(TCP 和 UDP)、IP 层以及各活动的网口信息。
    • #xxxxxi:各层或活动网口收包数目。
    • #xxxxxo:各层或活动网口发包数目。
  • 停止 atop

    atop运行会占用额外的系统和磁盘资源,不建议在业务环境下长期运行,您可在问题排查完成后,执行以下命令停止atop。

    systemctl stop atop

    CentOS 6执行以下命令停止atop。

    service atop stop

support.huaweicloud.com/trouble-ecs/ecs_trouble_0328.html