Linux中國

Linux系統監控神器–Collectl

為使系統良好運轉,Linux系統管理員經常需要監測cpu,內存,磁碟,網路等系統信息。Linux上已有iotop,top,free,htop,sar等豐富的常規工具來實現監測功能。今天讓我們走進Collectl來了解這個集測試/監控/分析系統性能為一體的Linux工具。

Collectl作為一個輕量級的監控工具,在同類工具中是功能最全的。用戶可監測不同的複雜系統矩陣值,並可保留數據以做之後的分析。不同於其他只用來監測特定系統參數的工具,Collectl可以同時監測不同的變數,並以合適的方式記錄它們。

摘自Collectl官網 ...

不同於或聚焦於一小組統計數據、採用唯一輸出方式,或採用迭代、作為守護進程運行的大部分監測工具,collectl可以同時全部實現。用戶可選擇各種子系統中的任一系統來監測包括內存,CPU,磁碟,索引節點,無線帶寬,lustre,內存,網路,網路文件系統,進程,二次型,slabs,套介面及TCP等信息。

深入學習前讓我們先看以下命令。

$ collectl
waiting for 1 second sample...
#<--------CPU--------><----------Disks-----------><----------Network---------->
#cpu sys inter  ctxsw KBRead  Reads KBWrit Writes   KBIn  PktIn  KBOut  PktOut 
   0   0   864   1772      0      0      0      0      0      1      0       0 
   5   2  1338   2734      0      0      8      2      0      0      0       1 
   1   0  1222   2647      0      0     92      3      0      2      0       1 
   1   0   763   1722      0      0     80      3      0      1      0       2

CPU使用率,磁碟輸入輸出和網路活動以每秒為單位來載入。對可以理解這些數據的人來說這些信息很容易讀懂。這項列表在給定的時間間隔里會持續增加,並可直接形成一項文件跟蹤日誌。collectl工具提供了各種命令來對這些數據進行記錄,查找及做其他處理。

安裝collectl工具

對Ubuntu/Debian用戶來說Collectl是默認資源,所以使用apt命令便可獲取。

$ sudo apt-get install collectl

Fedora/CentOS用戶使用yum命令便可獲取。

$ yum install collectl

使用

必要的了解 - Collectl子系統

子系統是可檢測到的不同系統資源類型。像CPU,內存,帶寬等等都可構成一個子系統。只運行collectl命令將以批處理模式輸出CPU,磁碟和網路子系統信息,我們在上文已看到相關內容。

從操作說明可以看到,Collectl可以識別以下子系統。

總計子系統

b - buddy info (內存片段)
c - CPU
d - Disk
f - NFS V3 Data
i - Inode and File System
j - Interrupts
l - Lustre
m - Memory
n - Networks
s - Sockets
t - TCP
x - Interconnect
y - Slabs (system object caches)

細節子系統

這是一系列的詳細信息,大部分情況下都會由相應的總計數據衍生出來。目前「環境變數」和「進程」2類沒有相應的總計數據。如果有3個磁碟,選擇-sd,將只會看到3個磁碟組合出的單一信息。如果選擇-sD,將會分別顯示各磁碟信息。

C - CPU
D - Disk
E - Environmental data (fan, power, temp),  via ipmitool
F - NFS Data
J - Interrupts
L - Lustre OST detail OR client Filesystem detail
M - Memory node data, which is also known as numa data
N - Networks
T - 65 TCP counters only available in plot format
X - Interconnect
Y - Slabs (system object caches)
Z - Processes

使用「-s」來監測特定的子系統並向其添加子系統的識別項。現在讓我們舉幾個例子。

1. 監測cpu使用率

用「-sc」實現CPU總使用率的監測

$ collectl -sc
waiting for 1 second sample...
#<--------CPU-------->
#cpu sys inter  ctxsw 
   3   0  1800   3729 
   3   0  1767   3599

使用「-C」觀察各個單獨的CPU使用情況。結果將會輸出多行,分別對應一個CPU。

   $ collectl -sC
waiting for 1 second sample...

# SINGLE CPU STATISTICS

#   Cpu  User Nice  Sys Wait IRQ  Soft Steal Idle
      0     3    0    0    0    0    0     0   96
      1     3    0    0    0    0    0     0   96
      2     2    0    0    0    0    0     0   97
      3     1    0    0    0    0    0     0   98
      0     2    0    0    0    0    0     0   97
      1     2    0    2    0    0    0     0   95
      2     1    0    0    0    0    0     0   98
      3     4    0    1    0    0    0     0   95

如果需要,可以同時使用C和c來獲取單項CPU監測數據和匯總數據。

2. 內存監測

使用m子系統查看內存。

$ collectl -sm
waiting for 1 second sample...
#<-----------Memory----------->
#Free Buff Cach Inac Slab  Map 
   2G 220M   1G   1G 210M   3G 
   2G 220M   1G   1G 210M   3G 
   2G 220M   1G   1G 210M   3G

不難解釋。 M用來查看更多內存的詳細信息。

$ collectl -sM
waiting for 1 second sample...

# MEMORY STATISTICS 

# Node    Total     Used     Free     Slab   Mapped     Anon   Locked    Inact Hit%
     0    7975M    5939M    2036M  215720K  372184K        0    6652K    1434M    0
     0    7975M    5939M    2036M  215720K  372072K        0    6652K    1433M    0

這類似於免費報告嗎?

3. 查看磁碟使用情況

d和D可以查看磁碟使用的概況和詳細情況。

$ collectl -sd
waiting for 1 second sample...
#<----------Disks----------->
#KBRead  Reads KBWrit Writes 
      4      1    136     24 
      0      0     80     13

$ collectl -sD
waiting for 1 second sample...

# DISK STATISTICS (/sec)
#          <---------reads---------><---------writes---------><--------averages--------> Pct
#Name       KBytes Merged  IOs Size  KBytes Merged  IOs Size  RWSize  QLen  Wait SvcTim Util
sda              0      0    0    0       0      0    0    0       0     0     0      0    0
sda              0      0    0    0       0      0    0    0       0     0     0      0    0
sda              1      0    2    1      17      1    5    3       2     2     6      2    1
sda              0      0    0    0      92     11    5   18      18     1    12     12    5

「--verbose」命令可以用來查看附加信息。和D命令不同,它將概況擴展,包含了更多信息。

$ collectl -sd --verbose

4. 同時報告多系統情況

如果想要同時得到CPU,內存和磁碟報告,那麼同時使用子命令組合來實現。

$ collectl -scmd
waiting for 1 second sample...
#<--------CPU--------><-----------Memory-----------><----------Disks----------->
#cpu sys inter  ctxsw Free Buff Cach Inac Slab  Map KBRead  Reads KBWrit Writes 
   4   0  2187   4334   1G 221M   1G   1G 210M   3G      0      0      0      0 
   3   0  1896   4065   1G 221M   1G   1G 210M   3G      0      0     20      5

5. 顯示統計時間

若要將每行的監測信息和時間一同顯示,使用T選項。通過在「-o」參數來指定。

$ collectl -scmd -oT
waiting for 1 second sample...
#         <--------CPU--------><-----------Memory-----------><----------Disks----------->
#Time     cpu sys inter  ctxsw Free Buff Cach Inac Slab  Map KBRead  Reads KBWrit Writes 
12:03:05    3   0  1961   4013   1G 225M   1G   1G 212M   3G      0      0      0      0 
12:03:06    3   0  1884   3810   1G 225M   1G   1G 212M   3G      0      0      0      0 
12:03:07    3   0  2011   4060   1G 225M   1G   1G 212M   3G      0      0      0      0

使用「-oTm」可將時間換成毫秒顯示。

6. 改變樣本計數

collectl報告的每行都是一份快照或樣本,它通常設定定期間隔如1秒來取樣。i可用來設置時間間隔,c用來設置樣本計數。

$ collectl -c1 -sm
waiting for 1 second sample...
#<-----------Memory----------->
#Free Buff Cach Inac Slab  Map 
   1G 261M   1G   1G 228M   3G

使用i命令可改變更新時間間隔。

$ collectl -sm -i2
waiting for 2 second sample...
#<-----------Memory----------->
#Free Buff Cach Inac Slab  Map 
   1G 261M   1G   1G 229M   3G

上面的命令設定每2秒收集一次內存信息。

7. 像iotop一樣使用collectl

top命令將collectl像iostat/top工具一樣進行智能統計。列表會持續更新,且可以使用不同欄位實現排序。

$ collectl --top iokb

輸出如下

# TOP PROCESSES sorted by iokb (counters are /sec) 09:44:57
# PID  User     PR  PPID THRD S   VSZ   RSS CP  SysT  UsrT Pct  AccuTime  RKB  WKB MajF MinF Command
 3104  enlighte 20  2683    3 S  938M   33M  0  0.00  0.00   0  00:09.16    0    4    0    0 /usr/bin/ktorrent 
    1  root     20     0    0 S   26M    3M  2  0.00  0.00   0  00:01.30    0    0    0    0 /sbin/init 
    2  root     20     0    0 S     0     0  3  0.00  0.00   0  00:00.00    0    0    0    0 kthreadd 
    3  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.02    0    0    0    0 ksoftirqd/0 
    4  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kworker/0:0 
    5  root      0     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kworker/0:0H 
    7  root     RT     2    0 S     0     0  0  0.00  0.00   0  00:00.08    0    0    0    0 migration/0 
    8  root     20     2    0 S     0     0  2  0.00  0.00   0  00:00.00    0    0    0    0 rcu_bh 
    9  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 rcuob/0

上面的輸出很像top命令,並且它以磁碟數量降序排列進程。

若只想顯示上面的5項進程,可用以下命令實現

$ collectl --top iokb,5

若想學習上面的列表裡哪些欄位可以排序,使用如下命令

$ collectl --showtopopts

下面是應用於進程或數據的最高排序類型列表。某些情況下你可能會使用某一欄位進行排序,但它並非顯示的一部分。

TOP PROCESS SORT FIELDS
進程排序欄位

Memory
  vsz    virtual memory
  rss    resident (physical) memory

Time
  syst   system time
  usrt   user time
  time   total time
  accum  accumulated time

I/O
  rkb    KB read
  wkb    KB written
  iokb   total I/O KB

  rkbc   KB read from pagecache
  wkbc   KB written to pagecache
  iokbc  total pagecacge I/O
  ioall  total I/O KB (iokb+iokbc)

  rsys   read system calls
  wsys   write system calls
  iosys  total system calls

  iocncl Cancelled write bytes

Page Faults
  majf   major page faults
  minf   minor page faults
  flt    total page faults

Context Switches
  vctx   volunary context switches
  nctx   non-voluntary context switches

Miscellaneous (best when used with --procfilt)
  cpu    cpu number
  pid    process pid
  thread total process threads (not counting main)

TOP SLAB SORT FIELDS

  numobj    total number of slab objects
  actobj    active slab objects
  objsize   sizes of slab objects
  numslab   number of slabs
  objslab   number of objects in a slab
  totsize   total memory sizes taken by slabs
  totchg    change in memory sizes
  totpct    percent change in memory sizes
  name      slab names

8. 像top一樣使用collectl

為使collectl像top,我們只需以CPU使用率排序輸出進程。

$ collectl --top

輸出如下

# TOP PROCESSES sorted by time (counters are /sec) 14:08:46
# PID  User     PR  PPID THRD S   VSZ   RSS CP  SysT  UsrT Pct  AccuTime  RKB  WKB MajF MinF Command
 9471  enlighte 20  9102    0 R   63M   22M  3  0.03  0.10  13  00:00.81    0    0    0    3 /usr/bin/perl 
 3076  enlighte 20  2683    2 S  521M   40M  2  0.00  0.03   3  00:55.14    0    0    0    2 /usr/bin/yakuake 
 3877  enlighte 20  3356   41 S    1G  218M  1  0.00  0.03   3  10:10.50    0    0    0    0 /opt/google/chrome/chrome 
 4625  enlighte 20  2895   36 S    1G  241M  2  0.00  0.02   2  08:24.39    0    0    0   12 /usr/lib/firefox/firefox 
 5638  enlighte 20  3356    3 S    1G  265M  1  0.00  0.02   2  09:55.04    0    0    0    2 /opt/google/chrome/chrome 
 1186  root     20  1152    4 S  502M   76M  0  0.00  0.01   1  03:02.96    0    0    0    0 /usr/bin/X 
 1334  www-data 20  1329    0 S   87M    1M  2  0.00  0.01   1  00:00.85    0    0    0    0 nginx:

上面的命令也可用於顯示子系統信息。

$ collectl --top -scm

9. 像ps一樣列出進程

為像ps命令一樣列出所有進程且沒有後續更新,用「c」命令讓其計數至1. $ collectl -c1 -sZ -i:1

上面的命令將會列出類似「ps -e」命令的所有進程。「procfilt」用於從所有進程中過濾出特定的進程信息。「procopts」用於指定另一組微調進程列表顯示的命令。

10. 像vmstat一樣使用collectl

Collectl有內置命令來完成像vmstat一樣的功能。

$ collectl --vmstat
waiting for 1 second sample...
#procs ---------------memory (KB)--------------- --swaps-- -----io---- --system-- ----cpu--# r  b   swpd   free   buff  cache  inact active   si   so    bi    bo   in    cs us sy  id wa
  1  0      0  1733M   242M  1922M  1137M   710M    0    0     0   108 1982  3918  2  0  95  1
  1  0      0  1733M   242M  1922M  1137M   710M    0    0     0     0 1906  3886  1  0  98  0
  1  0      0  1733M   242M  1922M  1137M   710M    0    0     0     0 1739  3480  3  0  96  0

11. 子系統的詳細信息

下面的命令以一秒為間隔,統計5次CPU信息並和時間一起顯示出詳細信息(冗長)。

$ collectl -sc -c5 -i1 --verbose -oT
waiting for 1 second sample...

# CPU SUMMARY (INTR, CTXSW & PROC /sec)
#Time      User  Nice   Sys  Wait   IRQ  Soft Steal  Idle  CPUs  Intr  Ctxsw  Proc  RunQ   Run   Avg1  Avg5 Avg15 RunT BlkT
14:22:10     11     0     0     0     0     0     0    87     4  1312   2691     0   866     1   0.78  0.86  0.78    1    0
14:22:11     15     0     0     0     0     0     0    84     4  1283   2496     0   866     1   0.78  0.86  0.78    1    0
14:22:12     17     0     0     0     0     0     0    82     4  1342   2658     0   866     0   0.78  0.86  0.78    0    0
14:22:13     15     0     0     0     0     0     0    84     4  1241   2429     0   866     1   0.78  0.86  0.78    1    0
14:22:14     11     0     0     0     0     0     0    88     4  1270   2488     0   866     0   0.80  0.87  0.78    0    0

改變"-s"變數查看不同的子系統。

總結

本文的介紹不過是對collectl這個強大工具的一些淺見。本文本希望展示它有多靈活,其實通過以上的討論讓我們了解了包括記錄及回尋捕獲的數據,以多種文件格式導出數據並將數據轉換為可被廣泛的工具分析的格式等等功能的實現。

collectl提供的另一大功能便是像服務一樣運行,對遠程Linux機器或完整的伺服器集群提供遠程監控,其表現堪稱完美。

Collectl同另一批可用於處理分析收集數據的名為Collectl實用工具 (colmux, colgui, colplot)的功能相契合。如果有機會,我們在之後的文章中會介紹它們。

為更詳細的了解Collectl工具,請登錄它的主頁來學習更多的功能。筆者建議查看FAQs來快速了解collectl,讀取collectl文檔獲取深層次的例子。等價命令表也可定位至更多的像sar,iostat,netstat,top等和collectl功能部分等價的常用工具。

via: http://www.binarytides.com/collectl-monitor-system-resources-linux/

譯者:icybreaker 校對:wxy

本文由 LCTT 原創翻譯,Linux中國 榮譽推出


本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何?

太棒了
0
不錯
0
愛死了
0
不太好
0
感覺很糟
0
雨落清風。心向陽

    You may also like

    Leave a reply

    您的郵箱地址不會被公開。 必填項已用 * 標註

    此站點使用Akismet來減少垃圾評論。了解我們如何處理您的評論數據

    More in:Linux中國