在軟體部署中使用 strace 進行調試

我的大部分工作都涉及到部署軟體系統，這意味著我需要花費很多時間來解決以下問題：

這個軟體可以在原開發者的機器上工作，但是為什麼不能在我這裡運行？
這個軟體昨天可以在我的機器上工作，但是為什麼今天就不行？

這是一種調試的類型，但是與一般的軟體調試有所不同。一般的調試通常只關心代碼的邏輯，但是在軟體部署中的調試關注的是程序的代碼和它所在的運行環境之間的相互影響。即便問題的根源是代碼的邏輯錯誤，但軟體顯然可以在別的機器上運行的事實意味著這類問題與運行環境密切相關。

所以，在軟體部署過程中，我沒有使用傳統的調試工具（例如 gdb），而是選擇了其它工具進行調試。我最喜歡的用來解決「為什麼這個軟體無法在這台機器上運行？」這類問題的工具就是 strace。

什麼是 strace？

strace 是一個用來「追蹤系統調用」的工具。它主要是一個 Linux 工具，但是你也可以在其它系統上使用類似的工具（例如 DTrace 和 ktrace）。

它的基本用法非常簡單。只需要在 strace 後面跟上你需要運行的命令，它就會顯示出該命令觸發的所有系統調用（你可能需要先安裝好 strace）：

$ strace echo Hello
...Snip lots of stuff...
write(1, "Hellon", 6)                  = 6
close(1)                                = 0
close(2)                                = 0
exit_group(0)                           = ?
+++ exited with 0 +++

這些系統調用都是什麼？它們就像是操作系統內核提供的 API。很久以前，軟體擁有直接訪問硬體的許可權。如果軟體需要在屏幕上顯示一些東西，它將會與視頻硬體的埠和內存映射寄存器糾纏不清。當多任務操作系統變得流行以後，這就導致了混亂的局面，因為不同的應用程序將「爭奪」硬體，並且一個應用程序的錯誤可能致使其它應用程序崩潰，甚至導致整個系統崩潰。所以 CPU 開始支持多種不同的特權模式（或者稱為「保護環」）。它們讓操作系統內核在具有完全硬體訪問許可權的最高特權模式下運行，於此同時，其它在低特權模式下運行的應用程序必須通過向內核發起系統調用才能夠與硬體進行交互。

在二進位級別上，發起系統調用相比簡單的函數調用有一些區別，但是大部分程序都使用標準庫提供的封裝函數。例如，POSIX C 標準庫包含一個 write() 函數，該函數包含用於進行 write 系統調用的所有與硬體體系結構相關的代碼。

簡單來說，一個應用程序與其環境（計算機系統）的交互都是通過系統調用來完成的。所以當軟體在一台機器上可以工作但是在另一台機器無法工作的時候，追蹤系統調用是一個很好的查錯方法。具體地說，你可以通過追蹤系統調用分析以下典型操作：

控制台輸入與輸出 (IO)
網路 IO
文件系統訪問以及文件 IO
進程/線程生命周期管理
原始內存管理
訪問特定的設備驅動

什麼時候可以使用 strace？

理論上，strace 適用於任何用戶空間程序，因為所有的用戶空間程序都需要進行系統調用。strace 對於已編譯的低級程序最有效果，但如果你可以避免運行時環境和解釋器帶來的大量額外輸出，則仍然可以與 Python 等高級語言程序一起使用。

當軟體在一台機器上正常工作，但在另一台機器上卻不能正常工作，同時拋出了有關文件、許可權或者不能運行某某命令等模糊的錯誤信息時，strace 往往能大顯身手。不幸的是，它不能診斷高等級的問題，例如數字證書驗證錯誤等。這些問題通常需要組合使用 strace（有時候是 ltrace）和其它高級工具（例如使用 openssl 命令行工具調試數字證書錯誤）。

本文中的示例基於獨立的伺服器，但是對系統調用的追蹤通常也可以在更複雜的部署平台上完成，僅需要找到合適的工具。

一個簡單的例子

假設你正在嘗試運行一個叫做 foo 的伺服器應用程序，但是發生了以下情況：

$ foo
Error opening configuration file: No such file or directory

顯然，它沒有找到你已經寫好的配置文件。之所以會發生這種情況，是因為包管理工具有時候在編譯應用程序時指定了自定義的路徑，所以你應當遵循特定發行版提供的安裝指南。如果錯誤信息告訴你正確的配置文件應該在什麼地方，你就可以在幾秒鐘內解決這個問題，但如果沒有告訴你呢？你該如何找到正確的路徑？

如果你有權訪問源代碼，則可以通過閱讀源代碼來解決問題。這是一個好的備用計劃，但不是最快的解決方案。你還可以使用類似 gdb 的單步調試器來觀察程序的行為，但使用專門用於展示程序與系統環境交互作用的工具 strace 更加有效。

一開始， strace 產生的大量輸出可能會讓你不知所措，幸好你可以忽略其中大部分的無用信息。我經常使用 -o 參數把輸出的追蹤結果保存到單獨的文件里：

$ strace -o /tmp/trace foo
Error opening configuration file: No such file or directory
$ cat /tmp/trace
execve("foo", ["foo"], 0x7ffce98dc010 /* 16 vars */) = 0
brk(NULL)                               = 0x56363b3fb000
access("/etc/ld.so.preload", R_OK)      = -1 ENOENT (No such file or directory)
openat(AT_FDCWD, "/etc/ld.so.cache", O_RDONLY|O_CLOEXEC) = 3
fstat(3, {st_mode=S_IFREG|0644, st_size=25186, ...}) = 0
mmap(NULL, 25186, PROT_READ, MAP_PRIVATE, 3, 0) = 0x7f2f12cf1000
close(3)                                = 0
openat(AT_FDCWD, "/lib/x86_64-linux-gnu/libc.so.6", O_RDONLY|O_CLOEXEC) = 3
read(3, "177ELF21133>1260A2"..., 832) = 832
fstat(3, {st_mode=S_IFREG|0755, st_size=1824496, ...}) = 0
mmap(NULL, 8192, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f2f12cef000
mmap(NULL, 1837056, PROT_READ, MAP_PRIVATE|MAP_DENYWRITE, 3, 0) = 0x7f2f12b2e000
mprotect(0x7f2f12b50000, 1658880, PROT_NONE) = 0
mmap(0x7f2f12b50000, 1343488, PROT_READ|PROT_EXEC, MAP_PRIVATE|MAP_FIXED|MAP_DENYWRITE, 3, 0x22000) = 0x7f2f12b50000
mmap(0x7f2f12c98000, 311296, PROT_READ, MAP_PRIVATE|MAP_FIXED|MAP_DENYWRITE, 3, 0x16a000) = 0x7f2f12c98000
mmap(0x7f2f12ce5000, 24576, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_FIXED|MAP_DENYWRITE, 3, 0x1b6000) = 0x7f2f12ce5000
mmap(0x7f2f12ceb000, 14336, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_FIXED|MAP_ANONYMOUS, -1, 0) = 0x7f2f12ceb000
close(3)                                = 0
arch_prctl(ARCH_SET_FS, 0x7f2f12cf0500) = 0
mprotect(0x7f2f12ce5000, 16384, PROT_READ) = 0
mprotect(0x56363b08b000, 4096, PROT_READ) = 0
mprotect(0x7f2f12d1f000, 4096, PROT_READ) = 0
munmap(0x7f2f12cf1000, 25186)           = 0
openat(AT_FDCWD, "/etc/foo/config.json", O_RDONLY) = -1 ENOENT (No such file or directory)
dup(2)                                  = 3
fcntl(3, F_GETFL)                       = 0x2 (flags O_RDWR)
brk(NULL)                               = 0x56363b3fb000
brk(0x56363b41c000)                     = 0x56363b41c000
fstat(3, {st_mode=S_IFCHR|0620, st_rdev=makedev(0x88, 0x8), ...}) = 0
write(3, "Error opening configuration file"..., 60) = 60
close(3)                                = 0
exit_group(1)                           = ?
+++ exited with 1 +++

strace 輸出的第一頁通常是低級的進程啟動過程。（你可以看到很多 mmap、mprotect、brk 調用，這是用來分配原始內存和映射動態鏈接庫的。）實際上，在查找錯誤時，最好從下往上閱讀 strace 的輸出。你可以看到 write 調用在最後返回了錯誤信息。如果你向上找，你將會看到第一個失敗的系統調用是 openat，它在嘗試打開 /etc/foo/config.json 時拋出了 ENOENT (「No such file or directory」)的錯誤。現在我們已經知道了配置文件應該放在哪裡。

這是一個簡單的例子，但我敢說在 90% 的情況下，使用 strace 進行調試不需要更多複雜的工作。以下是完整的調試步驟：

從程序中獲得含糊不清的錯誤信息
使用 strace 運行程序
在輸出中找到錯誤信息
往前追溯並找到第一個失敗的系統調用

第四步中的系統調用很可能向你顯示出問題所在。

小技巧

在開始更加複雜的調試之前，這裡有一些有用的調試技巧幫助你高效使用 strace：

man 是你的朋友

在很多 *nix 操作系統中，你可以通過 man syscalls 查看系統調用的列表。你將會看到類似於 brk(2) 之類的東西，這意味著你可以通過運行 man 2 brk 得到與此相關的更多信息。

一個小問題：man 2 fork 會顯示出在 GNU libc 里封裝的 fork() 手冊頁，而 fork() 現在實際上是由 clone 系統調用實現的。fork 的語義與 clone 相同，但是如果我寫了一個含有 fork() 的程序並使用 strace 去調試它，我將找不到任何關於 fork 調用的信息，只能看到 clone 調用。如果將源代碼與 strace 的輸出進行比較的時候，像這種問題會讓人感到困惑。

使用 -o 將輸出保存到文件

strace 可以生成很多輸出，所以將輸出保存到單獨的文件是很有幫助的（就像上面的例子一樣）。它還能夠在控制台中避免程序自身的輸出與 strace 的輸出發生混淆。

使用 -s 查看更多的參數

你可能已經注意到，錯誤信息的第二部分沒有出現在上面的例子中。這是因為 strace 默認僅顯示字元串參數的前 32 個位元組。如果你需要捕獲更多參數，請向 strace 追加類似於 -s 128 之類的參數。

-y 使得追蹤文件或套接字更加容易

「一切皆文件」意味著 *nix 系統通過文件描述符進行所有 IO 操作，不管是真實的文件還是通過網路或者進程間管道。這對於編程而言是很方便的，但是在追蹤系統調用時，你將很難分辨出 read 和 write 的真實行為。

-y 參數使 strace 在注釋中註明每個文件描述符的具體指向。

使用 -p 附加到正在運行的進程中

正如我們將在後面的例子中看到的，有時候你想追蹤一個正在運行的程序。如果你知道這個程序的進程號為 1337 （可以通過 ps 查詢），則可以這樣操作：

$ strace -p 1337
...system call trace output...

你可能需要 root 許可權才能運行。

使用 -f 追蹤子進程

strace 默認只追蹤一個進程。如果這個進程產生了一個子進程，你將會看到創建子進程的系統調用（一般是 clone），但是你看不到子進程內觸發的任何調用。

如果你認為在子進程中存在錯誤，則需要使用 -f 參數啟用子進程追蹤功能。這樣做的缺點是輸出的內容會讓人更加困惑。當追蹤一個進程時，strace 顯示的是單個調用事件流。當追蹤多個進程的時候，你將會看到以 <unfinished ...> 開始的初始調用，接著是一系列針對其它線程的調用，最後才出現以 <... foocall resumed> 結束的初始調用。此外，你可以使用 -ff 參數將所有的調用分離到不同的文件中（查看 strace 手冊獲取更多信息）。

使用 -e 進行過濾

正如你所看到的，默認的追蹤輸出是所有的系統調用。你可以使用 -e 參數過濾你需要追蹤的調用（查看 strace 手冊）。這樣做的好處是運行過濾後的 strace 比起使用 grep 進行二次過濾要更快。老實說，我大部分時間都不會被打擾。

並非所有的錯誤都是不好的

一個簡單而常用的例子是一個程序在多個位置搜索文件，例如 shell 搜索哪個 bin/ 目錄包含可執行文件：

$ strace sh -c uname
...
stat("/home/user/bin/uname", 0x7ffceb817820) = -1 ENOENT (No such file or directory)
stat("/usr/local/bin/uname", 0x7ffceb817820) = -1 ENOENT (No such file or directory)
stat("/usr/bin/uname", {st_mode=S_IFREG|0755, st_size=39584, ...}) = 0
...

「錯誤信息之前的最後一次失敗調用」這種啟發式方法非常適合於查找錯誤。無論如何，自下而上地查找是有道理的。

C 編程指南非常有助於理解系統調用

標準 C 庫函數調用不屬於系統調用，但它們僅是系統調用之上的唯一一個薄層。所以如果你了解（甚至只是略知一二）如何使用 C 語言，那麼閱讀系統調用追蹤信息就非常容易。例如，如果你在調試網路系統調用，你可以嘗試略讀 Beej 經典的《網路編程指南》。

一個更複雜的調試例子

就像我說的那樣，簡單的調試例子表現了我在大部分情況下如何使用 strace。然而，有時候需要一些更加細緻的工作，所以這裡有一個稍微複雜（且真實）的例子。

bcron 是一個任務調度器，它是經典 *nix cron 守護程序的另一種實現。它已經被安裝到一台伺服器上，但是當有人嘗試編輯作業時間表時，發生了以下情況：

# crontab -e -u logs
bcrontab: Fatal: Could not create temporary file

好的，現在 bcron 嘗試寫入一些文件，但是它失敗了，也沒有告訴我們原因。以下是 strace 的輸出：

# strace -o /tmp/trace crontab -e -u logs
bcrontab: Fatal: Could not create temporary file
# cat /tmp/trace
...
openat(AT_FDCWD, "bcrontab.14779.1573691864.847933", O_RDONLY) = 3
mmap(NULL, 8192, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f82049b4000
read(3, "#Ansible: logsaggn20 14 * * * lo"..., 8192) = 150
read(3, "", 8192)                       = 0
munmap(0x7f82049b4000, 8192)            = 0
close(3)                                = 0
socket(AF_UNIX, SOCK_STREAM, 0)         = 3
connect(3, {sa_family=AF_UNIX, sun_path="/var/run/bcron-spool"}, 110) = 0
mmap(NULL, 8192, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f82049b4000
write(3, "156:Slogs#Ansible: logsaggn20 1"..., 161) = 161
read(3, "32:ZCould not create temporary f"..., 8192) = 36
munmap(0x7f82049b4000, 8192)            = 0
close(3)                                = 0
write(2, "bcrontab: Fatal: Could not creat"..., 49) = 49
unlink("bcrontab.14779.1573691864.847933") = 0
exit_group(111)                         = ?
+++ exited with 111 +++

在程序結束之前有一個 write 的錯誤信息，但是這次有些不同。首先，在此之前沒有任何相關的失敗系統調用。其次，我們看到這個錯誤信息是由 read 從別的地方讀取而來的。這看起來像是真正的錯誤發生在別的地方，而 bcrontab 只是在轉播這些信息。

如果你查閱了 man 2 read，你將會看到 read 的第一個參數 (3) 是一個文件描述符，這是 *nix 操作系統用於所有 IO 操作的句柄。你該如何知道文件描述符 3 代表什麼？在這種情況下，你可以使用 -y 參數運行 strace（如上文所述），它將會在注釋里告訴你文件描述符的具體指向，但是了解如何從上面這種輸出中分析追蹤結果是很有用的。

一個文件描述符可以來自於許多系統調用之一（這取決於它是用於控制台、網路套接字還是真實文件等的描述符），但不論如何，我們都可以搜索返回值為 3 的系統調用（例如，在 strace 的輸出中查找 =3）。在這次 strace 中可以看到有兩個這樣的調用：最上面的 openat 以及中間的 socket。openat 打開一個文件，但是緊接著的 close(3) 表明其已經被關閉。（注意：文件描述符可以在打開並關閉後重複使用。）所以 socket 調用才是與此相關的（它是在 read 之前的最後一個），這告訴我們 brcontab 正在與一個網路套接字通信。在下一行，connect 表明文件描述符 3 是一個連接到 /var/run/bcron-spool 的 Unix 域套接字。

因此，我們需要弄清楚 Unix 套接字的另一側是哪個進程在監聽。有兩個巧妙的技巧適用於在伺服器部署中調試。一個是使用 netstat 或者較新的 ss。這兩個命令都描述了當前系統中活躍的網路套接字，使用 -l 參數可以顯示出處於監聽狀態的套接字，而使用 -p 參數可以得到正在使用該套接字的程序信息。（它們還有更多有用的選項，但是這兩個已經足夠完成工作了。）

# ss -pl | grep /var/run/bcron-spool
u_str LISTEN 0   128   /var/run/bcron-spool 1466637   * 0   users:(("unixserver",pid=20629,fd=3))

這告訴我們 /var/run/bcron-spool 套接字的監聽程序是 unixserver 這個命令，它的進程 ID 為 20629。（巧合的是，這個程序也使用文件描述符 3 去連接這個套接字。）

第二個常用的工具就是使用 lsof 查找相同的信息。它可以列出當前系統中打開的所有文件（或文件描述符）。或者，我們可以得到一個具體文件的信息：

# lsof /var/run/bcron-spool
COMMAND   PID   USER  FD  TYPE  DEVICE              SIZE/OFF  NODE    NAME
unixserve 20629 cron  3u  unix  0x000000005ac4bd83  0t0       1466637 /var/run/bcron-spool type=STREAM

進程 20629 是一個常駐進程，所以我們可以使用 strace -o /tmp/trace -p 20629 去查看該進程的系統調用。如果我們在另一個終端嘗試編輯 cron 的計劃任務表，就可以在錯誤發生時捕獲到以下信息：

accept(3, NULL, NULL)                   = 4
clone(child_stack=NULL, flags=CLONE_CHILD_CLEARTID|CLONE_CHILD_SETTID|SIGCHLD, child_tidptr=0x7faa47c44810) = 21181
close(4)                                = 0
accept(3, NULL, NULL)                   = ? ERESTARTSYS (To be restarted if SA_RESTART is set)
--- SIGCHLD {si_signo=SIGCHLD, si_code=CLD_EXITED, si_pid=21181, si_uid=998, si_status=0, si_utime=0, si_stime=0} wait4(0, [{WIFEXITED(s) && WEXITSTATUS(s) == 0}], WNOHANG|WSTOPPED, NULL) = 21181
wait4(0, 0x7ffe6bc36764, WNOHANG|WSTOPPED, NULL) = -1 ECHILD (No child processes)
rt_sigaction(SIGCHLD, {sa_handler=0x55d244bdb690, sa_mask=[CHLD], sa_flags=SA_RESTORER|SA_RESTART, sa_restorer=0x7faa47ab9840}, {sa_handler=0x55d244bdb690, sa_mask=[CHLD], sa_flags=SA_RESTORER|SA_RESTART, sa_restorer=0x7faa47ab9840}, 8) = 0
rt_sigreturn({mask=[]})                 = 43
accept(3, NULL, NULL)                   = 4
clone(child_stack=NULL, flags=CLONE_CHILD_CLEARTID|CLONE_CHILD_SETTID|SIGCHLD, child_tidptr=0x7faa47c44810) = 21200
close(4)                                = 0
accept(3, NULL, NULL)                   = ? ERESTARTSYS (To be restarted if SA_RESTART is set)
--- SIGCHLD {si_signo=SIGCHLD, si_code=CLD_EXITED, si_pid=21200, si_uid=998, si_status=111, si_utime=0, si_stime=0} wait4(0, [{WIFEXITED(s) && WEXITSTATUS(s) == 111}], WNOHANG|WSTOPPED, NULL) = 21200
wait4(0, 0x7ffe6bc36764, WNOHANG|WSTOPPED, NULL) = -1 ECHILD (No child processes)
rt_sigaction(SIGCHLD, {sa_handler=0x55d244bdb690, sa_mask=[CHLD], sa_flags=SA_RESTORER|SA_RESTART, sa_restorer=0x7faa47ab9840}, {sa_handler=0x55d244bdb690, sa_mask=[CHLD], sa_flags=SA_RESTORER|SA_RESTART, sa_restorer=0x7faa47ab9840}, 8) = 0
rt_sigreturn({mask=[]})                 = 43
accept(3, NULL, NULL

（最後一個 accept 調用沒有在追蹤期間完成。）不幸的是，這次追蹤沒有包含我們想要的錯誤信息。我們沒有觀察到 bcrontan 往套接字發送或接受的任何信息。然而，我們看到了很多進程管理操作（clone、wait4、SIGCHLD，等等）。這個進程產生了子進程，我們猜測真實的工作是由子進程完成的。如果我們想捕獲子進程的追蹤信息，就必須往 strace 追加 -f 參數。以下是我們最終使用 strace -f -o /tmp/trace -p 20629 找到的錯誤信息：

21470 openat(AT_FDCWD, "tmp/spool.21470.1573692319.854640", O_RDWR|O_CREAT|O_EXCL, 0600) = -1 EACCES (Permission denied)
21470 write(1, "32:ZCould not create temporary f"..., 36) = 36
21470 write(2, "bcron-spool[21470]: Fatal: logs:"..., 84) = 84
21470 unlink("tmp/spool.21470.1573692319.854640") = -1 ENOENT (No such file or directory)
21470 exit_group(111)                   = ?
21470 +++ exited with 111 +++

現在我們知道了進程 ID 21470 在嘗試創建文件 tmp/spool.21470.1573692319.854640 （相對於當前的工作目錄）時得到了一個沒有許可權的錯誤。如果我們知道當前的工作目錄，就可以得到完整路徑並能指出為什麼該進程無法在此處創建臨時文件。不幸的是，這個進程已經退出了，所以我們不能使用 lsof -p 21470 去找出當前的工作目錄，但是我們可以往前追溯，查找進程 ID 21470 使用哪個系統調用改變了它的工作目錄。這個系統調用是 chdir（可以在搜索引擎很輕鬆地找到）。以下是一直往前追溯到伺服器進程 ID 20629 的結果：

20629 clone(child_stack=NULL, flags=CLONE_CHILD_CLEARTID|CLONE_CHILD_SETTID|SIGCHLD, child_tidptr=0x7faa47c44810) = 21470
...
21470 execve("/usr/sbin/bcron-spool", ["bcron-spool"], 0x55d2460807e0 /* 27 vars */) = 0
...
21470 chdir("/var/spool/cron")          = 0
...
21470 openat(AT_FDCWD, "tmp/spool.21470.1573692319.854640", O_RDWR|O_CREAT|O_EXCL, 0600) = -1 EACCES (Permission denied)
21470 write(1, "32:ZCould not create temporary f"..., 36) = 36
21470 write(2, "bcron-spool[21470]: Fatal: logs:"..., 84) = 84
21470 unlink("tmp/spool.21470.1573692319.854640") = -1 ENOENT (No such file or directory)
21470 exit_group(111)                   = ?
21470 +++ exited with 111 +++

（如果你在這裡迷糊了，你可能需要閱讀我之前有關 *nix 進程管理和 shell 的文章）

現在 PID 為 20629 的伺服器進程沒有許可權在 /var/spool/cron/tmp/spool.21470.1573692319.854640 創建文件。最可能的原因就是典型的 *nix 文件系統許可權設置。讓我們檢查一下：

# ls -ld /var/spool/cron/tmp/
drwxr-xr-x 2 root root 4096 Nov  6 05:33 /var/spool/cron/tmp/
# ps u -p 20629
USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
cron     20629  0.0  0.0   2276   752 ?        Ss   Nov14   0:00 unixserver -U /var/run/bcron-spool -- bcron-spool

這就是問題所在！這個服務進程以 cron 用戶運行，但是只有 root 用戶才有向 /var/spool/cron/tmp/ 目錄寫入的許可權。一個簡單 chown cron /var/spool/cron/tmp/ 命令就能讓 bcron 正常工作。（如果不是這個問題，那麼下一個最有可能的懷疑對象是諸如 SELinux 或者 AppArmor 之類的內核安全模塊，因此我將會使用 dmesg 檢查內核日誌。）

總結

最初，系統調用追蹤可能會讓人不知所措，但是我希望我已經證明它們是調試一整套常見部署問題的快速方法。你可以設想一下嘗試用單步調試器去調試多進程的 bcron 問題。

通過一連串的系統調用解決問題是需要練習的，但正如我說的那樣，在大多數情況下，我只需要使用 strace 從下往上追蹤並查找錯誤。不管怎樣，strace 節省了我很多的調試時間。我希望這也對你有所幫助。

via: https://theartofmachinery.com/2019/11/14/deployment_debugging_strace.html

作者：Simon Arneaud 選題：lujun9972 譯者：hanwckf 校對：wxy

本文由 LCTT 原創編譯，Linux中國榮譽推出

本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何？

太棒了

不錯

愛死了

不太好

感覺很糟

Rain

雨落清風。心向陽

什麼是 strace？

什麼時候可以使用 strace？

一個簡單的例子

小技巧

man 是你的朋友

使用 -o 將輸出保存到文件

使用 -s 查看更多的參數

-y 使得追蹤文件或套接字更加容易

使用 -p 附加到正在運行的進程中

使用 -f 追蹤子進程

使用 -e 進行過濾

並非所有的錯誤都是不好的

C 編程指南非常有助於理解系統調用

一個更複雜的調試例子

總結

分享

對這篇文章感覺如何？

You may also like

Leave a reply 取消回復

More in:Linux中國

中文操作系統論壇

關注 LinuxStory

開源學村

特別關注

最新文章

最熱標籤