Linux中國

關於哈希(散列)函數你應該知道的東西

無論安全從業人員用計算機做什麼,有一種工具對他們每個人都很有用:加密 哈希散列 hash 函數。這聽起來很神秘、很專業,甚至可能有點乏味,但是, 在這裡,關於什麼是哈希函數以及它們為什麼對你很重要,我會作出一個簡潔的解釋。

加密哈希函數,比如 SHA-256 或者 MD5,接受一組二進位數據(通常是位元組)作為輸入,並且對每個可能的輸入集給出一個 希望唯一 hopefully unique 的輸出。對於任意模式的輸入,給定的哈希函數的輸出(「哈希值」)的長度都是一樣的(對於 SHA-256,是 32 位元組或者 256 比特,這從名字中就能看出來)。最重要的是:從輸出的哈希值反推回輸入,這從計算的角度是 不可行的 implausible (密碼學家討厭 「 不可能 impossible 」 這個詞)。這就是為什麼它們有時候被稱作 單向哈希函數 one-way hash function

但是哈希函數是用來做什麼的呢?為什麼「唯一」的屬性如此重要?

唯一的輸出

在描述哈希函數的輸出時,「 希望唯一 hopefully unique 」這個短語是至關重要的,因為哈希函數就是用來呈現完全唯一的輸出。比如,哈希函數可以用於驗證 下載的文件副本的每一個位元組是否和 下載的文件一樣。你下載一個 Linux 的 ISO 文件或者從 Linux 的倉庫中下載軟體時,你會看到使用這個驗證過程。沒有了唯一性,這個技術就沒用了,至少就通常的目的而言是這樣的。

如果兩個不同的輸入產生了相同的輸出,那麼這樣的哈希過程就稱作「 碰撞 collision 」。事實上,MD5 演算法已經被棄用,因為雖然可能性微乎其微,但它現在可以用市面上的硬體和軟體系統找到碰撞。

另外一個重要的特性是,消息中的一個微小變化,甚至只是改變一個比特位,都可能會在輸出中產生一個明顯的變化(這就是「 雪崩效應 avalanche effect 」)。

驗證二進位數據

哈希函數的典型用途是當有人給你一段二進位數據,確保這些數據是你所期望的。無論是文本、可執行文件、視頻、圖像或者一個完整的資料庫數據,在計算世界中,所有的數據都可以用二進位的形式進行描述,所以至少可以這麼說,哈希是廣泛適用的。直接比較二進位數據是非常緩慢的且計算量巨大,但是哈希函數在設計上非常快。給定兩個大小為幾 M 或者幾 G 的文件,你可以事先生成它們的哈希值,然後在需要的時候再進行比較。

通常,對哈希值進行簽名比對大型數據集本身進行簽名更容易。這個特性太重要了,以至於密碼學中對哈希值最常見的應用就是生成「數字」簽名。

由於生成數據的哈希值很容易,所以通常不需要有兩套數據。假設你想在你的電腦上運行一個可執行文件。但是在你運行之前,你需要檢查這個文件就是你要的文件,沒有被黑客篡改。你可以方便快捷的對文件生成哈希值,只要你有一個這個哈希值的副本,你就可以相當肯定這就是你想要的文件。

下面是一個簡單的例子:

$ shasum -a256 ~/bin/fop
87227baf4e1e78f6499e4905e8640c1f36720ae5f2bd167de325fd0d4ebc791c  /home/bob/bin/fop

如果我知道 fop 這個可執行文件的 SHA-256 校驗和,這是由供應商(這個例子中是 Apache 基金會)提供的:

87227baf4e1e78f6499e4905e8640c1f36720ae5f2bd167de325fd0d4ebc791c

然後我就可以確信,我驅動器上的這個可執行文件和 Apache 基金會網站上發布的文件是一模一樣的。這就是哈希函數難以發生碰撞(或者至少是 很難通過計算得到碰撞)這個性質的重要之處。如果黑客能將真實文件用哈希值相同的文件輕易的進行替換,那麼這個驗證過程就毫無用處。

事實上,這些性質還有更技術性的名稱,我上面所描述的將三個重要的屬性混在了一起。更準確地說,這些技術名稱是:

  1. 抗原像性 pre-image resistance :給定一個哈希值,即使知道用了什麼哈希函數,也很難得到用於創建它的消息。
  2. 抗次原像性 second pre-image resistance :給定一個消息,很難找到另一個消息,使得這個消息可以產生相同的哈希值。
  3. 抗碰撞性 collision resistance :很難得到任意兩個可以產生相同哈希值的消息。

抗碰撞性抗次原像性 也許聽上去是同樣的性質,但它們具有細微而顯著的不同。抗次原像性 說的是如果 已經 有了一個消息,你也很難得到另一個與之哈希值相匹配的消息。抗碰撞性 使你很難找到兩個可以生成相同哈希值的消息,並且要在哈希函數中實現這一性質則更加困難。

讓我回到黑客試圖替換文件(可以通過哈希值進行校驗)的場景。現在,要在「外面」使用加密哈希演算法(除了使用那些在現實世界中由獨角獸公司開發的完全無 Bug 且安全的實現之外),還有一些重要且困難的附加條件需要滿足。認真的讀者可能已經想到了其中一些,特別需要指出的是:

  1. 你必須確保自己所擁有的哈希值副本也沒有被篡改。
  2. 你必須確保執行哈希演算法的實體能夠正確執行並報告了結果。
  3. 你必須確保對比兩個哈希值的實體確實報告了這個對比的正確結果。

確保你能滿足這些條件絕對不是一件容易的事。這就是 可信平台模塊 Trusted Platform Modules (TPM)成為許多計算系統一部分的原因之一。它們扮演著信任的硬體基礎,可以為驗證重要二進位數據真實性的加密工具提供保證。TPM 對於現實中的系統來說是有用且重要的工具,我也打算將來寫一篇關於 TPM 的文章。

via: https://opensource.com/article/20/7/hash-functions

作者:Mike Bursell 選題:lujun9972 譯者:Yufei-Yan 校對:wxy

本文由 LCTT 原創編譯,Linux中國 榮譽推出


本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何?

太棒了
0
不錯
0
愛死了
0
不太好
0
感覺很糟
0
雨落清風。心向陽

    You may also like

    Leave a reply

    您的電子郵箱地址不會被公開。 必填項已用 * 標註

    此站點使用Akismet來減少垃圾評論。了解我們如何處理您的評論數據

    More in:Linux中國