關於哈希（散列）函數你應該知道的東西

無論安全從業人員用計算機做什麼，有一種工具對他們每個人都很有用：加密哈希（散列） hash 函數。這聽起來很神秘、很專業，甚至可能有點乏味，但是，在這裡，關於什麼是哈希函數以及它們為什麼對你很重要，我會作出一個簡潔的解釋。

加密哈希函數，比如 SHA-256 或者 MD5，接受一組二進位數據（通常是位元組）作為輸入，並且對每個可能的輸入集給出一個希望唯一 hopefully unique 的輸出。對於任意模式的輸入，給定的哈希函數的輸出（「哈希值」）的長度都是一樣的（對於 SHA-256，是 32 位元組或者 256 比特，這從名字中就能看出來）。最重要的是：從輸出的哈希值反推回輸入，這從計算的角度是不可行的 implausible （密碼學家討厭「不可能 impossible 」這個詞）。這就是為什麼它們有時候被稱作單向哈希函數 one-way hash function 。

但是哈希函數是用來做什麼的呢？為什麼「唯一」的屬性如此重要？

唯一的輸出

在描述哈希函數的輸出時，「希望唯一 hopefully unique 」這個短語是至關重要的，因為哈希函數就是用來呈現完全唯一的輸出。比如，哈希函數可以用於驗證你下載的文件副本的每一個位元組是否和我下載的文件一樣。你下載一個 Linux 的 ISO 文件或者從 Linux 的倉庫中下載軟體時，你會看到使用這個驗證過程。沒有了唯一性，這個技術就沒用了，至少就通常的目的而言是這樣的。

如果兩個不同的輸入產生了相同的輸出，那麼這樣的哈希過程就稱作「碰撞 collision 」。事實上，MD5 演算法已經被棄用，因為雖然可能性微乎其微，但它現在可以用市面上的硬體和軟體系統找到碰撞。

另外一個重要的特性是，消息中的一個微小變化，甚至只是改變一個比特位，都可能會在輸出中產生一個明顯的變化（這就是「雪崩效應 avalanche effect 」）。

驗證二進位數據

哈希函數的典型用途是當有人給你一段二進位數據，確保這些數據是你所期望的。無論是文本、可執行文件、視頻、圖像或者一個完整的資料庫數據，在計算世界中，所有的數據都可以用二進位的形式進行描述，所以至少可以這麼說，哈希是廣泛適用的。直接比較二進位數據是非常緩慢的且計算量巨大，但是哈希函數在設計上非常快。給定兩個大小為幾 M 或者幾 G 的文件，你可以事先生成它們的哈希值，然後在需要的時候再進行比較。

通常，對哈希值進行簽名比對大型數據集本身進行簽名更容易。這個特性太重要了，以至於密碼學中對哈希值最常見的應用就是生成「數字」簽名。

由於生成數據的哈希值很容易，所以通常不需要有兩套數據。假設你想在你的電腦上運行一個可執行文件。但是在你運行之前，你需要檢查這個文件就是你要的文件，沒有被黑客篡改。你可以方便快捷的對文件生成哈希值，只要你有一個這個哈希值的副本，你就可以相當肯定這就是你想要的文件。

下面是一個簡單的例子：

$ shasum -a256 ~/bin/fop
87227baf4e1e78f6499e4905e8640c1f36720ae5f2bd167de325fd0d4ebc791c  /home/bob/bin/fop

如果我知道 fop 這個可執行文件的 SHA-256 校驗和，這是由供應商（這個例子中是 Apache 基金會）提供的：

87227baf4e1e78f6499e4905e8640c1f36720ae5f2bd167de325fd0d4ebc791c

然後我就可以確信，我驅動器上的這個可執行文件和 Apache 基金會網站上發布的文件是一模一樣的。這就是哈希函數難以發生碰撞（或者至少是 很難通過計算得到碰撞）這個性質的重要之處。如果黑客能將真實文件用哈希值相同的文件輕易的進行替換，那麼這個驗證過程就毫無用處。

事實上，這些性質還有更技術性的名稱，我上面所描述的將三個重要的屬性混在了一起。更準確地說，這些技術名稱是：

抗原像性 pre-image resistance ：給定一個哈希值，即使知道用了什麼哈希函數，也很難得到用於創建它的消息。
抗次原像性 second pre-image resistance ：給定一個消息，很難找到另一個消息，使得這個消息可以產生相同的哈希值。
抗碰撞性 collision resistance ：很難得到任意兩個可以產生相同哈希值的消息。

抗碰撞性 和 抗次原像性 也許聽上去是同樣的性質，但它們具有細微而顯著的不同。抗次原像性 說的是如果已經有了一個消息，你也很難得到另一個與之哈希值相匹配的消息。抗碰撞性 使你很難找到兩個可以生成相同哈希值的消息，並且要在哈希函數中實現這一性質則更加困難。

讓我回到黑客試圖替換文件（可以通過哈希值進行校驗）的場景。現在，要在「外面」使用加密哈希演算法（除了使用那些在現實世界中由獨角獸公司開發的完全無 Bug 且安全的實現之外），還有一些重要且困難的附加條件需要滿足。認真的讀者可能已經想到了其中一些，特別需要指出的是：

你必須確保自己所擁有的哈希值副本也沒有被篡改。
你必須確保執行哈希演算法的實體能夠正確執行並報告了結果。
你必須確保對比兩個哈希值的實體確實報告了這個對比的正確結果。

確保你能滿足這些條件絕對不是一件容易的事。這就是可信平台模塊 Trusted Platform Modules （TPM）成為許多計算系統一部分的原因之一。它們扮演著信任的硬體基礎，可以為驗證重要二進位數據真實性的加密工具提供保證。TPM 對於現實中的系統來說是有用且重要的工具，我也打算將來寫一篇關於 TPM 的文章。

via: https://opensource.com/article/20/7/hash-functions

作者：Mike Bursell 選題：lujun9972 譯者：Yufei-Yan 校對：wxy

本文由 LCTT 原創編譯，Linux中國榮譽推出

本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何？

太棒了

不錯

愛死了

不太好

感覺很糟

Rain

雨落清風。心向陽

關於哈希（散列）函數你應該知道的東西

唯一的輸出

驗證二進位數據

對這篇文章感覺如何？

使用 Cloud-init 將節點添加到你的私有雲中

Linux 上無痛文件提取

Leave a reply 取消回復

More in:Linux中國

捐贈 Let's Encrypt，共建安全的互聯網

Let's Encrypt 正式發布，已經保護 380 萬個域名

關於Linux防火牆iptables的面試問答

Lets Encrypt 已被所有主流瀏覽器所信任

中文操作系統論壇

關注 LinuxStory

開源學村

編程類開放書籍薈萃

如何殺死 Linux 中的殭屍進程

2022年，從學習Rust開始

使用 Linux 命令行解決Wordle 問題

5本學習 TeX 的最佳免費書籍

Makefile 簡介

Linux 內核補丁提交初體驗

Linux 的前世今生 – 1

特別關注

更開放的分散式事務 | Fescar 品牌升級，更名為 Seata

HeRM’s – 一個命令食譜管理器

使用 Let's Encrypt 保護你的網站

LinuxStory

加入 LinuxStory 交流群組

投票調查

最熱標籤

唯一的輸出

驗證二進位數據

分享

對這篇文章感覺如何？

You may also like

Leave a reply 取消回復

More in:Linux中國

中文操作系統論壇

關注 LinuxStory

開源學村

特別關注

最新文章

最熱標籤