在 Apache Hive 中輕鬆生存的12個技巧

Hive 可以讓你在 Hadoop 上使用 SQL，但是在分散式系統上優化 SQL 則有所不同。這裡是讓你可以輕鬆駕馭 Hive 的12個技巧。

Hive 並不是關係型資料庫（RDBMS），但是它大多數時候都表現得像是一個關係型資料庫一樣，它有表、可以運行 SQL、也支持 JDBC 和 ODBC。

這種表現既有好的一面，也有不好的一面：Hive 並不像關係型資料庫那樣執行 SQL 查詢。我在 Hive 上花費了大量時間，光是我自己在工作中就為了優化它花費了超過80個小時。不說你也知道，我就像呆在蜂巢（Hive）旁邊一樣腦袋嗡嗡作響。所以，為了讓你免受這種痛苦，我決定將它們寫出來，以便讓你在你的下一個 Hive 項目中逃離這種折磨。

1、不要使用 MapReduce

不管你是不是覺得 Tez、Spark 或 Impala 能行，但是不要指望 MapReduce。它本身就很慢，比 Hive 還慢。如果你用的是 Hortonwork 的版本，你可以在腳本前面寫上 set hive.execution.engine=tez ；用 Cloudera 的話，使用 Impala。如果 Impala 不適用的話，我希望到時候可以使用 hive.execution.engine=spark 。

2、不要在 SQL 中做字元串匹配

絕不要，特別是在 Hive 中！如果你堅持要在 WHERE 語句中使用 LIKE 匹配，就會產生一個跨產品的警告。本來你的查詢可能只用幾秒鐘，但是使用字元串匹配的話就會變成幾分鐘。最好的辦法是使用那些可以在 Hadoop 中進行搜索的工具，可以試試 Elasticsearch 的 Hive 集成版本或 Lucidwork 的 Solr，以及 Cloudera Search。關係型資料庫這方面表現並不好，但是 Hive 則更糟糕。

3、不要用表連接子查詢

你最好創建一個臨時表，然後對這個臨時表進行連接，而不是讓 Hive 自己智能處理子查詢。即不要這樣做：

select a.* from something a inner join 
  (select ... from somethingelse union b select ... from anotherthing c) d 
  on a.key1 = d.key1 and a.key2 = b.key2 where a.condition=1

而是應該這樣：

create var_temp as select ... from somethingelse b 
  union select ... from anotherthing c 
and then 
select a.* from something a inner join from var_temp b 
  where a.key1=b.key1 and a.key2=b.key2 where a.condition=1

一般來說，這會比 Hive 自己處理子查詢要快許多。

4、使用 Parquet 或 ORC，但是不要轉換使用

也就是說，使用 Parquet 或 ORC 而不要用 TEXTFILE。然而，如果你要把文本數據中導入到更具結構性的數據中，應該做一些轉換再導入到目標表中。你不應該用 LOAD DATA 將文本文件載入到 ORC 中，而是應該將其載入到一個文本中。

如果你要創建另外一個表，並最終大多數分析都是對它進行的，那麼你就該對該表進行 ORC 化，因為轉換到 ORC 或 Parquet 要花費很多時間，並不值得將其放到你的 ETL 處理中。如果你有一個簡單的普通文本要導入，也沒做過任何優化，你應該將其載入到一個臨時表並通過 select create 放到 ORC 或 Parquet 中。不過，這有點慢。

5、開關矢量化試試

在你的腳本前面加上 set hive.vectorized.execution.enabled = true 和set hive.vectorized.execution.reduce.enabled = true ，然後試著打開或關閉它們看看。因為最近版本的 Hive 的矢量化有點問題。

6、不要在表連接中使用 structs

我必須承認我大腦裡面的 SQL 格式還是 SQL-92 時代的，所以我無論如何都不會想到去用 structs。但是如果你做一些超級複雜的操作，比如在聯合主鍵上使用 ON 語句，那麼 structs 就很方便。不幸的是，Hive 對它們很不適應，特別是在 ON 語句上。當然，大多數情況下，在較小的數據集和 yields 下是沒錯誤的。在 Tez 裡面，你會得到一個有趣的矢量錯誤。這個限制並未見於我所知的任何文檔，也許這是一個探索你的執行引擎內部的好辦法。

7、檢查你的容器大小

你也許需要為 Impala 或 Tez 增加你的容器大小。如果有你的節點大小比較大，「推薦的」容器大小可能就不適用於你的系統。你也許需要確保你的 YARN 隊列和常規的 YARN 內存大小合適。你也許應該注意默認的隊列並不適合所有的常規使用。

8、啟用統計

Hive 在表連接時會做一些蠢事，除非啟用了統計。你也可以在 Impala 中使用查詢提示。

9、考慮 MapJoin 優化

如果你分析你的查詢，你可能發現最新的 Hive 已經可以足夠智能地進行自動優化了。但是你也許需要再調整一下。

10、如果可以，將大表放到最後

如標題。

11、分區總會幫到你，不管多少

如果你有一個出現在許多地方的東西，比如語句中的日期（但不是日期範圍）或重複的地點，你也許應該做分區。分區的基本意思是「拆分到它自己的目錄裡面」，而不是到一個大的文件中去查找。當你在你的 join/where 語句中僅檢索 location=』NC』這樣一個小數據集時，Hive 就可以在一個文件中查找。此外，和列值不同，你可以在你的 LOAD DATA 語句中加上分區。另外，要記住，HDFS 並不喜歡小文件。

12、使用哈希進行列比較

如果你要在每個查詢中比較同樣的10個欄位，可以考慮使用 hash() 來比較它們的校驗值。在一個輸出表中展示它們也許很有用。注意，在 Hive 0.12 中，哈希功能比較差，0.13中的哈希更好一些。

以上就是我的12點經驗，我希望這些能夠幫到你，讓你從 Hive 的嗡嗡聲中逃離出來。

本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何？

太棒了

不錯

愛死了

不太好

感覺很糟

Rain

雨落清風。心向陽

1、不要使用 MapReduce

2、不要在 SQL 中做字元串匹配

3、不要用表連接子查詢

4、使用 Parquet 或 ORC，但是不要轉換使用

5、開關矢量化試試

6、不要在表連接中使用 structs

7、檢查你的容器大小

8、啟用統計

9、考慮 MapJoin 優化

10、如果可以，將大表放到最後

11、分區總會幫到你，不管多少

12、使用哈希進行列比較

分享

對這篇文章感覺如何？

You may also like

Leave a reply 取消回復

More in:Linux中國

中文操作系統論壇

關注 LinuxStory

開源學村

特別關注

最新文章

最熱標籤