Linux中國

從 IaaS 到 HaaS:京東雲的新「硬盒」

作為一個曾經親自扛著 2U 伺服器進長安街長話機房的系統工程師,我對伺服器的感情是深厚的,當撫摸著冰冷的裸金屬,感受著機房內嗡嗡的背景噪音時,似乎能感覺到數據的流動。因此,當得知我的採訪對象是國內第一個伺服器硬體開源項目的總架構師陳國峰先生時,我還是有點小激動的。

國峰是一個十分低調的人,現任京東雲硬體研發總監,他曾在百度工作,負責過百度硬體架構設計的相關工作,如百度的「北極」整機櫃伺服器、百度網盤用的冰山伺服器、百度 AI 所使用的 X-MAN 異構計算伺服器等就是其帶領團隊研發的成果,他也曾任開放數據中心委員會「天蠍」項目的總架構設計師。這十來年的硬體設計經歷,讓這個行業「老兵」對於互聯網的基礎設施——伺服器,有著獨到的見解。

京東雲硬體研發總監 陳國峰

演進:從複雜到簡單的伺服器

我最早接觸過的伺服器是 Sun 微系統的 Sparc 小型伺服器,並沒有見識過最早的 大型機 MainFrame 。隨著互聯網的發展,作為互聯網迅猛發展的重要基礎設施,伺服器的形態也逐漸演變,從塔式伺服器、刀片式伺服器,再到機架式伺服器,我們可以看到伺服器的發展從高成本向低成本演進,由複雜變簡單,由高技術壁壘向無技術壁壘演進。

就好比手機的演進過程,從一開始使用模擬網的大哥大,到後來使用數字網的手機(現在我們稱之為功能機),再到現在的智能機,可以看到,手機的技術在急速進步,技術壁壘在迅速降低,生產成本也以不可思議的速度降低。而在伺服器硬體方面,我們同樣發現,現在的機架式伺服器與原來的大型機相比,亦是如此。

從另外一個角度來看,隨著市場需求的不斷加大,我們對於伺服器硬體的看法也逐漸發生了變化。從過去每個互聯網公司最重要的硬體資產就是昂貴的伺服器,到如今伺服器已經成為了基本的生產資料一樣普遍和隨處可見。

以前對大機和小機追求的高可靠性、高穩定性,以及由此產生的高成本,隨著雲計算技術的普及,對單個伺服器基礎設施的穩定性和可靠性也在降低。互聯網應用系統可以通過軟體、集群的方式,來提升可靠性和穩定性,通過軟體上的容忍度,對集群的容忍度會變高,通過這些上層的手段來避免對於底層基礎設施的過度追求。相應的,隨著對於基礎設施的要求的不斷降低,硬體設計的成本自然而然的也就降了下來。

變化:源自真實場景的需求

京東雲的下一代伺服器也並非完全憑空誕生,而是源自於實際需求的變化。

在過去,使用機架式伺服器依然有大量的工作需要在機房內由人工完成,比如一個月可以在一個機房內交付 1 萬台機器,一年 10 萬台左右的規模。在過去的產業模式下,這種機制尚可持續,但如今的 HyperScale 模式下,這樣的交付效率顯然無法滿足業務對於大規模數據中心的部署要求。

另外,隨著雲計算的興起,雲的場景也開始多元化,傳統的公有雲開始衍生出混合雲、私有雲……這樣就會誕生另外一個場景,私有化的部署,包括邊緣部署。這種部署是很分散的,不是集中式的。對於這種分散式的部署,我們更需要的是一體化集成的整機櫃伺服器,避免把很多部署的技術資源分散到各個地域和零散的點上面去。然而雲用戶,特別是私有雲和混合雲用戶對硬體的穩定和配合功能往往也會有不同的訴求,這給傳統的整機櫃伺服器提出了新的挑戰。

為此,國峰帶領他的團隊,設計出了京東雲下一代伺服器。

在他看來,下一代伺服器必須具備以下幾個特性:

  1. 高穩定性。在過去私有雲的時代,總擁有成本(TCO)是伺服器定製的核心訴求,而在雲的時代,為用戶提供高可靠的基礎設施是京東雲的基本服務宗旨,所以,我們把高穩定性放在第一位,而不再是簡單的將成本放在第一位。
  2. 高靈活性。公有雲就意味著你的客戶也是千人千面,不同於傳統自用私有雲,公有雲客戶需求的多元化是不可避免的,因此,基礎服務就必須有足夠的靈活性,以適配這種來自需求的靈活性。這也是為什麼京東雲下一代伺服器要採用模塊化設計的概念。
  3. 高效率。對於當前複雜的雲市場,公有雲,私有雲,混合雲多種場景並存的市場下,提供一體化交付,並且快速響應客戶的資源需求也是產品競爭力的一項重要指標;高效另外一個層面的含義是高能效,能效是數據中心技術中的又一項重要指標,直接影響基礎設施的運營成本;因此高效率也成為硬體基礎設施的重要特性。
  4. 低成本。任何產品都避不開成本,成本是產品市場的核心因素,影響到產品的核心競爭力,但是,在雲的場景下成本管控應當是在為客戶提供了高穩定性、高靈活性、高效率之後考慮的事情。

HaaS :Hardware as a Service

和我們所熟知的裸金屬、異構計算不同,京東雲下一代伺服器是比裸金屬和異構計算更底層的基礎設施服務。確切地說,不管是裸金屬還是異構計算,包括上層的 IaaS、PaaS、SaaS 等服務都可以在京東雲下一代伺服器上呈現。

京東雲將會圍繞著下一代伺服器打造公有雲、私有雲、混合雲、全方位的雲產品。一方面,這些底層的硬體服務會服務於京東集團內部的自用私有雲,同時也會服務於集團的公有雲業務。另一方面,針對私有雲和混合雲,也可以對外提供私有化交付。如果客戶有需求,京東雲可以將這些定製的硬體結合京東雲的 Iaas、Paas、SaaS 相關技術和產品做成整體解決方案,交付給客戶。針對不同的客戶需求,京東雲可以圍繞定製化伺服器硬體和MDC(整合IT,供電,製冷一體方案)提供租、售產品服務。這就是我們所謂的 HaaS 的理念和概念。

挑戰:技術的進步

當然,下一代伺服器並非一蹴而就,所面臨的挑戰主要分為三個方面:

第一、設計理念——高靈活性,因為用戶的需求不可預測,用戶場景複雜,租用機房較多,每個機房基礎設施條件不一樣,同時業務類型複雜,資源調配遷移需求比較多,而目前主流的整機櫃與通用機相比,無論從 21 英寸的尺寸還是集中的散熱方式都有很大的差異,造成了整機櫃部署的局限性,很難實現靈活遷移,混合部署。京東雲的下一代伺服器通過「標準化,模塊化,彈性化」,極大地提高了多場景支撐的靈活性。首先我們採用 42U 19 英寸標準機櫃為設計單位,節點獨立散熱,通用性強,實現了整機櫃和標準機架伺服器任意切換。其次,節點前 IO 設計,機櫃後部無任何線纜,所有運維工作均可在冷通道進行,單邊維護效率更高,環境更友好。同時通過模塊化設計,可實現前後 IO 靈活切換,集中供電和單機供電模式靈活切換。

第二、也是這個行業面臨的通用性技術挑戰——高功率密度問題。因為現在晶元行業已經進入到後摩爾定律時代了,意味著計算力的提升也會帶來功耗的不斷提升。功耗的上升,對於系統散熱設計的挑戰就會越來越大,風冷已經不足以滿足目前的製冷需求,甚至散熱某種程度上已經制約了伺服器和數據中心的發展。所以,在新的架構設計上,我們會通過一些新的散熱手段,比如通過風液混合散熱的方式解決功率密度的問題。

第三,功率密度提高之後,風扇轉速就會更高。同時由於硬碟的存儲密度不斷上升,對於外部環境的振動、雜訊的敏感度就越來越高。所以我們在設計上對於硬碟和風扇振動需要考慮得更多,我們採用了「硬碟前置,風扇後置」的系統架構,最大程度的拉開風扇和硬碟之間的距離,有效的降低了震動對硬碟的影響。

開源:硬體開源任重道遠

軟體是開源領域的主力,雖然已經有一些開源硬體的出現,但是,仍然算不上主流,絕大多數團隊在硬體方面依然採用傳統的閉源方式。

在這個方面,我專門請教了國峰。在他看來,首先,必須承認硬體開源的發展遠不如軟體開源。硬體開源是最近幾年興起的,國際上比較知名的組織就是 OCP(Open Compute Project),以及國內比較知名的 ODCC ,其前身是 BAT 三家發起的天蠍項目。

他認為,之所以過去大家不做硬體開源,主要是兩個原因:

一方面,原來硬體的技術壁壘相對較高,大家希望通過這些技術壁壘來創造價值,來實現商業變現,所以,之前市場上一直沒有硬體開源的社區和項目。

另一方面,硬體跟軟體有一個很大的不同點,軟體的代碼一旦寫好,在機器上直接運行就能知道是否可以工作,硬體不一樣,要驗證一個硬體系統的設計,首先要從原理圖上設計出來,然後在工廠生產出來,最後進行驗證。它的周期長,同時需要大量實物的投入,投入成本相對比較大。此外,還需要有很多專業設備做測試,調試,所以,它的驗證成本也非常高。這也是為什麼硬體開源難以發展起來的原因。

但是,隨著時代的變化,市場的不斷變大,技術的開放力度也在不斷的增強,技術壁壘也相應在不斷降低,成本也越來越低。眾人拾柴火焰高,一個新的硬體出來之後有更多的人參與進來,它的上下游的生態就會建得更快一點,普及周期就會變得更短。

這也是為什麼京東雲下一代伺服器要做硬體開源的原因,我們希望建立和維護這樣的生態,把大家拉到一起共同推動新生態的演進。

當然,開源也並非易事,要開源首先必須得做好充分的準備來接受市場以及行業專業人士的檢驗。目前京東雲正在為下一代伺服器的開源做準備。接下來,京東雲也會圍繞其新的硬體設計建立一些開源的渠道,比如 OCP、ODCC 等。

京東雲希望通過硬體開源,讓行業裡面更多相關經驗的從業者參與到下一代伺服器的硬體設計中來,共同圍繞新的伺服器架構營造一個合作共贏的生態。


本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何?

太棒了
0
不錯
0
愛死了
0
不太好
0
感覺很糟
0
雨落清風。心向陽

    You may also like

    Leave a reply

    您的電子郵箱地址不會被公開。 必填項已用 * 標註

    此站點使用Akismet來減少垃圾評論。了解我們如何處理您的評論數據

    More in:Linux中國