陳根:數據存儲,如何解決能耗問題和孤島現狀?_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2021-11-21 07:56
文/陳根
在信息化時代裏,作為人們獲取信息、汲取知識的素材和源泉,數據已經成為社會生產和生活既重要又具體的資源。當然,要讓數據全面、充分地發揮出其價值,一個看似簡單卻必要的前提是:數據需要被妥善保管在可靠**、可信、**可管理的平台中,能夠被隨時隨地且方便地存取。
可以説,存儲是利用數據的基礎,是數據處理、數據挖掘、數據價值等實現的前提,數據存儲的重要性不言而喻。然而,數據作為當前社會最寶貴的資源之一,如何做好各類****數據的長期存儲管理,依然是個有待解決的問題。
一方面,伴隨着各類信息化應用的迅猛發展,數據量正在呈指數級增長,大量數據吞吐和運算,帶來不可忽視的能耗問題;另一方面,由於不同主體對信息化的不同需求,各類數據依然被封存在不同的系統中,孤島林立,不可避免地帶來資源的浪費。
當前,我們已身處於存儲變革的風暴眼中,加快推動數據資源共享和開發應用,更好地存儲、管理和使用數據是數據存儲的當務之急。

存儲技術日新月異
不可否認,人類在過去200年裏取得的存儲技術的進步比在之前2000年裏取得的還要多。
1932年**,奧地利出現了早期計算機****的磁鼓內存**。一個三維模擬的磁鼓存儲器形成一個陣列,相當於一個硬盤,由此而生的磁滾筒存儲成功地運用在IBM 650超級計算機中,並於1953年發佈。IBM 650長為16英寸,直徑4英寸,鼓旋轉速度為750千赫,可以存儲高達8.5 KB的數據。
**磁鼓存儲器在1950至60年代用作計算機的主要外存儲器。**它利用電磁感應原理進行數字信息的記錄與再生,由作為信息載體的磁鼓筒、磁頭,讀寫及譯碼電路和控制電路等主要部分組成。不過,磁鼓是利用鋁鼓筒表面塗覆的磁性材料來存儲數據的。鼓筒旋轉速度很高,因此存取速度快。它採用飽和磁記錄,從固定式磁頭發展到浮動式磁頭,從採用磁膠發展到採用電鍍的連續磁介質。
這些**,**都為後來的存儲器打下了基礎。1956年,世界上的第一款硬盤終於由IBM設計完成。這款名為IBM350 RAMAC的硬盤產品體積十分龐大,但容量僅為5MB,總共使用了50張24英寸的盤片。
1973年,IBM公司製造出第一台採用“温徹斯特”技術的硬盤。自此,硬盤技術的發展有了正確的結構基礎。它的容量為60MB,轉速略低於3000RPM,採用4張14英寸盤片,存儲密度為每平方英寸1.7MB。1991年,IBM生產的3.5英寸的硬盤使用了MR磁頭,使硬盤的容量首次達到了1GB,硬盤容量由此進入了GB數量級的發展新階段。
數字數據存儲的引入改變了我們生產、操作和存儲信息的方式。顯然,相比起書面存儲,數字存儲有更低的成本和更高的效益。當前,數字信息已經滲透到我們生活和社會的方方面面,以至於近些年信息生產量的增長似乎勢不可擋。數字信息的膨脹帶了巨大的存儲需求,也推動了存儲產業進行自發的更新。
一方面**,新的存儲產品形態和技術架構開始普及**。一是閃存和固態硬盤(SSD)價格持續降低,成為更多人的選擇;二是存儲技術也在快速發展,新的接口、協議、架構開始出現,使存儲設備的帶寬、性能和存儲容量得到極大提升,為更高性能的服務器設計和更大規模的數據中心應用做好了準備。
另一方面**,新的存儲系統以及建立在其上的各種存儲架構理念開始出現**。除了傳統的存儲陣列之外,全閃存陣列、混合存儲等存儲系統開始湧現,從不同的角度滿足大規模存儲和上層應用對於數據的快速讀取需要;融合存儲、超融合存儲、軟件定義存儲等各種理念,各自都能看到許多廠商的背後支持。
此外,在軟件技術和硬件發展的推動下,雲計算技術和產業日趨成熟,給包括存儲在內的傳統硬件產業帶來巨大的衝擊。總的來説,存儲技術的發展支撐着日益擴大的數據應用的需求,使數據不斷昇華為信息和知識,並再一次被重新投入到新一輪的各類社會經濟活動中,創造出更大的價值。

能耗問題和數據孤島
數據存儲的重要性不言而喻。然而,數據作為當前社會最寶貴的資源之一,在數據存儲技術不斷更新的背景下,卻依然面臨各類數據的長期存儲管理不善的問題——在大量數據吞吐和運算帶來不可忽視的能耗問題的另一邊,數據孤島問題突出,資源浪費難以避免。
在2進制代碼中,數字信息以1和0的形式存儲,也稱為比特。8比特構成1字節。然而,全世界在2018年創建、捕獲、複製和消耗的數據總量就已經達到33澤字節(ZB),而1澤字節整整有8x1021比特。2020年,這一數字增長到59 ZB,預計到2025年將達到令人難以想象的175 ZB。
更直觀地説,假設每一個比特都是一枚硬幣,大約3毫米厚。由一摞硬幣組成的1ZB將有2550光年高,可以到達最近的恆星系統半人馬座阿爾法星600次。目前,我們每年產生的數據量是這個數字的59倍,複合增長率估計在61%左右。
為滿足日益增長的數字數據存儲需求,每兩年就會有約100個新的超大規模數據中心建成。根據工信部印發的《新型數據中心發展三年行動計劃(2021-2023年)》,到2023年底,全國數據中心機架規模年均增速保持在20%左右,總算力超過200EFLOPS,高端算力佔比達到10%。
大量數據吞吐和運算,不可避免地增加用電量,這將排放大量二氧化碳,以及二氧化硫、氮氧化物等主要環境污染物。2018年,中國數據中心總用電量為1608億千瓦時,佔全社會用電量2.35%,用電相關排放量為9855萬噸二氧化碳,成為名副其實的“耗能大户”。按照當前速度發展,預計到2023年,數據中心能耗將相當於2.6個三峽電站的發電量,碳排放量將達1.63億噸。
面對不可忽視的能耗問題,建設一體化大數據中心、破解高能耗難題,找準破局關鍵點尤為重要。**然而,事實是,由於不同主體對信息化的不同需求,各類數據依然被封存在不同的****系統中,**孤島林立,不可避免地造成了資源的浪費。
數字信息通常存儲在三種地方:一是全球各地的終端,包括所有物聯網設備、個人電腦、智能手機和所有其他信息存儲設備。二是邊緣位置,包括基礎設施如手機發射塔和機構服務器,以及服務處如大學、政府辦公室、銀行和工廠。三是存儲大部分數據的核心位置——傳統數據服務器和雲數據中心。

然而,在設計信息系統架構時,由於沒有一套參照的標準。因此,不同的主體的不同的選擇,使得各類數據依然被封存在不同的系統中。**以政府為例,根據政府採購網的採購公告,僅過去半年就有11431條相關採購,各省的各種單位都有,採購金額從幾十萬到幾百萬不等,**比如:
中國教育圖書進出口有限公司私有云存儲擴容採購項目230萬;重慶大學全閃存儲及服務器採購項目243萬;中央廣播電視總枱私有云存儲設備全包代維項目150萬;廣州中山大學第一附屬醫院數據中心服務器與存儲擴容升級項目601萬;廣東工貿職業技術學院存儲容量擴容項目 30萬等等。
這帶來的後果,首先是每個單位都有自己的機房、服務器和管理員,造成管理成本上的浪費;再就是當每個單位都使用自己的存儲格式、數據庫設計、操作軟件,將不利於數據通用和對外開放,而大量數據吞吐和運算,又不可避免地增加用電量,側面帶來能耗上的浪費。
**政府尚且如此,更不用説以商業為目的企業。**因為企業在不同發展時段對信息化有着不同需求,在搭建基礎設施與軟件系統時本就有側重。再加上有限的預算與部署難度,使得很多企業信息化系統之間都互不相通。
往往每個事業部都有各自存儲、各自定義的數據。各部門數據就像一個個孤島一樣無法和企業內部其他數據進行連接互動。存在數據孤島的企業,所有數據被封存在各系統中,讓完整的業務鏈上孤島林立,信息的共享、反饋難。數據之間缺乏關聯性,數據庫彼此無法兼容。
合理規劃打破孤島
如何解決能耗問題和數據孤島,更好地存儲、管理和使用數據是數據存儲的當務之急。
顯然**,社會對數據存儲和使用的認識有待提高**。當前,隨着全球雲計算產業的深刻變化,其產生了越來越多的新型數據庫,這些數據庫一方面依靠存儲技術來存儲海量數據,另一方面又給存儲服務提出了新的訴求,影響着它的發展。但是,全社會對數據存儲的認識並未及時更新。比如,現階段政府部門雖然大力倡導大數據發展戰略,但是許多數據存儲仍然沿襲傳統分析流程和方法。

一方面,從能耗角度來看,數據存儲需要****合理規劃佈局,統籌集羣發展。供需失衡、能源佈局失配,是我國數據中心的突出問題。這需要全國大數據中心的一體化佈局,合理應用我國能源分佈特點,結合當地能源條件。目前,我國數據中心存量機櫃數量機櫃總數約360餘萬架,其中熱數據集聚在京津冀、長三角、珠三角三大經濟區,冷數據集聚於西部資源富足地區。
此外,還應進一步挖掘數據中心的節能減排潛力,提升能源利用效率、降低能耗;加大對基礎設施的整合調度,推動老舊基礎設施轉型升級,靈活運用高密度集成高效電子信息設備、液冷等節能技術,及可再生能源。
另一方面,對於數據分散的現狀而言,“各打各的鑼、各唱各的戲”是導致政府部門****信息孤島、重複建設問題的重要原因。目前,中央層面建立了國家電子政務統籌協調機制,釐清了中央有關部門在電子政務建設、管理、運行和標準化方面的職能和職責,避免了部門之間職責交叉重疊。
然而,由於國家電子政務統籌協調工作職能多次調整,各地數字政府建設水平參差不齊,使得地方數字政府建設統籌工作的情況依然複雜,各地做法也不盡相同。從整體來看,地方統籌協調不暢,網絡、平台、應用等資源建設管理缺乏有效配合的現象仍舊客觀存在。因此,想要打破政府部門的“孤島”現象,還需要持續的深入的調整和改革。
在企業方面,失去對數據的控制權是企業對開放數據的最大擔憂。基於此,隱私計算作為一種由兩個或多個參與方聯合計算的技術和系統,參與方可以在不泄露各自數據的前提下通過協作對他們的數據進行聯合機器學習和聯合分析。
隱私計算的參與方既可以是同一機構的不同部門,也可以是不同的機構。在隱私計算框架下,參與方的數據不出本地,在保護數據安全的同時實現多源數據跨域合作,可以破解數據保護與融合應用難題。
存儲是利用數據的基礎,只有看清了這一點,我們才能更加遊刃有餘地改造和優化存儲架構,並使之成為數據價值挖掘的有利工具和平台。