谷歌剛剛讓大數據專業知識更難偽造 - 彭博社
Ashlee Vance
2014年穀歌I/O大會在舊金山攝影:Jeff Chiu/AP照片在過去五年左右的時間裏,假裝你對大數據有所瞭解是相當容易的。你參加了雞尾酒會——那個有很多男士的——拿了一杯飲料,然後一次又一次地説“哈杜普”。人們點頭。荒謬的高薪工作邀請第二天就來了。簡單。
好吧,谷歌本週正式結束了這段美好時光。在公司年度開發者大會的一些演講中,谷歌高管宣稱他們已經不再關注哈杜普。這是昨天的流行詞。任何想要成為真正的大數據專家的人現在都需要熟悉Flume、MillWheel、谷歌雲數據流和Spurch。(好吧,我最後一個是編的。)
事情是這樣的。大約十年前,谷歌的工程師們寫了一些論文,詳細描述了一種分析大量數據的新方法。他們將這種方法稱為MapReduce:數據被分散在數千台服務器上;人們對信息提出問題;然後他們在幾分鐘或幾小時後得到了答案。雅虎!率先將這種基礎技術轉變為一個名為哈杜普的開源產品。自那時以來,數百家公司幫助確立了哈杜普作為現代數據分析工作的標準。(關於這個話題已經有很多書寫。)像Cloudera、Hortonworks和MapR這樣的初創公司都有自己的哈杜普版本,供公司使用,幾乎每個需要分析大量信息的公司都有自己的哈杜普團隊。
谷歌可能處理的信息量超過地球上任何公司,並且往往需要發明工具來應對這些數據。因此,它的技術領先競爭對手五到十年。這周,它 揭示它在一段時間前放棄了MapReduce/Hadoop方法,轉而採用一些更靈活的數據分析系統。
Hadoop的一個大限制是你往往需要進行“批處理”操作,這意味着命令計算機以批量方式執行操作,然後等待結果。你可能會要求大型機將公司的工資單作為批處理作業進行處理,或者在一個更現代的例子中,分析上週二德克薩斯州人們在谷歌上輸入的所有搜索詞。
根據谷歌的説法,它的Cloud Dataflow服務可以在信息流入數據庫時,同時運行數據分析作業。谷歌在其會議上 演示的一個例子是對世界盃比賽相關推文的即時分析。你知道的,生死攸關的事情。
谷歌將內部工具——那些名字奇怪的工具,如Flume和MillWheel——整合到Cloud Dataflow服務中,並計劃將其作為雲服務提供給開發者和客户。承諾是其他公司將能夠比以往更輕鬆、更快速地處理更多信息。
雖然谷歌歷來是一家非常保密的公司,但它正在將其內部技術作為一種競爭手段開放。谷歌比例如 亞馬遜 更願意將其工程師構建的聰明東西交給他人。這是一個可以理解的舉動,考慮到亞馬遜在雲計算領域的顯著領先。
至於Hadoop家族?你可能會認為谷歌直言不諱地稱其為過時的東西,會使得繼續推銷Hadoop作為你公司無法缺少的熱門事物變得困難。對此確實有一些道理。
也就是説,即使是最大的Hadoop粉絲如Cloudera也已經在一段時間內超越了這項技術。Cloudera依賴於一些超級快速的數據分析引擎,如Spark和Impala,這些引擎可以從基於Hadoop的存儲系統中獲取數據,並以類似於谷歌的方式進行處理。
然而,痛苦的結果是,從現在開始,假裝在大數據領域遊刃有餘將變得更加困難。試着在喝了幾杯金湯力後保持你的Flume和Impala的清晰。