傻瓜版大數據——或者至少是產品經理的指南 - 彭博社
Ashlee Vance
幾年前,數據科學家並不存在。現在,似乎硅谷的每個人要麼是數據科學家,要麼聲稱自己是,要麼想成為數據科學家。為什麼不呢?這些人每年賺取超過20萬美元的薪水,因為他們被視為真正知道如何處理公司積累的所有信息的巫師。他們是數據處理和分析軟件的統治者,如Hadoop、Pig和Hive,這些軟件僅憑其荒謬的名稱就讓普通人望而卻步。
老實説,貝恩·維爾瑟(Ben Werther)説,作為一名資深的數據分析專家,他創辦了一家公司叫Platfora,旨在使數據分析變得簡單——或者至少更簡單——以便那些擁有產品經理、市場經理和業務分析師等職位的人能夠像數據科學家一樣有效。
在某種程度上,你可以將Platfora視為命令行和圖形用户界面之間的區別。你不需要在像Hadoop這樣的軟件中輸入複雜查詢的字符串,而是打開Platfora,點擊各種菜單來確定你想要處理的數據集以及你想如何處理它們。因此,你不再需要軟件工程師去數據庫中查找,你基本上可以用鼠標點擊並開始操作。
為了證明 Platfora 的有效性,維爾瑟(或者更確切地説是他的演示助手)在互聯網上找到了一份來自芝加哥市的公開數據集。它涵蓋了數十年的許可證申請,基本上是一個巨大的電子表格。助手將數據庫導入Hadoop數據分析系統,但隨後啓動Platfora開始處理這些信息。
一開始,Platfora 就會通過數據庫對信息進行分類——許可申請人、地址、日期——然後顯示一個可點擊的菜單。從那裏你可以請求查看,比如説,過去 20 年按類型和成本比較的許可證。幾秒鐘後,你會收到一張圖表,繪製所有這些信息,並顯示,例如,平均許可證費用為 965 美元,而申請在 2008 年經濟衰退開始時大幅下降。
如果你想將這張圖表發送給同事,你只需點擊另一個按鈕,它就會發送出去。你的同事可以對聊天進行註釋,並將其帶着評論發送回你,或者查看數據的來源並進行另一個分析工作。到那時,你就正式成為一名數據科學家,可以要求加薪。
在幕後,Platfora 正在解決一個相當有趣的問題。較舊的數據分析系統試圖通過要求公司設定嚴格的指南來加快工作速度,以便明確他們在尋找什麼。較新的選項則更加靈活,因為它們幾乎收集所有內容,並允許人們搜索幾乎所有內容,但它們吸收的數據量太大,以至於處理新查詢需要一些時間。相比之下,Platfora 作為這兩種方法之間的中間地帶。它確定你在特定查詢中需要哪些數據集,並將它們從總數據池中分離出來,以便分析工作可以在有限的數據池上更快地運行。
該公司成立於 2011 年 6 月,自 3 月以來一直在銷售其產品。它還從 In-Q-Tel(中央情報局的風險投資部門)、Battery Ventures、Andreessen Horowitz 等處籌集了近 3000 萬美元的資金。(擁有 Businessweek.com 的彭博社是 Andreessen Horowitz 的投資者。)
你可以期待看到越來越多像這樣的公司出現,並承諾讓大數據變得簡單。整個大數據的事情似乎已經到了人們厭倦聽到技術承諾的階段,他們希望看到更多實際的結果。
“人們只是做錯了,”維爾瑟説。也許吧。