【大風哥】聽阿里大數據專家講大實話:沒有大數據專家,只有滿身傷痕的踐行者-餘亮
【題記:沒有大數據專家,只有踐行者的艱辛!】
六月在北京,將會有一場人工智能領域科學家與藝術家的對話。主辦方希望我去邀請幾位科學家,包括人工智能、大數據、虛擬現實幾個方面。我隱約覺得,其中大數據科學家最難找。
做大數據的人很多,但誰是可以縱論數海的專家呢?做新聞數據產品的人算嗎?他們可以通過比如打車軟件的用户數據,描畫出一座城市的加班地圖甚至約炮地圖:

但他們好像不是科學家,而是有想象力的挖掘者。我也知道像“今日頭條”這類採集用户數據的新聞平台,會經常推出大數據新聞產品,比如全國動漫迷的特徵,各地人民對車的不同喜好……這些當然是從平時技術員通過mapreduce、hadoop、spark、Kafka來處理、吞吐的海量數據裏提取出來,但核心策劃也不是技術人員。要等運營團隊出了創意,技術員再把數據從庫裏拖出來給他們。
做安防監控的大公司,比如宇視科技的工程師,要訓練他們的識別系統處理百億級別的城市交通、安全數據。IBM的智能體watson能夠把醫療、健身、消費領域的無結構大數據加以結構化……在每一個產生數據的行業都有數據專家在挺進。就算我,處理所在公司規模不算巨大的網絡數據,和技術員配合出數據報告,也算是這個領域的小專家吧。
誰是大數據科學家呢?一些政府朋友也在問我這個問題。我覺得,未來人們無時無刻不在上傳、下載各種數據,或許你的每個細胞都在上傳數據。大數據網絡真正可能出現“無主體”現象——任何人都是主體,但也都不是絕對的核心。當然,涉及技術底層的數據工程師還是讓我仰慕,如果他們也能説會道就好了。
5月12日在上海亞洲消費電子展(CES)現場,我有機會聽到阿里大數據專家“行在”先生的演講,感觸頗深。他的一句話打動了我:“沒有大數據專家,只有滿身傷痕的踐行者。”(默唸這句話,有點不由自主唱出來的意思呢,聽過陳淑樺的《夢醒時分》吧,你説你愛了不該愛的人,你的心中滿是傷痕)。大數據專家都是在各個行業點從無到有生長出來的。聽下來,他的演講沒有什麼自誇,反而是分享了建設數據平台過程中遇到的困難和問題,對於有志於大數據者頗有幫助,這是我決定記錄下這場演講的原因。


他首先介紹了阿里大數據平台“阿里數加”的一些項目,比如幫助杭州市政府做的交通管理系統,稱為城市大腦。
ppt乍一看東西很多但是層次清楚。他們把交警系統的卡口攝像機數據和他們從互聯網上採集的交通數據(比如地圖數據)打通,綜合成一套信息系統,並且加入很多算法,可以預測一個小時後的擁堵狀況。再形成參考指令發到交警指揮平台,改變了以往完全依靠交警“人工”指揮的狀況。(照片不清楚,看個意思就好)

還有智能故障預測系統。

4月1日,阿里的人工智能小Ai預測《我是歌手》前三,雖然預測對了兩個,但是其宣傳震驚效果遠不如AlphaGo。也許是因為策劃過於娛樂化,想要親近大眾卻未得網絡大眾痴迷。比不了谷歌之類總是高屋建瓴,帶點神秘感。不過,聽完“行在”的演講,我對阿里的大數據和人工智能多了一層理解。
他説未來一切生意都是數據生意,數據成為生產資料。本文不打算多説這個。就像金融一樣,數據在未來肯定成為指揮生產過程、掌控生產關係的武器。
行在説大數據不等於數據統計,躺在硬盤上的數據根本沒用,必須在線才有價值。十多年前,阿里的數據也就躺在硬盤上,後來是怎麼活起來的?




話説十一年前——2004年5月,淘寶成了一週年了,當時馬雲對攻城獅説:“我需要一份經營報告,看過去一年哪類商品最熱銷,哪個省份開店的賣家最多。”工程師豐兄説:“好的,明天一早就發給你!”
這一夜可不容易,實現並未搭建方便查詢數據的架構。豐兄先寫了拖數據的腳本,再用幾十條SQL語句從oracle數據庫裏查詢,第二天早上終於把報表發給馬雲了。馬雲説小夥子乾的不錯,以後你就是技術總監了。(筆者對以上信息真實性不負責任)

然後馬雲又下達了一項任務命令:


然而實在是撐不下去了。到2008年,淘寶的業務量與數據量已達到2004年的數千倍,按照這樣的趨勢,底層技術架構亟需升級。oracle數據庫根本撐不住這樣龐大的數據量,存儲成本也會讓阿里入不敷出。存數據很燒錢啊!
這一年,阿里決定成立阿里雲,從底層重構雲計算及大數據技術。同時,為了實現自主可控,阿里金融成立。它意義在於整個管理層從中真正看到了未來數據公司的雛形。

2009年阿里開始描畫大數據平台願景。當時馬雲在王堅博士提醒下提出這個想法,大家還不太理解。


後來他們理解了,就做出了這張ppt:

建大數據平台有哪些困難?

沒有統一組織和架構,一個人晚上熬夜研究數據,早上回去了,接班的沒法看懂他的邏輯,要等他來了才能解釋清楚,人稱補數小王子。其他問題看上圖,大風哥難得拍了張能看清楚的圖……

上圖裏面的每一步都需要專業人員,比如“數據清洗”就需要專門研究這個的工程師。尤其要把不同格式的數據統一起來就廢老鼻子勁了。

做阿里金融才暴露出更深層次問題。比如歷史數據不足,這就相當於生產資料缺失。過去,淘寶存儲數據有限,比如系統對買家交易狀態只記錄最新的,沒人意識到那些丟失數據的珍貴。後來他們就記錄全部了。
2012年成立數據平台部,開始實施“登月計劃”,聽這名字好大雄心!
登月計劃面臨的問題是:數據重複存儲(70個淘寶類目表),煙囱林立(大風哥注:比喻小工廠各自為政,體系獨立);使用成本高:小集羣眾多(大風哥比喻:藩鎮割據);標準不一:有6個淘寶成交額;獲取數據時間長:要一個數據需要等半年(原來這麼久!);找數據難:meta標籤不集中,300多萬張數據表單(我勒個去,我家網媒只有百張表單);數據應用研發成本高。
解決辦法是:成立數據平台部(打破藩鎮割據狀態);管理和運營數據,解決數據“存通用”的問題。
存:數據集中存入Maxcompute(原ODPS);通:統一規範和ID,打通各業務單位;用:推動各業務單位共享,促發展,養生態。
登月計劃是要把幾十個小集羣統一成maxcomputer大集羣。
大風哥不由覺得:治大國如烹小鮮,但治數據如建大國。集中、統一、發展,多麼像大國治理啊。


2012年到2013年期間,將原本的數據倉庫改名為大數據計算服務(ODPS),並將所有金融業務所需要的數據放在雲端,集中到ODPS上。

登月計劃已經成功。但做產品開發就是要不斷面對新問題:

其中一條叫做“缺乏行業知識:你和客户談平台,客户和你談行業應用。”哈,做技術產品開發的,要讓自己變成各行業專家才行。那麼有沒有期望和繪畫、模型藝術家對談的大數據專家呢?如果有,歡迎聯繫大風哥(郵箱:[email protected])

另外看下圖,阿里提到機器學習和智能交互,顯然也在基於大數據開發人工智能。


演講結束後,大風哥和行在哥簡短聊了幾句。行在果然是七零後呢,具有典型的阿里風格,從基層紮紮實實幹上來的,不善作秀而很實在。阿里系統當然也有王堅這樣的海歸博士,但是有更多像馬雲一樣非名校畢業,但是勤於學習鑽研、瞭解大眾需求的苦幹者成為這個體系的堅實支撐。倒是有點像當年土鱉兔子的創業模式呢,話説華為也是這樣的企業吧。

聽下來對自己也更有信心啦。貼一張大風哥年會時候做的數據圖吧,展示的是觀察者網一年當中全球各地新聞點擊熱度的統計:

從這圖中就能感受到,世界的熱點真的就在“一帶一路”呢。
順便推介一下大風哥所在團隊艱苦研發的一帶一路大數據圖冊,十張大數據圖涵蓋一帶一路眼線國家政治、經濟、金融、交通、能源等概況,是您居家旅行投資殺人必備之良藥。

需要者聯繫郵箱([email protected]),對了,這圖冊耗資巨大,是收費的~
(餘亮上海報道)

觸摸水滴,進入智能國