什麼才是頂級數據團隊?我們採訪了領英、滴滴等6位數據團隊負責人找答案_風聞
大数据文摘-大数据文摘官方账号-2020-07-31 13:52
大數據文摘出品
隨着大數據的範疇被逐漸拓寬,也有越來越多的從業者加入了數據團隊,其建設對於企業來説也更具挑戰。
為了解答這些疑惑,清華大學大數據研究中心聯合大數據文摘,發起了一次深度調研,我們在過去的兩個多月裏,走訪了來自全球不同行業的6家頂級數據團隊,並且跟他們的負責人深入聊了聊“數據團隊”這個話題。
6位頂級數據團隊負責人分別是(按照走訪順序):
本次訪談涵蓋了國內外不同行業及發展階段的公司或組織,力求從儘量多的角度還原現階段數據團隊的建設全景。
研究內容目前已經彙總入了一份《頂級數據團隊建設全景報告》,如果你還沒來得及看,那麼今天,文摘菌就用這篇文章帶大家回顧一下,他們是如何定義和建設自己的數據團隊的。
以下為報告中對6位數據團隊負責人深度訪談的精華內容。
滴滴:數據體系團隊四大模塊,助力業務可持續發展
據滴滴技術副總裁、數據科學與智能部負責人賴春波介紹道,滴滴的數據體系分為四大模塊,大數據架構、數據平台、數據治理、數據科學。在職位劃分中,下面三大模塊多為工程師、產品經理、數據開發工程師,數據科學分為數據分析師和數據科學家,他們數量最多,以“嵌入式”的方式,分佈在不同的業務部門中。其中,數據科學團隊,需要在業務形態中實現廣泛的運營智能、產品智能和決策智能,助力業務可持續發展。
賴春波介紹,由於滴滴有網約車、車主服務、兩輪車、代駕、出租車等多個業務羣,滴滴的數據科學家也就很自然地分散在不同的業務部門裏。為了能更全面準確賦能業務,滴滴組建了數據科學委員會,增強跨業務數據科學家間的交流和協作,同時對複雜問題進行決策,迭代數據體系建設。
滴滴的數據科學委員會成員佔比最多的是數據分析師,他們每季度開會一次,主要針對公司的規劃服務和長期定位等進行商討。
而這些例行會議並不只是技術交流。畢竟除了技術能力和批判性思考的能力外,一個好的數據分析師還需要足夠的商業能力、戰略視野、影響力、領導力和同理心等素養,每次會議也不可避免地涉及到相關領域的討論。
“分析師需要把自己腦袋的東西放到別人腦袋,是靠嘴吃飯的。”賴春波笑稱。
不過要想真正提升產品、運營和決策的智能化,只靠一張嘴是遠遠不夠的。賴春波介紹,**數據科學團隊每週會產出四五十份的專題分析研究和每週幾千次的實驗和評估,**這些都隨時可能影響到公司決策。前者會呈金字塔式排列,最頂端的體系化和方向性研究是真正實現輔助戰略的決策智能,投入的精力也更多;後者主要針對業務或產品的方案進行評估,相對更加自動化和流程化。
領英:三大KPI指標,量化數據團隊工作
領英全球數據科學團隊負責人許亞表示,兩年前她接手領英數據團隊後做的第一件事就是擬定了團隊成功的三要素。雖然數據團隊的價值有時候很難量化,但是有三個指標可以作為探討的基礎。在數據團隊內部不同組可能會有不同的側重,但對大部分組來説這三個因素都很重要。
數據易得性和工作效率
數據易得性,指的是當外界需要數據的時候,獲得這些數據的難易程度;工作效率,指的是一個人的工作是否可以提升整個團隊的工作效率。
許亞表示,數據科學家之前被人詬病過於追求新鮮感,喜歡挑戰高難度問題,但做完MVP (Minimum Viable Product) 後沒有維護迭代的習慣,永遠都在追逐下一個新難題。數據團隊擁有許多數據資源,比如原始數據,指標數據,數據模型,數據可視化。
當外界對這些資源有需要的時候,如何能夠保證這些需求能夠隨時被滿足?軟件開發有一系列衡量數據獲取難易程度的指標,比如SLA(Service-Level Agreement)的達標率就是一個很好的量化指標。
有些數據科學家做了一個很不錯的分析,但是不太關心怎麼把這個分析過程自動化,所以每次有人提需求的時候就需要有人再手動跑一次模型,其實都是重複勞動,不同的人在做相同的重複勞動。如果這個分析實現了自動化,大家都可以享用,其他人就不需要花太多時間精力在這個模型上,整個數據科學團隊的集體工作效率都提高了。
以前許亞的團隊也缺少這種分析自動化產品化的意識,所以她把這個設置為成功三要素之一,強調這種意識的重要性。
戰略化思維
戰略化思維,指的是數據分析結果對公司重要戰略性決策是否有指導作用。
**許亞的數據團隊和公司很多高層會打交道,因為他們團隊有一個很重要的職責就是通過數據來確保公司重要決策的大方向是準確的。**比如他們需要了解用户在疫情期間是如何使用領英服務,如何通過領英的產品獲取價值的。
許亞認為在疫情後,用户的行為多少會發生一些不可逆轉的改變,數據可以幫助團隊更好地去學習用户行為變化,從而在戰略上指引公司對哪些領域進行重點投資。不管是產品開發還是市場戰略的決定,都需要依靠數據。
直接商業影響力
直接商業影響力 (Direct Business Impact),指的是工作成果對公司商業目標的直接影響力。
**每個部門的工作開展是和公司要實現的大目標息息相關的,**領英有公司層面的四個核心指標,數據部門在計劃工作的時候,需要考慮如何對公司的商業目標產生積極影響。
騰訊安全:“要做好內部建設,也要走出去”,安全團隊建設的三個階段
騰訊安全副總裁黎巍表示,騰訊自身的安全建設,在二十年的歷程中,經歷了三個階段。
第一個階段是****啓蒙階段,成立初期的騰訊和其他公司一樣,安全建設以防禦和對抗黑客入侵為主。
當然,要建立自己的安全團隊不是那麼簡單的事,制定安全規範、構建安全體系,這些都是必要的。隨着後期騰訊業務不斷擴展,團隊發現很多安全問題具有共性,如果只是一味被動應對,不僅會陷入“持久戰”,團隊也很容易進入疲態。
所以10年前,騰訊安全開始主動做一些安全的運營和建設,也正是這個時期安全團隊的建設進入了**第二個階段,即把安全體系化和產品化,**進行主動地運營。這個階段,安全團隊就總體目標達成一致——保證核心資產數據不會被竊取和丟失。這也是二十多年的發展中騰訊安全一直在踐行的理念。
到第三個階段,騰訊自身的安全生態已經做得比較系統了,但是放眼國內,還有不少企業在安全方面處於非常原始的階段,這就觸發了騰訊安全想要走出去,把20多年的安全經驗和能力資源輸出到整個產業中,幫助產業數字化轉型。
黎巍坦言道,騰訊安全希望未來不只是為企業提供產品或解決方案,還能夠為企業轉型打造合適的安全戰略觀,更多維度的能幫助企業解決安全問題。
聯想:內外部數據治理結合,優化數據平台結構
和很多業務部門較多的集團型企業一樣,業務規模龐大的聯想也面臨着數據分散在不同的業務系統中,難以整合的痛點。數據團隊建設在初具規模之後的最重要任務,就是建立起一個更完善的企業級數據分析平台,把這些內部分散的數據以集中的方式進行整合管理併科學地利用起來。
聯想注重業務與數據團隊的緊密結合,內部的數據團隊與不同業務部門分工合作。因此從2016年開始,聯想就開始把聯想幾十年信息化中的大小數據系統整合起來,形成企業整體數據湖,並構建統一的數據模型。
聯想數據智能業務集團產品及生態總經理田日輝給我們舉了個銷量預測的例子,説明聯想數據智能團隊內部是如何使用內部流程化工具為業務部門提供輔助的。
**聯想生產銷售各種複雜的設備,因此銷量預測是多層次的,總銷量預測會分不同地區和不同產品線。**在不斷發展中,數據團隊把預測模型放到平台上,通過幾輪配型後,進行模型積累。平台本身提供很多分析和算法工具,使業務人員運用不同的數據級,使用自動化機器學習工具測試不同的算法,並給出最優結果,同時根據業務實踐來判斷哪個參數和配置最符合要求。
由於相關數據表極其龐大,可能會存在一些數據衝突,因此公司級大平台可以進行統一數據治理,讓所有人的分析工作達到比較好的效果。
對於外部行業客户,聯想內部的數據科學家在專業知識理解方面相對薄弱。在進入行業初期,團隊與客户的行業專家一起做項目,客户對企業的數據積累情況與行業的機理模型更清楚,而團隊對數據與算法比較清楚。漸漸,客户本身會具備數據使用能力,團隊也會積累一些所謂的行業專家,進而把應用模型帶給其他客户。由於很多案例和應用框架可以複用,團隊也一直在嘗試加強對行業的理解,建立一些行業專家人才隊伍。
因此,田日輝對於意向進入數據科學領域的高校學生,也提出了一些行業知識的期待。
“掌握新技術有較好的基礎,且自學能力與使用能力強。但是應該更多理解企業的運營模式,業務需求和機理模型,多參加一些真正與實戰相結合的活動,或到企業裏面參與一些實際的工作與項目。”
中國移動:20年建設經驗,數據團隊建設“劃重點”
中國移動的經營分析系統建設從2002年開始,技術上採用數據倉庫。當時大數據這個概念還沒有出現,考慮到初期投資成本較大,國內數據倉庫系統的建設主要是電信運營商、銀行、保險公司這些百強企業。2007年中國移動研究院首先開始跟進Hadoop的研究,2009年,中國移動開始在省級系統上熱火朝天的開始新興MPP技術、Hadoop技術的試點和大數據平台建設。
中國移動在2015年明確了大數據建設的組織機構,大規模推進集中化大數據平台的建設,並推進自研BC-Hadoop在現網的落地應用。2017年開始,集中化大數據平台開始小規模的推廣大數據PaaS開放模式。這個開放平台被命名為**“梧桐”平台**,意在**“梧桐花開,鳳凰自來”**,提供儲算資源、大數據處理工具、全網匯聚數據和安全管理能力,向內部各單位開放賦能。
平台搭建好之後,數據團隊需要進一步考慮的就是如何衡量大數據的價值。中國移動信息技術中心大數據平台部副總經理尚晶表示,這個問題是從經分時期就一直在被問的問題,但或許到現在也仍沒有一個完美的答案,目前主要有以下幾個考量角度:
**1. 滲透行業領域的廣度考核,**比如金融行業、零售行業、交通行業、旅遊行業、公共安全行業等行業,形成了哪些賦能應用。
**2. 帶來的經濟價值或者間接經濟價值,**例如由於採用大數據,同等營銷資源投入下,營銷成功率的提升,大數據分析發現的收入漏損,大數據直接產生的政企行業合作收入。較難計算的是間接經濟價值和拓展行業的機會成本,例如企業專線銷售與打包的大數據服務,收入佔比較難衡量。又如基於大數據分析,面向市場設計的產品,多少價值應該計入大數據帶來。
尚晶也給我們舉了個例子。普通的營銷方案成功率可能就在1%,在流量市場這個比例甚至更低,但無論營銷成功與否,營銷成本還是需要花費的,比如外呼人員成本、短信端口信息成本、優惠券成本,這些都是成本消耗。如果採用大數據分析,可以得到一些更精準的目標羣體,根據這些有針對性的有效目標羣體做營銷,成功率就會從1%上升到5%,提升了5倍,同等成本獲取了更多的營收。公司給的營銷費用要和成本費用一樣,需要和收入一起納入考核。
美團:四大發展階段,數據團隊承擔着不同的角色
作為一家非常重業務的公司,美團業務經營核心訴求包括戰略決策、經營策略、運營策略(從人工運營到機器運營),而這些都離不開數據的支撐。
但是,隨着信息技術的發展和普及,產生數據的信息源越來越多,獲得洞察所需要的信息也越加豐富,但是這些錯綜複雜甚至是無序不規範設計的信息系統的數據是不一致的、分散的,所以就需要有一個非常重要角色把這些數據進行重新的清洗、整合,形成統一商業視角下的數據“模型”。
訪談過程中,美團數據平台負責人李聞也從“互聯網業務”整個生命週期的視角解讀了數據和的價值和數據團隊在這一週期過程中的發展階段:
**1.初創期:**這是業務從無到有的階段。此時企業經營的重點是找到讓人信服的商業模式。對研發的訴求主要是後台和前端,讓面向用户的產品能夠運轉起來。此時公司對數據的訴求主要是一些基礎指標的表現,用以判斷商業模式的合理性,往往讓瞭解數據產生機制的後台和前端同學承擔數據統計工作就可以了。當然,在基礎比較好的團隊裏,可以通過敏捷的統計工具直接連接數據源,寫SQL統計數據並做基本的數據展現。基礎類的數據指標工具比如美團的“魔數”在此時發揮的作用最大,屬於一個基礎設施。
**2.成長期:**在這個階段,商業模式已經被證明是可行的,進入擴張規模搶佔市場階段。業務規模快速膨脹,此時的數據量也隨之大量增加,需求也在不斷迭代。既要保障現有任務的穩定性,還要快速支持蜂擁而至的需求,需要打好數據基礎,做好需求管理。該階段是對數據技術壓力最大的階段,更多是如何高效應對需求且保障現有任務的穩定性和數據的準確性。
**3.成熟期:**在保障規模下追求“毛利”為正。此時,企業經營的基本思路已經成型,需要系統建設指標體系,利用數據科學嚴謹的指導經營,並利用用户畫像等技術更精細地理解用户從而精準營銷,提高運營ROI。此時需要做好數據的治理以及內容的體系化管理。比如美團數據中台就是在這個階段演化出來的。
**4.持續發展期:**這屬於通過數據來擴大利潤的階段,企業需要結合對業務的深刻理解和行業的發展趨勢,採集和整合更多元的數據內容,結合本業務特點,發現高價值用户、挖掘更多商業機會、輸出更多增值服務,豐富業務的利潤結構。此時,還需要更深刻的理解用户,理解數據,通過數據產生更多洞察,提高經營效率。數據開發領域的終極發展目標,應該是懂數據開發(集成)技術,懂產品的業務邏輯,懂商業,懂分析,懂經營策略,懂運營策略,同時還能推動各相關角色配合行動的綜合性人才。數據源越複雜,為保障交付數據的準確性,挑戰就越大,數據開發的核心價值就越大。
沒看夠?點擊閲讀原文/掃描下方二維碼可下載報告獲取更多數據團隊洞察。
最後,為了答謝每一位填寫問卷的朋友,報告**“完整高清版”將於2020年8月4日24:00前**,通過問卷中填寫的郵件免費發給所有問卷參與者。