精英雲集,看國內外12家頂級公司大數據實踐
2016年12月8日-10日,BDTC 2016 中國大數據技術大會將在北京新雲南皇冠假日酒店隆重舉辦。本屆BDTC 2016為期三天,聚焦行業最佳實踐,數據與應用的深度融合,關注熱門技術在行業中的實踐和應用,除Keynote外,主辦方精心策劃了16場專題技術和行業論壇,涵蓋了大數據分析與生態系統、大數據雲服務、HPC大數據、推薦系統、數據安全與隱私保護、人工智能、網絡與通訊、政策法規與標準化、工業與製造業、數據庫、金融、精準醫療和生物醫藥大數據、數據開放與政府治理高層沙龍、交通旅遊與出行等主題。
目前,大會的全部議程已經出爐,超過130位技術專家將為現場千名以上的大數據行業精英、技術專家及意見領袖帶來100多場技術演講,分享最新技術與實踐的洞察與經驗,共商大數據時代發展之計。
在備受關注的“大數據分析與生態系統論壇”,無論是講師陣容還是議題質量都堪稱頂級,其學術價值極高,對於從事大數據領域的研究者來説具有極高的學習價值和參考價值。具體議題和介紹如下:
*講師簡介:*2004年加入華為,長期從事電信協議、管道智能化、數據可視化、用户行為分析等系統研究和開發工作。近年致力於數據管理和處理技術研究,參與Hadoop,Spark,Alluxio等開源社區,2016年作為CarbonData PMC成員參與Apache CarbonData項目孵化,尋求大數據與一站式分析平台的創新機會點。
議題名稱:CarbonData:Hadoop生態面向交互式分析的索引文件格式
*議題介紹:*Apache CarbonData是一種新的高性能數據存儲格式,針對當前大數據領域分析場景需求各異而導致的存儲冗餘問題,CarbonData提供了一種新的融合數據存儲方案,以一份數據同時支持“任意維度組合的過濾查詢、快速掃描、詳單查詢等”多種應用場景,並通過多級索引、字典編碼、列存等特性提升了IO掃描和計算性能,實現百億數據級秒級響應。
李揚:Apache Kylin project CTO
*講師簡介:*李揚 Kyligence聯合創始人兼CTO,Apache Kylin 聯合創建者及項目管理委員會成員(PMC), 主創團隊架構師和技術負責人,專注於大數據分析,並行計算,數據索引,關係數學,近似算法,壓縮算法等前沿技術。曾任eBay全球分析基礎架構部大數據資深架構師、IBM InfoSphere BigInsights的技術負責人,負責Hadoop開源產品架構,“傑出技術貢獻獎”的獲獎者、摩根士丹利副總裁,負責全球監管報表基礎架構。
議題名稱:Apache Kylin的新Streaming OLAP實現?
*議題介紹:*回顧Apache Kylin架構,介紹麒麟在Streaming OLAP領域的歷史。講解Apache Kylin v1.5對流式處理嘗試,總結設計的成功和失敗。講解Apache Kylin v1.6最新的Streaming OLAP實現,如何橫向擴展實現大數據的流式Cube構建,如何在無序的流數據上分割Cube Segment,確保沒有記錄丟失。最後展望Apache Kylin的後續工作。
熊永平 北京郵電大學副教授
*講師簡介:*北京郵電大學網絡技術國家重點實驗室副教授,分別從哈爾濱工業大學和中科院計算所獲得碩士和博士學位,先後在諾基亞研究中心、中國電子信息產業研究院、無錫物聯網產業研究院等單位,從事網絡安全、移動物聯網、數據科學和數據挖掘等領域的研究開發工作,主持和參與了國家自然科學基金、科技部重大專項、973等多項國家科研項目。在IEEE Transactions on Mobile Computing、ACM MobiCom等國內外著名期刊會議上發表論文30多篇,單篇論文他引次數超過210次。其研究成果先後轉化到信息安全公司和物聯網科技公司,近年來在流式數據處理、大規模複雜網絡分析、可視化機器學習與數據建模領域進行了深入研發,其研究成果在保險領域的理賠反欺詐和營銷分析、全科醫生診療模型、源代碼安全檢測、電力運監大數據等領域進行多個不同行業的企業級應用,取得了良好的效果。
議題名稱:基於Spark的交互式數據探索與建模系統
*議題介紹:*隨着內存計算時代的到來,分佈式內存計算框架SPARK正在快速的普及開來,Scala強大的表達和抽象能力,使之成為高效的數據處理語言。然而,由於缺乏統一的手段,機器學習建模經歷的抽取、清洗、轉換、特徵篩選、建模到開發分佈式算法落地實施等多個環節,通常需要來回利用各種工具和程序的組合來完成,寫腳本程序清洗轉換數據,利用R或SAS等工具進行小數據集建模,最後開發成spark程序進行分佈式處理。本團隊針對SPARK框架進行了深入研究,提出了一套將SPARK計算服務化的方法,設計了一個統一的可視化交互式數據探索處理與機器學習系統,支持機器學習建模全流程的可視化處理,並支持數據處理算子可插拔的可擴展能力,便於不同數據分析人員共享數據分析能力和經驗。
艾毅:滴滴出行/技術專家
*講師簡介:*艾毅,滴滴出行大數據部BI系統組負責人。負責滴滴大數據即時計算系統的架構設計及研發。
議題名稱:滴滴即時業務監控系統架構及實踐
議題介紹:
即時計算的挑戰及解決方案:(1)可擴展性(2)有狀態的即時計算(3)數據被重複處理(4)高可用(5)即時數據流與外部系統或服務關聯計算;
OLAP系統架構選型:KV store與column store 哪種存儲更適合OLAP應用?
簡要介紹Kafka的特性,闡述為何Kafka是即時計算系統中理想的數據存儲方案;
詳細介紹Druid的架構設計及原理,闡述Druid作為OLAP解決方案的優點;
詳細介紹Samza的架構設計及原理,闡述如何通過Samza解決即時計算中的各種挑戰;
介紹Lambda architecture,闡述如何將離線計算和即時計算統一起來,通過離線計算來修正即時計算。
張彭善:PayPal數據科學家
*講師簡介:*2008年碩士畢業於上海交通大學,2012年初加入PayPal Risk Data Science團隊。2013年開始研發基於Hadoop/YARN的分佈式端到端的機器學習框架,以滿足PayPal日益增長的風控大數據的需要。在PayPal的主要成績包括實現、優化和實施基於Hadoop/YARN的分佈式的神經網絡、邏輯迴歸以及梯度提升樹等算法,以及基於PayPal風控建模的需求構建端到端的機器學習管道。目前在PayPal Risk負責整個分佈式機器學習的框架的研發優化以及端到端的機器學習工程化的系統平台建設。
議題名稱:分佈式機器學習算法在PayPal風險控制部門的實踐
*議題介紹:*PayPal風險控制部門一直致力於利用基於大數據的機器學習模型檢測欺詐交易以及欺詐用户,並且取得了顯著的效果。本次演講將主要分享PayPal風險控制部門內部利用機器學習算法的最佳實踐,包括:
如何利用Hadoop/YARN實現和優化分佈式的邏輯迴歸、神經網絡以及梯度提升樹等機器學習算法;
如何針對海量的數據做特徵工程,構建端到端的大數據機器學習管道;
應用各種機器學習算法到具體產品環境的最佳實踐;
如何將算法組合起來提升模型的性能和穩定性。
金昀:Facebook工程經理
*講師簡介:*金昀目前在美國Facebook基礎架構核心系統部門擔任工程經理。負責Facebook 跨數據中心大型分佈式系統的開發。在此之前,金昀在中國PPTV公司和阿里雲擔任研發副總裁和研發總監,負責PP視頻雲平台和阿里雲“飛天”分佈式系統的開發。歸國前,他在美國微軟公司擔任資深開發主管,負責多項核心服務器系統的開發。
議題名稱:Facebook計算和存儲分離的分佈式計算平台
*議題介紹:*大數據方向的演講題目,我可以講一下Facebook裏計算和存儲分離的MapReduce框架。MapReduce的一個核心思想是計算必須靠近存儲,這樣做的原因是在分佈式Map Reduce提出的時代網絡是整個系統的瓶頸。但是計算和存儲的耦合也造成了系統靈活性的下降,在Facebook海量數據應用場景不斷變化的情況下這種耦合造成了整個數據倉庫可擴展性的下降。在本次演講中,來自Facebook基礎架構部門的金昀將分享Facebook 在Map Redouce框架中分離計算和存儲的實踐。
黃鑫:百度基礎架構部分佈式計算架構師
*講師簡介:*黃鑫,百度基礎架構部,從事分佈式計算平台研發工作,負責百度下一代計算系統,將MR演變為為dag引擎、負責DCE(Distributed Computing Engine)項目,並推動內部多個sql平台升級使用DAG。現在,黃鑫參與分佈式計算統一API - bigflow項目,統一多個流式和批處理計算平台API,並和多個項目組合作,推動業務作業升級。
議題名稱:百度大數據離線計算平台發展歷程
*議題介紹:*DCE是百度新一代離線批處理計算引擎,是在百度多年大數據發展積累的實際需求和規模影響下逐漸演變而成,有遠超業界同行的集羣規模、作業量、以及CPU利用率。DCE有獨創的Shuffle模式和Native c++數據執行層實現,並且為滿足業務實際多樣需求,優化完善DAG引擎,降低計算平台框架資源消耗,提升框架計算有效性,進一步強化平台計算能力。並且,在眾多流式和批處理引擎湧現的現在,百度內部已使用統一分佈式計算API - Bigflow,來讓業務用户可以一套代碼高效的運行到任意多種計算引擎上,每天已有近百產品線、數百用户使用。
鄭龍:中興飛流信息科技有限公司CTO
*講師簡介:*鄭龍,中興飛流信息科技公司CTO。畢業於日本會津大學,取得博士學位,在日本期間作為日本學術振興會特別研究員(JSPS Research Fellow)開展多核—眾核並行與分佈式異構計算研究;博士後師從數據流技術權威高光榮教授,在美國特拉華大學進行數據流大數據技術研究,曾任美國ET International(ETI)公司產品架構師,後任教於上海交通大學計算機系。
議題名稱:Yita:基於數據流的大數據計算引擎
*議題介紹:*數據流起源於上世紀七十年代,由IEEE馮諾依曼獎章獲得者、美國科學院院士、MIT教授Jack Dennis提出,並由以ACM、IEEE Fellow高光榮教授為代表的眾多學者推進發展至今,是對馮諾依曼模型的一個突破,並在大規模並行領域有着獨特優勢的技術理論。隨着大數據對並行計算效率要求的提升,數據流成為當前並行與分佈式計算領域的重要熱點,特別是在Google表明其深度學習框架TensorFlow基於數據流理論,學術界及工業界更是掀起了研究數據流的高潮。Yita是基於高光榮教授三十餘年的理論工作,面向大數據場景開發的一套支持海量即時智能計算的大數據引擎。受益於數據流的細粒度—異步並行執行模型,Yita一方面大幅提高計算資源的利用效率,另一方面提供更為靈活的算法實現支持,在實現相同的計算場景上,相比當前的Spark與Storm,Yita提供高達十餘倍的性能加速,且無需系統參數靜態調優。中興飛流現正聯合多家高校,建立技術生態圈,並計劃開源,努力推動Yita成為繼Hadoop MR、Spark之後,中國自主研發的新一代開源大數據引擎。本演講將對Yita進行深度探討。
華思遠:Apache Apex PMC
*講師簡介:*我叫華思遠,江蘇省無錫人。2006年從西安交通大學軟件工程本科畢業,2009年赴美國南加州大學攻讀軟件工程和計算生物。2011年從南加州大學碩士畢業,之後加入總部位於舊金山的Saleforce.com公司,作為軟件工程師負責Saleforce.com核心數據平台的開發和維護。2013年我加入硅谷大數據初創公司DataTorrent。DataTorrent的核心成員來自於雅虎原Hadoop工程總監和開發團隊。我在DataTorrent主要負責Apache Apex項目,是Apex項目的PMC成員之一。Apex項目是新一代的即時大數據處理平台,已經為數家500強企業同時提供即時處理和批處理服務。
議題名稱:下一代即時數據處理引擎——Apache Apex項目簡介及應用
**議題介紹:**Apache Apex 是一個用Java開發的開源流數據處理平台。Apex 已經被部署在很多大公司的關鍵數據處理應用上。Apex 從一開始就關注海量處理能力,高吞吐,低延時,高可用性。Apex 的設計和架構也使 Apex 可以同時適用於即時數據處理和批處理。本次演講會探討Apex的一些關鍵功能以及其與其他類似系統的不同點,正是這些關鍵功能保證了Apex應用程序可以進行快速的數據處理,做出即時響應,達到低延時的商業要求並同時具有高吞吐能力(比如其可在較優的資源消耗下每秒處理百萬數據的能力)。還會涉及到如何用Apex的一些高級的Partition特性來實現高擴展性,如何按需分配資源,如何實現容錯,如何保證數據只處理一次,Apex的計算和任務調度模型,運行時狀態管理,改變運行時程序的能力以及通過一些連接庫和其他數據源的整合的能力。與會者也可以瞭解到這些關鍵特性對於降低開發成本和開發時間的意義。最後本次演講還會展示Apex在具體生產環境中的一些應用,Apex現在正在開發的特性以及將來的路線圖。
鄒永強:雲賬户聯合創始人兼CTO
*講師簡介:*鄒永強,雲賬户聯合創始人兼CTO。生於1981年,2010年於中科院計算所獲分佈式系統方向博士學位。曾負責騰訊深度學習平台Mariana設計、開發與應用,成功支持微信語音識別,圖像識別,並在廣點通圖文廣告點擊率預估的創新工作中獲得效果提升。有豐富的騰訊自研分佈式文件系統開發和數千台服務器運營經驗,具備領導設計和開發大數據並行處理解決方案經驗。擁有25項專利,涉及基於深度學習的廣告點擊率預估算法、並行深度學習平台、分佈式文件系統和分佈式數據庫。曾獲PDCAT2008最佳論文獎和NPC2010最佳論文獎提名,並有研究工作發表於國際頂級學術會議VLDB2014。
議題名稱:金融SaaS實戰:雲賬户錢包SDK的技術挑戰與解決方案
*議題介紹:*金融科技Fintech的強勢崛起與此前互聯網金融的火熱,標誌着金融行業的持續創新,催生更多非金融行業玩家的金融探索。雲賬户推出錢包SDK,包括紅包和結算,提供羣紅包、專屬紅包、廣告紅包等提升用户活躍度,解決即時、高頻的用户資金結算問題以提升用户體驗和減輕財務負擔,幫助開發者快速實踐金融業務。錢包SDK面臨多項技術挑戰,包括:金融業務的數據可靠性與一致性挑戰;互聯網產品的併發性能挑戰;安全與風控挑戰;數據處理與運營挑戰;SDK獨特的集成、升級、機型兼容性挑戰。本演講將圍繞這些技術挑戰展開,並給出針對性的解決方案,包括雲賬户通過狀態定義和事務機制解決紅包與結算業務的數據可靠性與一致性,提升基礎服務質量;通過請求分區、輕重分離、削峯填谷的架構設計,以及Golang實現解決併發性能問題;提供網絡安全、金融安全、業務安全,並形成紅包和結算等業務的獨特風控機制;藉助日誌收集系統,完成離線統計和對賬,通過日誌搜索定位線上問題;針對SDK的特殊性,解決名字空間潛在衝突,並集成至各IM SDK簡化集成過程。目前雲賬户錢包SDK已集成至五大IM SDK,並集成至上千個客户的產品中。
常雷:Apache HAWQ創始人,樂我科技CEO
*講師簡介:*常雷,博士,Apache HAWQ創始人,樂我科技CEO。曾任EMC/Pivotal研發部總監,Pivotal HAWQ團隊負責人。並曾任EMC高級研究員,專注於大數據與雲計算領域。於2008年獲得北京大學計算機系博士學位。在國內外頂級數據管理期刊和會議(比如SIGMOD等)發表數篇論文,並擁有多項美國專利。
議題名稱:雲中Apache HAWQ服務:輕鬆取代傳統數據倉庫
*議題介紹:*Apache HAWQ是一個原生的SQL-on-Hadoop引擎,它的新穎設計有效得結合了MPP數據庫的性能以及Hadoop的可擴展性優勢。它給用户提供了SQL標準兼容的接口,可以輕鬆管理PB級數據,從而可以輕鬆取代傳統數據倉庫。本演講將介紹雲中Apache HAWQ服務的挑戰和體系架構,並介紹幾個關鍵部件的設計,包括雲服務基礎架構、基於代價的優化器,高可擴展UDP互聯協議,彈性執行引擎運行時以及高級資源管理。同時還將介紹Apache HAWQ正在開發的新功能,以及未來的發展方向,包括針對點查詢的高效索引,基於只讀文件系統的更新,快照以及跨地域複製等。
更多講師信息,更新中……
最後感謝本場論壇主席,來自中國科學院計算技術研究所副研究員查禮的組織和策劃,為大家獻上大數據分析與生態系統的盛宴。
更多大會詳情,請登錄2016中國大數據技術大會官網,目前票務銷售火爆,折扣優惠時間即將結束,預購從速。