2017百度世界：開放BROAD數據集促進AI創新

2017-11-23

優質的機器學習質量離不開其背後的數據集，而一個優質數據集的開放，將為更多技術提供學習養分。11月16日，在2017百度世界大會AI技術與平台論壇上，百度3D視覺首席科學家楊睿剛宣佈，推出百度AI公開數據集計劃——BROAD Baidu Research Open-Access Dataset，並宣佈首批室外場景理解、視頻精彩片段、閲讀理解3個數據集即日起對公眾開放。

“BROAD”百度AI公開數據集計劃（http://ai.baidu.com/broad）率先開放的三大數據集各有所長。室外場景理解數據集來源於百度自動駕駛事業部。該數據集試圖將感知能力從物體級感知升級到像素級感知，進而瞭解圖片中所有像素的屬性和來源，實現更精準、安全的自動駕駛。它是世界第一個帶像素級語義標籤的室外3D視頻。

視頻精彩片段數據集主要來源於愛奇藝精彩視頻片段。視頻精彩片段數據集的視頻類型為綜藝節目，目前囊括1500個長視頻，視頻總時長約1200小時，還從中手動收取出18000個精彩小視頻，同時能夠提供視頻幀的圖片特徵序列，是全球首創的開放精彩片段標註數據集。

首次亮相的百度閲讀理解數據集DuReader，是迄今為止規模最大的中文開放領域閲讀理解數據集。數據集基於真實應用需求，所有問題來源於百度搜索用户的真實問題，文檔來自全網真實採樣的網頁文檔和知道UGC文檔，答案是基於問題與文檔人工撰寫生成的。數據集標註了問題類型、實體和觀點等豐富信息，彌補了現有主流數據集對於觀點類問題覆蓋不足的問題。首批發布的閲讀理解數據集包含20萬問題，100萬文檔及42萬人工撰寫的優質答案，並提供開源基線系統。DuReader將為閲讀理解技術研究提供有力支撐，加速相關技術和應用的發展。

真實、海量無疑是“BROAD”百度AI公開數據集計劃最好的形容詞。作為全球最大的中文搜索引擎，百度積累了規模龐大、種類豐富的真實數據。百度日趨成熟的AI生態體系，也為系統開發圖像、文字等AI領域數據，提供了有力的生態支持。開源數據集的目標，就是希望可以將百度多年積累的優質、龐大數據開放出來，為認知層、感知層的AI技術提供學習驅動。

楊睿剛表示，這些數據是百度AI生態的真實數據，有些是首次發佈，有些是目前國際同類型公開數據集中最大的。百度還計劃在2018年推出供在校師生免費使用的BROAD雲計算平台，共同推進AI技術的發展和落地。“採集數據是一個長久的過程，而數據開源也是百度長久的打算，更多精彩的內容將會逐步為大家呈現。”楊睿剛説，百度願意和公眾一起，持續開放真實、大規模的數據集，為推動AI發展和落地努力。