2017百度世界:開放BROAD數據集 促進AI創新
優質的機器學習質量離不開其背後的數據集,而一個優質數據集的開放,將為更多技術提供學習養分。11月16日,在2017百度世界大會AI技術與平台論壇上,百度3D視覺首席科學家楊睿剛宣佈,推出百度AI公開數據集計劃——BROAD Baidu Research Open-Access Dataset,並宣佈首批室外場景理解、視頻精彩片段、閲讀理解3個數據集即日起對公眾開放。

“BROAD”百度AI公開數據集計劃(http://ai.baidu.com/broad)率先開放的三大數據集各有所長。室外場景理解數據集來源於百度自動駕駛事業部。該數據集試圖將感知能力從物體級感知升級到像素級感知,進而瞭解圖片中所有像素的屬性和來源,實現更精準、安全的自動駕駛。它是世界第一個帶像素級語義標籤的室外3D視頻。
視頻精彩片段數據集主要來源於愛奇藝精彩視頻片段。視頻精彩片段數據集的視頻類型為綜藝節目,目前囊括1500個長視頻,視頻總時長約1200小時,還從中手動收取出18000個精彩小視頻,同時能夠提供視頻幀的圖片特徵序列,是全球首創的開放精彩片段標註數據集。
首次亮相的百度閲讀理解數據集DuReader,是迄今為止規模最大的中文開放領域閲讀理解數據集。數據集基於真實應用需求,所有問題來源於百度搜索用户的真實問題,文檔來自全網真實採樣的網頁文檔和知道UGC文檔,答案是基於問題與文檔人工撰寫生成的。數據集標註了問題類型、實體和觀點等豐富信息,彌補了現有主流數據集對於觀點類問題覆蓋不足的問題。首批發布的閲讀理解數據集包含20萬問題,100萬文檔及42萬人工撰寫的優質答案,並提供開源基線系統。DuReader將為閲讀理解技術研究提供有力支撐,加速相關技術和應用的發展。

真實、海量無疑是“BROAD”百度AI公開數據集計劃最好的形容詞。作為全球最大的中文搜索引擎,百度積累了規模龐大、種類豐富的真實數據。百度日趨成熟的AI生態體系,也為系統開發圖像、文字等AI領域數據,提供了有力的生態支持。開源數據集的目標,就是希望可以將百度多年積累的優質、龐大數據開放出來,為認知層、感知層的AI技術提供學習驅動。

楊睿剛表示,這些數據是百度AI生態的真實數據,有些是首次發佈,有些是目前國際同類型公開數據集中最大的。百度還計劃在2018年推出供在校師生免費使用的BROAD雲計算平台,共同推進AI技術的發展和落地。“採集數據是一個長久的過程,而數據開源也是百度長久的打算,更多精彩的內容將會逐步為大家呈現。”楊睿剛説,百度願意和公眾一起,持續開放真實、大規模的數據集,為推動AI發展和落地努力。