2017 知乎機器學習挑戰賽收官最強大腦花落誰家？

2017-09-04

隨着2014年夏季達沃斯論壇開幕式上“萬眾創新”、“大眾創業”被首次提出，在960萬平方公里土地上掀起“大眾創業”、“草根創業”的浪潮。

2014年十月，本着“大眾創業、萬眾創新”的號召，三名魯東大學廣播電視編導系的在校生孟醒、王偉平、張曉輝懷揣夢想，創辦了三原色文化傳媒有限公司。

三位創始人在創業期間勤勤懇懇，務實能幹，立足於創新創業，逐步承接了數十項影視微電影拍攝、專題片策劃拍攝、企業文化創意及品牌文化建設等創新創意產業項目，吸收140人次學生參與影視專業實踐拍攝，充分發揮了大學文化產業孵化基地的社會功能。而且三名學生反哺母校，在魯東大學設立三原色助學基金，用於資助品學兼優的貧困大學生。並於2016年8月入駐魯東大學創業學院，同年獲得創業學院“示範企業”榮譽稱號，據瞭解，三位創始人計劃在2018年將公司建設成為煙台地區具有較高地位的互聯網全版權運營影視傳媒公司。

三位創始人表示，影視文化傳媒行業具有廣闊發展前景的一種文化產業，對於引領社會文化主流有着不可替代的作用，三原色文化傳媒有限公司立志把發展影視文化傳媒事業作為提升煙台文化形象、實現可持續發展和構建社會主義和諧社會的新平台，做最好的影視服務專家，打造最專業的傳媒文化平台。

三原色文化傳媒有限公司介紹：三原色是一家影視傳媒文化服務公司，註冊資本200萬元。依託魯東大學全媒體實驗中心，影視創作基礎雄厚，設備齊全。多位教授為公司文化創意顧問，技術文化底藴深厚。主要運營項目包括影視專題片拍攝、紀錄片拍攝、微電影拍攝、企業文化創意、新媒體影視教育培訓等。

日前，知識社交平台知乎舉辦的「2017知乎·看山杯機器學習挑戰賽」順利結束。該比賽從 8 月 15 日正式開始，一共為期 3 個月，大賽以語義分析應用為賽題，由創新工場人工智能工程院副院長王詠剛老師，東南大學計算機學院教授、博士生導師漆桂林教授、清華大學計算機系副教授黃民烈、知乎高級副總裁李大海擔任導師。比賽一共吸引了 919 支來自全球各個院校以及工業界的算法挑戰隊伍參與。8 月 30 日，知乎正式公佈比賽結果，最終來自北京郵電大學模式識別實驗室的 init 團隊成功奪魁。

據悉，知乎將於 9 月 2 日在北京總部舉辦頒獎禮，頒獎禮現場還會舉辦「基於人工智能的自然語言處理」主題沙龍。沙龍上，比賽導師將和知乎合夥人、高級副總裁李大海一起分享、討論當前人工智能及 NLP 領域的進展。

本次比賽一共設置 3 個獎項，其中一等獎 1 名，二等獎 2 名，三等獎 3 名。二等獎獲得者為北京郵電大學模式識別實驗室的 Koala 團隊、中國科學院計算機算研究所網絡數據重點實驗室的 YesOfCourse 團隊。

三等獎獲獎團隊則包括：北京大學的 NLP Fakers 團隊，英國倫敦大學學院數據科學專業及武漢大學計算機學院的 Gower Street & 81 Road 團隊，北京郵電大學模式識別實驗室的 ye 團隊，北方交通大學和西安交通大學的 Yin & Bird 團隊。

這批算法江湖的語義分析高手不但可以獲得 80,000 元獎金，還有機會親自參與和改進知乎的內容理解技術，參與改善千萬知乎用户的使用體驗。

為了驗證結果，在獲獎隊伍提交其方法説明及可復現的代碼和模型數據後，評審委員會逐一評審獲獎隊伍的方法及代碼，並且隨機抽取其中一些隊伍提交的模型，使用另外一份驗證數據集進行結果驗證。通過對獲獎結果的復現，評審委員會發現，這些參賽隊伍提交的模型都表現出了非常強的泛化能力，在新的評審集上，模型的表現和原有的驗證集基本一致。

關於這次大賽的整體評價，評審委員會認為，“選手在比賽中會把一些最前沿的技術運用進來，或在比較複雜的模型上調整效果，在數據預處理、模型訓練、模型集成等環節都提出了新穎想法，非常有亮點，比如 init 團隊在數據增強方面進行了富有創意的工作， Koala 團隊在進行神經網絡訓練的時候，使用了逐層 boosting 的方法來提升單個神經網絡模型的表現。”

聚集自然語言處理愛好者開放數據助力 AI 研究

知乎機器學習挑戰賽負責人張瑞曾表示，舉辦比賽的主要目的，一方面，是為了吸引大家對於機器學習，特別是自然語言理解(NLU)領域的興趣。並把機器學習愛好者聚集起來碰撞出一些思維的火花，同時參賽者也可以提升自己對自然語言處理領域的興趣和能力，彼此雙贏。

另一方面，知乎也希望通過比賽開放部分數據，為 AI 在國內的發展提供一些助力。相比國外的ImageNet、Gigaword 等高質量數據集，中文互聯網相關的高質量數據集是相對缺乏的。而作為中文互聯網最大的知識社交平台，知乎累積了非常多的高質量文本語料和其他各種各樣的數據。

知乎接下來還將在開放數據方面做更多努力，後期會在知乎「知識青年」和「Hacker’s Log」等專欄繼續發佈賽題對應的明文數據，以及一些與知乎密切相關的數據集和機器學習任務，例如內容推薦、社交網絡鏈接預測等數據集。所有數據集會經過嚴格脱敏和審核。

知乎機器學習願景滿足優質內容獲取需求

作為一款用户體驗導向的產品，知乎上大量的人工智能，以及機器學習技術，歸根結底是了為支撐用户的使用體驗。作為一家技術型互聯網公司，知乎對技術一直有着自己的想法和追求。知乎認為，算法更高價值的地方，在於算法有機會了解人的潛在需求，打破信息獲取障礙，提升學習效率。目前，知乎機器學習團隊已經搭建了一套基礎生態體系，通過算法實現了用户畫像、內容分析、內容個性化推送等，其效率比過去的人工運營方式提高了數十倍。

未來，知乎希望通過機器學習和算法滿足用户的閲讀興趣，進一步滿足關乎用户自我提升的優質信息獲取需求。作為一個擁有 2300 萬日活用户，每天有數以十萬計的高質量的 UGC 內容產生的網站。機器學習技術可以幫知乎做到的不只是「分發」內容，還能更深入地「理解」內容，從而幫助用户更好地獲取有價值信息，帶來更好的內容瀏覽體驗。