懸賞17萬:美國“知乎”的沙雕問題,需要AI來識別_風聞
量子位-量子位官方账号-2018-11-14 13:29
智慄 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
知乎上面,時常會出現一些“睿智”的問題。
比如,一顆隕石如何挑選自己的歸宿:
又比如,公交車的職業操守如何:
這麼可愛的問題,並非知乎獨享。
知乎的大前輩Quora上面,也有一些腦回路別具一格的人類:
我的MacBook Air重量是2.3磅。
下載的東西多了之後,它會不會越來越重?
下載的小電影多了之後,它會不會爆炸?
既然,大家都喜歡這樣可愛的問題,怎麼才從千千萬萬個問題裏面,把它們找出來呢?
重賞之下,必有勇夫。
Quora拿出25,000美元作為獎金,舉辦了一場Kaggle比賽:
有毒問題在哪裏?
比賽內容之一,就是讓AI識別出建立在虛假前提上的問題,簡稱虛假問題 (Insincere Questions) 。
所以,怎樣算是虛假前提?
還是舉起開頭的栗子,“隕石墜地前,那隕石坑已經存在”,這是個合格的虛假前提了。
第二,AI要識別的對象還包括,打着提問的旗號,實則在表達觀點,這樣的問題。
例如,對某一人羣表現出歧視、攻擊或者侮辱的問題:
第三,若是為給別人帶來衝擊力 (不為尋求答案) 而使用了性內容,也會成為緝拿對象。淨化網絡環境,也是保護祖國的花朵。
△ 來自山下智博
以上概括起來,任務就是揪出那些並非真心發問而另有用意的問題。
Quora説,站內已經在用機器學習與人類一同完成這項任務了,不過依然需要大家的幫忙。所以才為選手們提供了不錯的回報:
冠軍,12,000美元
亞軍,8,000美元
季軍,5,000美元
△ 如何在一夜之間學會編程?(急,在線等)
比賽用的數據,就是Quora裏面的問題。官方提供的數據集,分為訓練集合測試集。訓練集裏有超過130萬個問題,測試集裏有5.6萬個問題。信息包括:問題ID,問題本身,以及問題是否虛假。
在此之外,選手不可以使用其他數據來訓練模型。
比賽成績,是由模型的F1分數決定的:
這裏,問題只有兩種分類,一是虛假,二是正常。F1分就是衡量二分類模型準確度的指標,兼顧了精確率 (Precision) 和召回率 (Recall) 。
這場為期3個月的比賽,一週前已經啓動。現在,已經有超過750支隊伍參與其中,排行榜也一直在變化。
竊以為,解鎖不可描述的問題,應該是一項愉悦身心的活動。
那麼,想要參加比賽的同學注意一下:
報名截止日期為2019年1月29日。
提交截止日期為2019年2月5日。
參賽地址在這裏:https://www.kaggle.com/c/quora-insincere-questions-classification
有問,必有答
最後的最後,母交車到底能不能吸引公交車?
有理有據,令人信服。
—完—