懸賞17萬：美國“知乎”的沙雕問題，需要AI來識別_風聞

量子位-量子位官方账号-2018-11-14 13:29

2018-11-14

智慄發自凹非寺

量子位出品 | 公眾號 QbitAI

知乎上面，時常會出現一些“睿智”的問題。

比如，一顆隕石如何挑選自己的歸宿：

又比如，公交車的職業操守如何：

這麼可愛的問題，並非知乎獨享。

知乎的大前輩Quora上面，也有一些腦回路別具一格的人類：

我的MacBook Air重量是2.3磅。

下載的東西多了之後，它會不會越來越重？

下載的小電影多了之後，它會不會爆炸？

既然，大家都喜歡這樣可愛的問題，怎麼才從千千萬萬個問題裏面，把它們找出來呢？

重賞之下，必有勇夫。

Quora拿出25,000美元作為獎金，舉辦了一場Kaggle比賽：

有毒問題在哪裏？

比賽內容之一，就是讓AI識別出建立在虛假前提上的問題，簡稱虛假問題 (Insincere Questions) 。

所以，怎樣算是虛假前提？

還是舉起開頭的栗子，“隕石墜地前，那隕石坑已經存在”，這是個合格的虛假前提了。

第二，AI要識別的對象還包括，打着提問的旗號，實則在表達觀點，這樣的問題。

例如，對某一人羣表現出歧視、攻擊或者侮辱的問題：

第三，若是為給別人帶來衝擊力 (不為尋求答案) 而使用了性內容，也會成為緝拿對象。淨化網絡環境，也是保護祖國的花朵。

△ 來自山下智博

以上概括起來，任務就是揪出那些並非真心發問而另有用意的問題。

Quora説，站內已經在用機器學習與人類一同完成這項任務了，不過依然需要大家的幫忙。所以才為選手們提供了不錯的回報：

冠軍，12,000美元

亞軍，8,000美元

季軍，5,000美元

△ 如何在一夜之間學會編程？(急，在線等)

比賽用的數據，就是Quora裏面的問題。官方提供的數據集，分為訓練集合測試集。訓練集裏有超過130萬個問題，測試集裏有5.6萬個問題。信息包括：問題ID，問題本身，以及問題是否虛假。

在此之外，選手不可以使用其他數據來訓練模型。

比賽成績，是由模型的F1分數決定的：

這裏，問題只有兩種分類，一是虛假，二是正常。F1分就是衡量二分類模型準確度的指標，兼顧了精確率 (Precision) 和召回率 (Recall) 。

這場為期3個月的比賽，一週前已經啓動。現在，已經有超過750支隊伍參與其中，排行榜也一直在變化。

竊以為，解鎖不可描述的問題，應該是一項愉悦身心的活動。

那麼，想要參加比賽的同學注意一下：

報名截止日期為2019年1月29日。

提交截止日期為2019年2月5日。

參賽地址在這裏：https://www.kaggle.com/c/quora-insincere-questions-classification

有問，必有答

最後的最後，母交車到底能不能吸引公交車？

有理有據，令人信服。

—完—