不再直接喂數據,科學家想讓機器人自己上網找資料
作者:徐弢

對於機器人來説,像人一樣從語句中獲取信息是很難的。因而在訓練機器人之前,通常會有篩選培訓資料的過程,方便機器人在被喂入數據後,比較容易在大量資料中找到模塊化的信息。
這種培訓方式,對於計算機技術比較合適,只需要時間累積,但對於人們常用的語言來説,卻是個麻煩。
這跟人們的表達方式有關係。賓夕法尼亞大學計算機和信息科學的助理教授 Chris Callison-Burch 稱:“自然語言的諸多難點之一在於,你可以用很多不同的方式來表達同樣的信息,而抓住所有的這些變化,就是建立一個複雜模型過程中面臨的挑戰之一。”
説的直白點,就是人類所用的語言比較複雜,不能直接用作機器人的培訓資料。
但 Regina Barzilay 等 3 位麻省理工學院研究人員最近想到了一個新角度,他們想讓機器人自己從網上尋找信息,像人一樣找更多資料做信息的補充。對於研究來説,這樣做的好處最直接的是可以減少前期的人力成本。
簡單來説,他們使用了人工智能的一種技術——強化學習,做了兩個應用場景的測試。其一是在美國槍擊案的新聞中找資料,包括槍擊地點、傷亡人數;另外一個則是蒐集食品造假事件的相似性,包括食品種類、食品造假的類型和地點。
每個測試都只使用 300 份新聞。但在測試中,麻省理工學院培訓的機器人每分析 1 篇文章,它都會從網上找 9、10 篇新聞作為相關資料進行分析,以補充原本資料的不足。其中的困難之處在於,讓機器人判斷兩篇新聞描述了同一件事,並且從多份資料中提取數據。
論文中舉了一個謀殺案的案例,下面是 3 個新聞中摘出來的片段:
警官在週一公佈稱,一對夫婦和四個小孩死在他們位於南達科他州的家裏,他們的家發生了火災,他們顯然是死於入室謀殺……一份官方聲明稱,Scott Westerhuis 的死因是“疑似自殺性質的獵槍槍擊”。
官方稱,一個南達科他州家庭的 6 名成員被發現死在了火災燒燬的家中,他們死於槍擊,其中有一例死亡懷疑是自殺。
AG Jackle 稱,所有的證據都支持他基於 9 月份的初步發現做的推理:Scott Westerhuis 用一把獵槍槍殺了他的妻子和孩子,點燃了他的房子,然後用獵槍自殺。
最終,他們培訓的機器人需要在網上找到類似下面 2 篇那樣的新聞,並且挖出這兩個信息:開搶的人是 Scott Westerhuis,以及死亡人數是 6 人。
在兩項測試中,麻省理工學院開發的系統能根據那些與目標信息相關的詞彙進行搜索,例如槍擊案的兇手通常會跟“警方(police)”、“(identified)“ 、”逮捕(arrested)“ 等詞彙有關係,從而判斷具體的人。
麻省理工學院的研究員稱,他們用這種新技術做數據整理,準確率要比以往的篩選方式高出 10%。不過,對於普通人來説,這種新技術看起來有趣的一點是,它讓機器人的工作方式更接近於人類的思考方式:獲取一個信息後,用更多的信息補充它。
*騰訊科技開通知乎機構賬號了!你敢翻牌,我就敢答,*在知乎等你
。