1億中國用户已被AI批改過作業:有人百字短文被改40次
你被機器批改過作業麼?《南華早報》28日報道稱,有一億多中國人,已經被AI批改過作文。
但是,這個“一億”從何而來,報道並未提及。觀察者網為此向詳細關注此事的AI領域新媒體“量子位”求證,得知這一數據出自“2018年國家科學技術進步獎項目提名公示——語言智能評測關鍵技術及應用”,文章去年12月就公佈在北京航空航天大學官方網站,其中提到“項目成果在教育領域得到大規模應用,累計服務6萬多所學校,1.2億用户”。

該技術還轉化成了具體評測的產品。目前,對照國家科學進步獎授獎條件,項目已提名申報2018年國家科學技術進步獎二等獎**。**
雖然樓下已有觀網讀者想起了被這款“陰魂不散”AI支配的恐懼,小編的同事卻意外地一臉淡定,“大一大二也用過,一想到不用面對老師改作業,輕鬆多了……”
當然,是機器就有漏洞,AI批作業還有很多不完善的地方,在實際應用中也被人鑽過空子,或是改出驢唇不對馬嘴的“高分文章”。
目前,它的定位只是一種輔助工具,老師們對作文批改AI的信任度並不是很高,只是在日常作業和小測驗中使用AI來批改打分,真正的考試,還不敢交給它。
以下是量子位(公眾號 ID: QbitAI)的文章全文,觀察者網受權轉載。

最近,老外特別關注AI在中國教育界的進展,例如人臉識別進課堂、高中AI教材出版等等,這一次關注的焦點是:AI代替老師批作業。
起因是,英文媒體《南華早報》最近有篇報道説,中國有大約6萬所學校都在用人工智能來批改學生的作業,每四所學校中就有一所在用。
這些學校分佈在各地,四川、山東、安徽、北京……

學生們提交的英文作業,打分交由機器完成,而不是人類教師。作文批改系統,要比Word的拼寫檢查複雜得多。它能夠理解文字的一般邏輯和意思,對作文的整體質量做出像人一樣合理的評判,還要在寫作風格、結構、主題等方面給出改進建議。
據説,92%的情況下,AI和人類教師對一篇作文的評分是一致的。
這個籠罩6萬所學校的人工智能,就是批改網。在它的背後,是一個多所高校和公司共同推進了近10年的項目:語言智能評測關鍵技術及應用。
數據顯示,這個機器教師的學生已經達到1.2億,還覆蓋了北京90%高校,以及所有區縣的中學。但它也像一道分水嶺,有些人壓根沒聽過。這一點也不奇怪。要知道2016年底,這個服務覆蓋的學校才6000多所。
也就是説,一年之間,它覆蓋的學校數量增長了900%。

公示文件中提到的一些應用單位
“高分秘籍”
學生對機器批改作業,感受如何?
一個可見的情況是,你能輕鬆從微博上找到各種吐槽。
比如:
“生活所有的痛苦都來自英語批改網和老師的公郵”

“受了批改網一肚子氣”

“就像相信批改網是垃圾。即使在批改網的排名是倒數也不影響就是這樣堅定地上交的決心”

説起這些,量子位的一枚同事,默默地貼出她被批改網“支配”的往事:100多字的英語短文,修改了40多次。

當人把命運交到機器手裏,心中總是有點不服氣。
於是不斷有人試圖證明,機器評分這套系統,不過爾爾。比如此前未來網就在報道中提及此事。
網友“TroyS”反映:
一次專門到網上查到批改網各種高分表達並且用到作文裏,提交後得了86分,修改語法錯誤後分數變為91.5分。此後,該網友把“高分表達”刪除,試着用普通表達後,評分還是91.5分。再後來,試着刪掉最後一段、試着刪掉最後兩段,提交後的分數也都仍然是91.5分。但更令其吃驚的是,當該網友把最後兩段又貼回去後,分數變成了90分,並且此後修改了17次之多,但分數沒變過。
知乎網友“猴賽雷”也提到:
通過使勁重複題目要求中的詞和句子、貫穿全文,結構以“首先、其次”這類“八股文模式”照搬,文內多加六級高級詞彙和句式等,再加上批改網推薦替換的詞彙都用上,最後就能得到高分,但是內容驢唇不對馬嘴。
未來網記者將網上找的《假如給我三天光明》的英文節選粘貼到批改網上,提交後得分85.5分,並提示標題“假如給我三天光明”的英文表達“疑似謂語缺失”。根據文後的按句點評修改兩處提交後,得分仍為85.5分。然而,當記者刪掉最後一段後,得分變為了86分。接着,記者又刪除第一段,提交後得分變成了86.5分。當記者再將第二段刪除後,分數又變成了86分。
總而言之一句話,機器批改作業,確實還有很多不完善的地方。
一位自稱曾經是批改網研發的用户也表示,“批改網的批改原理是用多維度加權平均來給你打分。如果一個維度權重很重,你剛好改了之後這個維度的值降了,一加權自然就分數低了”。
“同學們加油,是機器就有漏洞,就看你們能不能總結出規律了。”
背後原理
機器到底是如何批改作業的?
在批改網的官方頁面上,對於背後技術的闡釋如下。
批改網的原理通過對比學生作文和標準語料庫之間的距離,並通過一定的算法將之映射成分數和點評。
2014年多知網的一篇報道中,批改網創始人講述了更多的細節。我們摘錄如下。
批改網修改作文的原理是,作文提交後,網站將作文從“詞彙”、“句子”、“篇章結構”、“內容相關度”4個大類192個維度進行拆分,每個維度都會與批改網建立的英語本族語語料庫(即國外英語文章的素材)作對比。語料庫越豐富,對比的客觀性就越高,機器批改與人工批改的一致率就越高。
比如,在作文中經常出現“learn knowledge”這樣的中式英語。將這樣的語言搭配與語料庫資料對比後發現,以英語為母語的國家中,使用“learn knowledge”的頻率為0次,使用頻率最高的是“have knowledge”。所以,會建議學生使用“have knowledge”。
再提供點新信息,根據《2018年國家科學技術進步獎項目提名公示》中披露的內容顯示,批改網背後的技術“歷經近10年的潛心研究”。
其中列出的五個主要的創新點包括:
1、首次提出全信息語言評測模型
2、構建大規模評測本體知識庫
3、構建大規模評測語料庫和規則庫
4、提出篇章主題聚合度模型
5、提出文檔自動編輯和轉換模型。

大概就這樣吧。
不管細節怎樣,總有質疑説機器批改打分的價值不大,目前仍有一些不足云云。但是,這套系統可能真的擊中了老師的痛點。官方也把這個作為宣傳的重點:
老師們為什麼要使用批改網呢?
上海交通大學的胡開寶教授説,批改網可以減輕老師負擔,提高學生學習積極性;清華大學楊芳老師:“以前學生追着我問 ‘ 老師你改了沒有? ‘ ,在使用批改網後我追着學生問 ‘ 作文交了沒有?’ ”。
系統的開發者們把它定位成一種輔助工具。對於缺乏教育資源的偏遠地區學生來説,一個批改作文的AI能為他們帶來不錯的寫作訓練;對於一般的學校來説,它能幫老師們搞定堆積如山的作業,加快批改的速度。
然而根據《南華早報》的報道,**老師們對作文批改AI的信任度並不是很高。**老師們依然認為,這個系統還不能算完美,有些很好的作文得不到高分。
其實,在作文批改AI出現更早的美國,機器打分早已有了更大膽的應用。
測試機構ETS的作文評分系統e-rater,從2010年開始,就開始正式參與托福考試作文的打分,一個人類評分員和e-rater給出的分數一平均,就成了託福作文的得分。
而這次被英文媒體關注的中國批作業AI,老師們也只是在日常作業和小測驗中使用AI來批改打分,真正的考試,還不敢交給它。
就醬。
(夏乙 舒石 發自 凹非寺)
參考資料:
[1] SCMP:China’s schools are quietly using AI to mark students’ essays … but do the robots make the grade?
http://www.scmp.com/news/china/society/article/2147833/chinas-schools-are-quietly-using-ai-mark-students-essays-do
[2] 未來網:批改網讓學生不再質疑分數? 英文原著“打臉”智能批改實力
http://m.edu.k618.cn/ycbd/201801/t20180130_15146364.html
[3] 多知網:句酷批改網:用機器批改作文的創業故事
http://www.duozhi.com/company/20141124/2412.shtml
[4] 2018年國家科學技術進步獎項目提名公示——語言智能評測關鍵技術及應用
http://bhkj.buaa.edu.cn/info/1015/2825.htm(完)