人工智能檢測器有效嗎？學生面臨虛假作弊指控 - 彭博社

Jackie Davalos, Leon Yin

2024-10-18

莫伊拉·奧姆斯特德被指控使用人工智能來寫作業。

攝影師：尼克·牛津/彭博社

在疫情初期休學一段時間以組建家庭後，莫伊拉·奧姆斯特德渴望重返校園。幾個月來，她在全職工作和照顧幼兒之間忙碌，以便為一個允許她遠程學習的自學項目存錢。在懷着第二個孩子七個月的時候，奧姆斯特德於2023年註冊了中部衞理公會大學的在線課程，學習成為一名教師。

在秋季學期開始幾周後，奧姆斯特德在一門必修課中提交了一份書面作業——她每週必須完成的三篇閲讀摘要之一。沒過多久，她收到了成績：零分。當她向教授詢問時，奧姆斯特德表示被告知一個人工智能檢測工具已確定她的作品可能是由人工智能生成的。事實上，老師説，她的寫作至少之前被標記過一次。

對於現在24歲的奧姆斯特德來説，這一指控就像是“重重一擊”。這也是對她在大學地位的威脅。“這就像，哦我的天，這就是現在對我們有效的東西——而它可能因為我沒有做的事情而被拿走，”她説。

## 重要觀點

當人工智能錯誤地標記學生作弊時

14:04

奧姆斯特德向她的老師和一名學生協調員對這一指控提出異議，強調她有自閉症譜系障礙，並以一種公式化的方式寫作，這可能被錯誤地視為人工智能生成的，依據彭博商業週刊查看的電子郵件。最終成績被更改，但在此之前她收到了嚴格的警告：如果她的作品再次被標記，老師將以抄襲的方式對待。

奧姆斯特德展示了一份被標記為可能由人工智能撰寫的作業。攝影師：尼克·牛津/彭博社自從OpenAI的ChatGPT在近兩年前將生成式人工智能帶入主流以來，學校們迅速適應這一變化的環境。教育工作者現在依賴越來越多的檢測工具來幫助識別由人工智能生成的句子、段落或整篇作業。根據一項調查，約三分之二的教師報告定期使用人工智能檢查工具，該調查由民主與技術中心於三月發佈，涵蓋了450多名教師。

最好的人工智能寫作檢測器非常準確，但並非萬無一失。商業週刊對兩項領先服務——GPTZero和Copyleaks——進行了測試，樣本為2022年夏季提交給德克薩斯農工大學的500篇大學申請論文，恰好是在ChatGPT發佈之前，有效保證這些論文不是由人工智能生成的。這些論文是通過公共記錄請求獲得的，意味着它們不屬於人工智能工具訓練的數據集。商業週刊發現這些服務錯誤地將1%到2%的論文標記為可能由人工智能撰寫，在某些情況下聲稱有近100%的確定性。

即使如此小的錯誤率也可能迅速累積，考慮到每年大量的學生作業，這可能對被錯誤標記的學生造成毀滅性的後果。與更傳統的作弊和抄襲指控一樣，使用人工智能完成作業的學生不得不重做作業，並面臨不及格和留校察看的後果。

人工智能檢測器可能錯誤標記論文為可能由人工智能撰寫

彭博社對在ChatGPT發佈之前撰寫的500篇論文進行的測試顯示，使用兩種領先的人工智能檢測器，服務錯誤標記了1%到2%的論文為可能由人工智能撰寫。

來源：彭博社對德克薩斯農工大學、GPTZero、CopyLeaks的分析

最容易受到不準確指控的學生可能是那些寫作風格較為通用的學生，可能是因為他們像奧姆斯特德一樣神經多樣，或是將英語作為第二語言（ESL）學習，或者只是學會了使用更簡單的詞彙和機械的寫作風格，根據學生、學者和人工智能開發者的説法。一 2023年的研究由斯坦福大學研究人員進行，發現人工智能檢測器在檢查美國出生的八年級學生撰寫的論文時“幾乎完美”，然而它們將超過一半的非母語英語學生撰寫的論文標記為人工智能生成的。OpenAI 最近表示它已暫時不發佈人工智能寫作檢測工具，部分原因是擔心這可能對某些羣體產生負面影響，包括ESL學生。

商業週刊 還發現，AI 檢測服務有時會被旨在將 AI 寫作偽裝成人類的自動化工具欺騙。這可能導致一場技術之間的軍備競賽，損害教育工作者與學生之間的信任，而幾乎沒有教育上的好處。

Turnitin，一種流行的 AI 檢測工具，Olmsted 表示曾用來檢查她的工作，表示它在分析句子時有 4% 的誤報率。Turnitin 拒絕提供其服務進行測試。在 2023 年的一篇博客文章中，範德比爾特大學，幾所主要學校之一，因準確性問題關閉了 Turnitin 的 AI 檢測服務，指出在學年期間，數百篇學生論文本來會被錯誤標記為部分由 AI 撰寫。

Ken Sahib，一位在意大利度過大部分童年的多語言學生，表示，當他在紐約伯克利學院的網絡導論課程中收到一份總結閲讀的作業得了零分時，感到“難以承受”。當 Sahib 詢問此事時，老師説：“我嘗試的每個工具都產生了相同的結果：那些回答是 AI 生成的，”根據 商業週刊 查看過的電子郵件。 “你知道你在做什麼。”

Sahib 表示他最終通過了這門課，但這一事件破壞了他與教授的關係。“之後我們幾乎不再交談，”他説。教授沒有回應評論請求。

雖然一些教育工作者已經放棄了人工智能檢測器，並試圖調整他們的課程以納入人工智能，但許多大學和高中仍然使用這些工具。根據投資數據公司PitchBook的數據顯示，自2019年以來，人工智能檢測初創公司吸引了約2800萬美元的資金，其中大多數交易是在ChatGPT發佈後進行的。深度偽造檢測初創公司可以檢查人工智能生成的文本、圖像、音頻和視頻，2023年籌集了超過3億美元，而前一年約為6500萬美元，PitchBook發現。

根據對美國十幾名學生和11名教師的採訪，結果是教室仍然受到對虛假指控可能性的焦慮和偏執的困擾。現在，本科生們追求各種耗時的努力來捍衞他們工作的完整性，他們表示這一過程削弱了學習體驗。一些人還擔心使用專門面向學生的常見人工智能寫作輔助服務和語法檢查工具，擔心它們會觸發人工智能檢測器。

Turnitin的人工智能副總裁Eric Wang表示，該公司故意在其數據集中“過度採樣”代表性不足的羣體。他表示，內部測試顯示Turnitin的模型不會錯誤指控英語作為第二語言的學生，並且其整個文檔的總體誤報率低於1%，並隨着每次新版本的發佈而改善。Turnitin並未專門針對神經多樣性學生的數據進行訓練，也沒有訪問醫療歷史以評估該分類。

Copyleaks 的聯合創始人兼首席執行官 Alon Yamin 表示，其技術的準確率為 99%。他説：“我們向學術機構明確表示，沒有什麼是 100% 的，這應該用於識別學生作品中的趨勢。”他説：“這有點像給他們一個黃色警告，讓他們去關注，並利用這個機會與學生交談。”

“每個 AI 檢測器都有盲點，”GPTZero 的創始人兼首席執行官 Edward Tian 説。他表示，他的公司在消除 ESL 學生結果的偏見方面取得了進展，並採取措施更清楚地指示其工具對教師書面作品評估的不確定性水平。

Tian 創建了 GPTZero，時間是在 2023 年初。到 7 月，他的初創公司擁有 400 萬用户，比一年前的 100 萬用户增長了，並且最近從投資者那裏籌集了 1000 萬美元，包括 OpenAI 首席執行官的兄弟 Jack Altman。“上個學期是最活躍的學期，”Tian 説。“這表明這個問題不會消失，但它已經改變。一年前，人們最常問的問題是：這是 AI 嗎？”現在，他説，教師們知道教室裏有 AI。問題是：“你如何處理它？”

在學校量化 AI 使用是具有挑戰性的。在一次測試中，商業週刊分析了 2023 年夏季提交給德克薩斯 A&M 的 305 篇論文，發現同樣的 AI 檢測器標記了大約 9% 的作品為人工智能生成。

人工智能檢測初創公司

來源：PitchBook

注意：Turnitin是Advance Publications的子公司

人工智能寫作檢測器通常關注困惑度，這是衡量任何給定提交中單詞複雜性的指標。“如果單詞選擇傾向於更通用和公式化，那麼該作品被人工智能檢測器標記的可能性更高，”斯坦福大學生物醫學數據科學教授、斯坦福關於ESL學生研究的高級作者詹姆斯·鄒説。

例如，人工智能檢測服務QuillBot 指出“人工智能生成的內容可能包含重複的單詞、尷尬的措辭和不自然、斷斷續續的流暢性。”GPTZero還考慮了一個稱為“突發性”的標準，它衡量書面文檔中困惑度的變化程度。與人工智能不同，“人們在文檔中往往會在句子結構和用詞上有很大的變化，”該公司表示。

人工智能檢測公司強調，他們的服務不應被視為法官、陪審團和執行者，而應作為幫助教師提供信息和指導的數據點。

奧姆斯特德。攝影師：尼克·牛津/彭博社現在與Copyleaks合作的大多數學校都讓學生訪問該服務，亞敏説，“這樣他們可以進行身份驗證”並查看自己的人工智能評分。與此同時，Turnitin正在努力擴展其人工智能產品組合，推出一項服務，幫助學生展示他們如何完成書面作業的過程，以回應教師和學生的反饋。

“學生們説，‘我想能夠證明這是我的作品，我想對這一點充滿信心，沒有任何疑問，’”Turnitin的首席產品官安妮·切基泰利説。“而老師們則説，‘我需要更多的數據點來幫助我理解學生是如何得出這個結論的。’”

在她的作品被標記後，奧姆斯特德表示她變得對避免再次被指控變得非常執着。她在筆記本電腦上錄製了自己完成寫作作業的屏幕。她在Google Docs中工作，以跟蹤她的修改並創建數字紙質記錄。她甚至嘗試調整自己的詞彙和句法。“我非常緊張，擔心自己走到這一步又遇到另一個AI指控，”即將於春季畢業的奧姆斯特德説。“我有太多東西要失去。”

加州大學聖地亞哥分校的化學工程大三學生內森·門多薩使用GPTZero來預篩選他的作業。他表示，現在完成作業所花費的大部分時間都用來調整措辭，以避免被錯誤標記——這種方式讓他覺得寫作聽起來更糟。其他學生通過轉向一批所謂的AI人性化服務來加快這一過程，這些服務可以自動重寫提交的內容，以繞過AI檢測。

“AI人性化”編輯人寫的論文以繞過AI檢測

彭博社對一項名為Hix Bypass的服務進行的測試發現，一篇人寫的論文在GPTZero錯誤地表示其為98.1% AI後，經過該服務修改後，AI比例顯著下降至5.3%。

來源：德克薩斯農工大學的申請論文；Hix Bypass

對被AI檢測器標記的恐懼也迫使學生重新考慮使用流行的在線寫作輔助工具。Grammarly，一家在2021年估值為130億美元的初創公司，幫助學生處理從基本拼寫檢查到結構建議的各種問題。但它也擴展了選項，可以自動重寫整個提交以滿足某些標準，推動了教師可能認為可接受的界限。

彭博社發現，使用Grammarly來“改善”一篇論文或“使其聽起來更學術”會將原本被視為100%人類寫作的作品轉變為100% AI寫作。然而，Grammarly的拼寫檢查和語法建議對使文檔看起來更像是AI寫作的影響微乎其微。

佛羅里達南西州立學院的學生凱特琳·阿貝拉（Kaitlyn Abellar）表示，她已經卸載了像Grammarly這樣的程序的插件。北喬治亞大學的學生馬利·史蒂文斯（Marley Stevens）去年在TikTok上發佈了一段病毒視頻，講述了她在Turnitin將她的論文標記為AI生成後受到懲罰的經歷。史蒂文斯表示，在一次紀律聽證會確定她作弊後，她被置於學術緩刑一年。她堅稱自己是用Grammarly的標準拼寫檢查和語法功能獨立完成作業的。

“這是一個出於好意的學生，她以負責任的方式使用Grammarly，卻被第三方技術標記為錯誤。我們無法控制Turnitin的運作，他們明白他們有錯誤標記，”Grammarly教育部門負責人珍妮·麥克斯韋（Jenny Maxwell）説。這一事件促使Grammarly開發了一種檢測工具，幫助學生識別文本是手動輸入、從其他來源粘貼還是由AI模型撰寫的。“這幾乎就像你的保險政策，”麥克斯韋説。

對於一些教育工作者和學生來説，當前的系統感覺不可持續，因為它給教師的兩側帶來了壓力，並且人工智能已經成為常態。

馬里蘭大學的英語教授亞當·勞埃德説：“無論我們喜歡與否，人工智能將成為未來的一部分。將人工智能視為我們需要排除在課堂之外或勸阻學生使用的東西是錯誤的。”

勞埃德更傾向於依靠直覺，而不是使用他學校提供的Turnitin。“我瞭解我的學生的寫作，如果我有懷疑，我會進行開放的討論，”他説，“而不是自動指責他們。” —與 丹尼斯·盧**下一篇閲讀: 為什麼OpenAI與一個模糊的創意人開戰