ChatGPT需要幫助解決數學作業——《華爾街日報》

Josh Zumbrun

2023-02-03

人工智能聊天機器人ChatGPT自11月發佈以來令教育界震動。紐約市公立學校已禁止在其網絡和學校設備上使用該程序，大學教授們正在修改教學大綱以防學生用它完成作業。該機器人的創造者OpenAI甚至發佈了一個檢測人工智能生成文本的工具，以防止作弊者、垃圾郵件發送者等人濫用。

令人意外的是，有一個學科領域似乎未受威脅。事實證明ChatGPT的數學能力相當糟糕。

“我沒有聽到數學教師對此表示擔憂，“德克薩斯大學教授保羅·馮·希佩爾説，他研究數據科學和統計學，並撰寫了一篇關於ChatGPT數學侷限性的文章。“我不確定它對數學是否有用，這感覺很奇怪，因為數學本是計算設備的首個應用場景。”

雖然該機器人能答對許多基礎算術題，但當問題以自然語言表述時就會出錯。例如詢問ChatGPT"如果一個香蕉重0.5磅，我有7磅香蕉和9個橙子，共有多少水果？“機器人迅速回答：“你有16個水果，7個香蕉和9個橙子。”

向機器人投餵會引發其自信滿滿卻荒謬回答的問題並不困難，甚至有些娛樂性。

總數將是23。如果每根香蕉重0.5磅，那麼7磅香蕉將得到14根香蕉。14根香蕉加上9個橙子等於23個水果。照片：截圖：《華爾街日報》如果你問ChatGPT誰更高，沙奎爾·奧尼爾還是姚明，機器人會準確地説姚明身高7英尺6英寸，奧尼爾身高7英尺1英寸，但隨後卻得出奧尼爾更高的結論。機器人對大數的平方根計算錯誤。讓它展示計算過程時，它經常生成看起來很棒但包含錯誤的詳細公式，比如2 x 300 = 500。

我讓ChatGPT編寫五個簡單的代數問題，然後提供答案。這個人工智能只正確回答了自己提出的三個問題。

ChatGPT在數學上的困難是這種被稱為大型語言模型的人工智能固有的問題。它掃描網絡上大量的文本，並建立一個關於句子中哪些詞可能跟隨其他詞的模型。這是一個更復雜的自動完成功能，就像你在設備上輸入“我想要”後，它會猜測接下來的詞是“和某人跳舞”、“知道愛是什麼”或“和你在一起”。

照片插圖：照片：Maryna Terletska/Getty Images；動畫：Ariel Zambelich/《華爾街日報》一個精通填字遊戲的超級計算機可能在撰寫語法正確的論文回答上極為高效，但在解決數學題時卻力不從心。這正是ChatGPT的阿喀琉斯之踵：它以權威口吻給出語法正確但數學上錯誤的數字答案。

正如馮·希佩爾先生所言：“它表現得像個專家，有時能令人信服地模仿專家。但更多時候它像個胡扯大師，將真相、謬誤和虛構混為一談，除非你自己具備專業知識，否則很容易被其説服。”

我在郵件中詢問搜索引擎工程師德巴吉亞·達斯——他曾在推特上列舉ChatGPT搞砸基礎數學的例子——為何它能答對某些簡單問題卻對另一些完全錯誤。“或許恰當的類比是：如果你問一屋子不懂數學但看過許多象形文字的人'2+2之後是什麼’，他們可能會説’通常我們會看到4’。這就是ChatGPT的運行邏輯。“但他補充道，“數學不僅僅是象形文字的排列，更是計算。”

它並不適合用來矇混數學課，因為只有懂數學的人才能識別其錯誤。若對你而言這全是天書，錯誤答案反而顯得合理。

OpenAI首席執行官薩姆·奧爾特曼去年12月在推特上表示：“ChatGPT存在明顯侷限，但在某些方面表現足夠製造出強大的假象。目前依賴它處理重要事務都是錯誤的。”

當你開始與ChatGPT對話時，它會預先提醒：“雖然我們設置了防護措施，但系統偶爾仍可能生成不正確或誤導性信息。”

數學教育者對這種創新不太擔憂的另一個原因是，他們早已歷經過類似變革。早在幾十年前計算機和計算器普及之初，這個領域就經歷過第一次顛覆。

不，正確答案是X=7/3。圖片來源：《華爾街日報》截圖數學軟件公司Wolfram Research戰略總監康拉德·沃爾夫拉姆表示：“數學是所有主流學科中因機器應用而發生最重大革命的領域。“該公司開發了技術計算軟件Mathematica及數學問答網站Wolfram Alpha。

當英語老師剛開始擔憂電腦替學生完成作業時，數學老師早已在應對如何確保學生真正學習而非僅使用計算器的問題。這就是為什麼學生必須展示解題過程並參加紙質考試。

更深層的啓示在於：人工智能、計算機和計算器並非簡單捷徑。數學工具需要數學知識支撐。除非你清楚要解決什麼問題，否則計算器無法完成微積分運算。如果毫無數學基礎，Excel不過是個帶有多餘按鈕的表格排版工具。

“在計算機問世後的現實世界中，數學、科學和工程學的概念變得更簡單了嗎？不，恰恰相反。我們正在提出越來越難的問題，不斷向更高層次邁進。“沃爾夫拉姆先生説。

最終，人工智能很可能會發展到其數學答案不僅自信而且正確的程度。一個純粹的大型語言模型可能無法勝任這項工作，但技術會不斷進步。下一代AI可能會將ChatGPT的語言能力與Wolfram Alpha的數學能力結合起來。

然而，總的來説，與計算器和計算機一樣，人工智能最終可能對那些已經精通某個領域的人最為有用：他們知道要問什麼問題，如何識別不足之處，以及如何處理答案。換句話説，這是為那些最懂數學而非最不懂數學的人準備的工具。

寫信給Josh Zumbrun，郵箱：[email protected]

刊登於2023年2月4日的印刷版，標題為’ChatGPT的阿喀琉斯之踵：數學問題數學問題顯示ChatGPT的侷限性 ChatGPT的阿喀琉斯之踵：數學問題’。