賓夕法尼亞大學沃頓商學院教授現在是人工智能產品的首選評論者 - 彭博社

Shirin Ghaffary

2024-08-02

攝影師：Gabby Jones/Bloomberg世界上最知名的聊天機器人評論員之一談到他對大型語言模型進行測試的“人文主義”方法，面向普通大眾。但首先…

三件事情：

• 馬斯克的xAI 接觸了初創公司Character.AI，希望收購• OpenAI 推出語音助手，延遲解決安全問題• Reddit 阻止微軟在未付費的情況下搜索該網站

基於氛圍的計算

今年早些時候，當一個神秘聊天機器人出現在一個用於比較大型語言模型的熱門網站上時，伊桑·莫利克對其進行了測試，並發現這個工具“可能更好”，比OpenAI的GPT-4更好。他早期的印象在社交媒體和科技出版物中被廣泛分享。他的看法也被證明相當準確：OpenAI 後來確認這個聊天機器人是他們最新的模型。莫利克，一位49歲的企業家教授，就職於費城賓夕法尼亞大學沃頓商學院，已經成為可能是最有影響力的AI模型評論員。他和妻子Lilach經常進行與聊天機器人的“奇怪實驗”，並分享他對日益擁擠的AI產品領域的實際印象。莫利克現在在X上擁有超過20萬用户的追隨者，撰寫了一本關於AI的《紐約時報》暢銷書，並就這一主題向企業和立法者提供建議。（莫利克表示，他並沒有從任何科技公司那裏獲得報酬來分享他的反饋意見。）“我和妻子經常談論這個。比如，為什麼是我們？”莫利克在最近的一次採訪中告訴我。“我應該和所有這些公司、政府官員以及像你這樣的人交談，這很奇怪。”

部分原因是Mollick填補了一個空白。雖然AI公司會將他們自己的模型通過常見的評估測試，比如在特定領域如編碼中，但這些基準往往無法匹配這些服務在現實世界中的表現。作為一個貪婪的聊天機器人測試者，Mollick會盡可能地將它們用於他能想到的每一個問題，比如找出他在博物館看到的一幅畫背後的故事，修理他的濃縮咖啡機，以及弄清楚他喜歡的印度甜點的名字。

“這是基於感覺的計算，”Mollick説。“你必須瞭解這些系統的功能。目前沒有其他選擇。”

Ethan Mollick在我們的聊天中，Mollick對最新工具的獨特優勢和劣勢提出了一連串簡潔的觀察，談到了誰在建立最佳聊天機器人的競賽中處於領先地位。很明顯，他對它們的能力感到敬畏，同時也坦率地談到了它們的缺點。本次採訪已經過了刪減，以保持長度和清晰度。

**Bloomberg: 你是如何測試這些模型的？你是有目的地測試它們，還是日常使用？**Mollick: 我和我的妻子是一個團隊。她不喜歡成為焦點，所以沒有被特別提及，但她是一個了不起的提示創作者。可能是地球上最好的。她對我們構建的複雜提示進行了很多半正式測試，而我則進行了很多奇怪的實驗。我嘗試了很多事情。你只需推動這個模型。我每天都儘可能地使用它，很快就會了解它的個性——它擅長或不擅長什麼。對我來説瘋狂的事情是，我很少遇到有人花時間嘗試讓AI做事情。我認為這是一個很大的缺失。大多數人並不經常使用它，或者他們只是按照他們學會的方式使用它，而不是進行實驗或玩耍。**你可以提前獲得這些模型。你是一名學者。你是一名高級用户。我不知道該怎麼稱呼你。你對於你現在擁有的這種新的名聲和領導地位有何看法？**我不認為自己是一名評論員。對我來説，有兩個核心用例非常重要。一個是教育。我們對教育非常瞭解。我之所以很高興能提前獲得這些東西，是因為這讓我們能夠對這些公司提出異議，我們已經對每一個公司都這樣做了。例如，所有這些模型都存在一個非常有趣的共同問題，那就是它們都傾向於想要非常樂於助人，而這實際上在教育中是非常糟糕的。如果你犯了一個錯誤，AI系統會想要糾正你，而我們不希望你被糾正。我們希望你能犯錯誤，然後它幫助你找到下一個答案。另一個是我認為這些人大多是編程人員。目前還沒有人們可以參考的説明書。所以我可以從人文主義的角度來做這件事：這對人們意味着什麼？他們會如何反應？我們如何以正確的方式使用這些東西，而不是以錯誤的方式？我們如何避免陷阱？我覺得這是一個有用的貢獻。在Anthropic發佈了Claude 3.5 Sonnet**之後，OpenAI的ChatGPT開始失去優勢嗎？**簡而言之，對於很多人來説，Claude 3.5可能比GPT-4o更好。但是，GPT-4o的功能還沒有被激活，對吧？目前正在發生的有趣問題之一是，他們已經推遲了一些事情。我認為Claude有一些提升生活質量的差異，這使得它對很多人來説非常獨特，但它仍然比GPT-4功能更少。所以現在它們之間的競爭更加激烈。兩個月前，即使與Claude Opus相比，我幾乎總是建議你選擇GPT-4。現在我認為你必須根據你的用例來決定。

其他競爭對手呢？

有一大堆有趣的東西即將推出：有 [Meta] 的開源大型羊駝模型，還有一些有趣的模型即將問世，其中有些來自中國。但實際上，目前擁有前沿模型的是 Google、Anthropic 和 OpenAI。每次 OpenAI 受到挑戰，他們的系統都會逐漸改進，變得更好，擊敗其他模型。我會説目前並沒有明顯的優勢，但隨着即將推出的語音模式，情況可能會發生變化。隨着 GPT-5 的發佈，情況可能會在一夜之間發生變化。

**目前你首選的服務是 GPT-4o 還是 Claude？**這取決於情況。我正在為一本未命名雜誌寫一篇社論，我想，“你知道嗎？我已經把所有要素準備好了。我想讓 Claude 幫我寫第一稿。” 我把所有要點、第一段、最後一段以及我的博客文章中的片段粘貼進去。我説，“這是社論的限制條件，把它變成好東西。” 結果它做到了。**在發送給編輯之前，你需要編輯多少？**幾乎不需要。編輯認為這太棒了。我知道如何按照我的風格製作東西，對吧？我知道我必須把我的要素放進去，然後編輯一下，增加更多我的風格。

你是否必須向編輯透露這件事，還是直接交稿了？

這件事我並不需要透露。希望我現在不會惹麻煩，因為我在記錄上報告了這個。但事實是：寫書時你會學到很多人都有幕後撰稿人。我一生從未有過幕後撰稿人。我所有的文字都是我自己寫的。在這方面有什麼界限呢？

你在多大程度上依賴AI的基準？

基準在很多方面都存在問題。很多基準看起來很有權威，但它們都是基於選擇的。有些人在決定人們如何使用這些系統時做出了非常明確的決定，而這些決定大多是錯誤的，與真實生活中使用這些系統的人相比。結果是基準展示的東西與使用這些系統的真實體驗之間存在越來越大的差距。

你為什麼認為你有獨特的優勢來進行更全面的測試？

我一隻腳在學術界，一隻腳在實際世界的應用中，然後一隻手在教學中，另一隻手在做一些奇怪的事情。我認為這創造了一組有趣的聯繫。但重要的是，我認為玩耍的意願也很重要。

**有關AI的問題？**給我發郵件，Shirin Ghaffary，我會盡力回答您的問題，並在以後的新聞通訊中回答。

本週人類語錄

“所有關於科技公司CEO們如何在這些財報電話會議上只談論AI的笑話都是有道理的。這是因為AI實際上非常令人興奮，它將在多個時間範圍內改變所有這些不同的事情。”

馬克·扎克伯格

Meta CEO

Meta 報告稱銷售額超出預期，表明該公司在人工智能方面的投資正在幫助其銷售更多定向廣告。這一進展為扎克伯格贏得了更多時間，向投資者證明他對人工智能的大賭注是值得的。### 值得關注

蘋果即將推出的人工智能功能將比預期推遲，錯過了即將推出的iPhone和iPad軟件更新的首次發佈，但這給了公司更多時間來修復錯誤。彭博社的馬克·格爾曼（Mark Gurman）與埃德·拉德洛（Ed Ludlow）一起討論“彭博科技”。### 深度學習

AI初創公司Perplexity正在與《時代》、《財富》等出版商合作分享收入，此前曾面臨抄襲投訴
Instagram將允許用户創建定製聊天機器人用於其個人資料
OpenAI表示“致力於”安全，在致美國議員的一封信中表示
谷歌正在利用人工智能改進一項由失敗阻礙的昂貴醫療保健推動

基於氛圍的計算

本週人類語錄

更多來自彭博社