這家初創公司正在嘗試測試人工智能模型的實際效果 - 彭博社

Shirin Ghaffary

2024-04-12

Langston Nashold 和 Rayan Krishnan

來源：Sedgwick McCray

一家新創企業正試圖解決科技行業的一個重要盲點：一個獨立的、標準化的測試來評估人工智能服務。但首先…

三件事值得知道：

• 美國司法部正在審查人工智能公司是否共享董事會成員• Adobe 正以每分鐘 3 美元的價格購買視頻來構建人工智能模型• 亞馬遜的首席執行官表示生成式人工智能繁榮將建立在 AWS 上

一個未解決的問題

幾乎每個月，科技公司發佈新的人工智能產品，聲稱其性能與市場領導者 OpenAI 的類似選項相匹敵甚至超越。但趕上 OpenAI 只是挑戰的一部分；另一部分是證明它。

數十億美元正在投資於人工智能公司，但行業仍然沒有獨立的、標準化的測試用於比較人工智能軟件的表現。OpenAI 的競爭對手 Anthropic 已經表示許多當前的評估在衡量人工智能模型的安全性和能力方面“有限”。而 Cohere 首席執行官 Aiden Gomez 甚至已經説過公開評估模型是一個“有缺陷”的系統。因此，人工智能公司通常設計自己的基準來展示他們的服務對代數、閲讀理解和 Python 編碼問題的回答情況。

Rayan Krishnan 和 Langston Nashold 正在努力尋找更好的解決方案。這兩位 23 歲的年輕人從斯坦福大學的碩士項目輟學，他們在那裏學習人工智能，與創始工程師 Rez Havaei 一起創立了 Vals.ai。這家初創公司與斯坦福的研究人員以及會計、法律和金融等特定領域的行業專家合作，建立了一箇中立的第三方審查系統，用於大型語言模型。該初創公司還使用學術和行業特定的數據集提出測試問題。在今年稍早時進行了小規模預覽後，Vals.ai 於週四推出，並宣佈已從 Pear VC 獲得了一筆未公開的前種子輪融資，此外還有 Sequoia 的一位偵察投資者參與。投資者的興趣反映了對無偏測試的需求，特別是隨着越來越多的公司在權衡是否將人工智能用於特定的工作場景。“我們實際上並不清楚這些模型是否可以在醫療保健領域的生產環境中使用，或者它們是否可以在法律領域使用，” Krishnan 説道。更讓事情變得更加複雜的是，大型語言模型是建立在如此多的在線數據之上，以至於它們可能事先遇到過基準問題和回答。這就像“在考試之前看答案一樣，”他説。一羣研究人員、行業分析師和人工智能影響者試圖拼湊不同的基準和非正式審查。一些學者，如沃頓商學院教授 Ethan Mollick，實質上已經成為了人工智能聊天機器人的新版本技術設備評論員。AI 初創公司 HuggingFace 也有受歡迎的“排行榜”，開發人員可以提交他們自己的模型進行評估。但是關於測試的最佳方式是什麼，或者最值得信賴的評估者是誰，行業並沒有達成共識。

尋找解決方案的賭注只會變得更高。一年前，OpenAI是無可爭議的領導者。現在，像Anthropic、Google和Cohere這樣的公司正在與之展開激烈競爭。人工智能公司也對技術提出了更大膽的聲明，值得外部審查。Meta表示，其下一個模型將具有先進的推理能力，而Anthropic表示其模型在某些測試中與人類一樣具有説服力。Krishnan的公司已經發現了人工智能模型可能存在的缺陷。在其第一份報告中，Vals.ai顯示領先模型在税務問題上存在困難，這是根據該初創公司僱傭的會計師的建議得出的。最具能力的模型OpenAI的GPT-4準確率為54.5%。谷歌的Gemini Pro只有31.3%的準確率。換句話説：還不要解僱你的會計師。“要將一個模型應用到特定領域或任務中仍有很多工作要做，”Krishnan説。“這些模型非常有能力。它們有點像去了一所好的文理學院的孩子。你不會指望他們為你報税，但他們已經準備好接受一點他們需要的培訓，然後成為税務專家。”Pear VC的合夥人Arash Afrakhteh表示，企業需要更多“細微差別”來了解特定人工智能模型“表現更好”還是“能以更低成本處理我需要的所有任務”。Vals.ai的數據還暗示了人工智能系統的表現可能會因行業而異。例如，Anthropic的Claude 3 Opus和OpenAI的GPT-4在法律推理任務上的準確率分別約為77%，遠高於在税務問題上的表現。Krishnan表示，法律界對該初創公司在最近的法律會議上展示一些早期發現後的初步測試結果“非常感興趣”。“人們認為這是一個尚未解決的問題，”Krishnan説。“他們對我們這樣的研究人員採取新方法感到興奮。”

**有關人工智能的問題？**給我發郵件，Shirin Ghaffary，我會盡力在未來的新聞簡報中回答您的問題。

山姆·奧特曼在哪裏？

OpenAI首席執行官山姆·奧特曼正在華盛頓與立法者和國家安全界人士會面，正如我與我的同事Ed Ludlow報道的那樣。奧特曼將討論美國及其盟國如何繼續在人工智能領域保持領先地位。

奧特曼訪問國會山是他作為人工智能行業頂級交易商和準外交官的世界之旅的最新一站。正如我們在週三報道的那樣，本週早些時候奧特曼曾在阿拉伯聯合酋長國會見投資者和官員，包括美國大使Martina Strong。據知情人士透露，奧特曼正在向各國工業界和政府提出一個全球聯盟的計劃，以建立開發人工智能所需基礎設施，包括芯片、數據中心容量和能源。從阿聯酋實體獲得外國投資可能會引起美國外國投資委員會的關注，該委員會越來越密切關注中東財富基金與中國的聯繫。我們將看看奧特曼是否能運用自己的嫺熟談判技巧達成交易。

本週人類語錄

“我們完全相信後果將是非凡的，可能會像過去幾百年來一些重大技術發明一樣具有變革性。”

傑米·戴蒙

摩根大通首席執行官

在他的年度股東信中，戴蒙將人工智能的影響比作蒸汽機和印刷機，並表示這項技術可以“增強幾乎每一個工作。” 摩根大通一直在測試人工智能應用，可以為銀行追蹤的每家公司生成收益摘要，並提供一個幫助台服務，提供確切的問題解決步驟。### 值得關注

歐盟委員會執行副主席瑪格麗特·維斯塔格討論人工智能市場和歐盟對科技巨頭的調查。彭博社### 深度學習

Meta 本週推出了一款新的人工智能芯片，以減少對英偉達的依賴
Meta還淡化了今年選舉中人工智能虛假信息的威脅
沙特阿拉伯和阿聯酋正在急於建設人工智能基礎設施，以爭奪成為該地區科技超級大國
活動人士正在向國會議員發送由槍支暴力受害者生成的語音郵件

彭博社更多內容

**彭博科技峯會：**Q&AI 即將直播！下個月加入我在舊金山舉辦的彭博科技峯會，我們將採訪人工智能行業的兩位重要人物。OpenAI 首席運營官 Brad Lightcap 將與我一同登台，談論科技領域最熱門公司背後的業務，而 Hugging Face CEO Clém Delangue 將與我討論開源與閉源之爭，等等。你還有機會向他們提出你心中的人工智能問題！Q&AI 的訂閲者可享受 30% 的門票折扣這裏。到時見！

每日科技資訊以及更多彭博科技週刊將發送至您的收件箱：

網絡安全簡報涵蓋黑客和網絡間諜的陰影世界
遊戲動態報道視頻遊戲行業
電源動態蘋果獨家新聞、消費者科技資訊等
銀幕時光報道好萊塢和硅谷的碰撞
聲音碎片報道播客、音樂行業和音頻趨勢