ChatGPT還是Google Bard更好?這很複雜 - 彭博社
Austin Carr
谷歌巴德。
攝影師:Gabby Jones/Bloomberg谷歌和OpenAI之間為爭奪人工智能霸權的戰鬥有點令人困惑。但首先…
今日你需要知道的三件事:
• 微軟與OpenAI的交易 引起了美國和英國的調查• 一位蘋果產品設計 主管將離職• 巴爾德之門3 被評為“年度遊戲”
你的星座是什麼?
谷歌推出了一個名為 Gemini 的新人工智能模型,併為了向世界證明它比ChatGPT使用的模型更好,該公司採用了最無聊的方式:一張成績單。
在一篇由首席執行官桑達爾·皮查伊共同撰寫的公司博客文章中,谷歌聲稱Gemini在32個學術基準測試中有30項超越OpenAI Inc.的GPT-4,包括數學、閲讀、編碼和推理測試。Gemini肯定比谷歌今年初的水平要好得多,但這些吹噓似乎有點不太自信,特別是在許多測試中,谷歌只領先OpenAI的模型幾個百分點或更少。
有人真的會因為谷歌在代數技能評估中得分高出0.3%而從ChatGPT轉到Bard嗎?
由於有這麼多人工智能產品試圖區分自己,所以比較的要點幾乎是毫無意義的抽象概念。像百度和Meta Platforms這樣的科技巨頭指出他們的大型語言模型擁有數十億甚至數萬億的參數。初創公司吹噓他們的系統已經吸收了數百萬條內容。對於超級計算機運營商來説,重點是他們已經串聯了數以萬計的人工智能芯片。
甚至該領域的專家也對這類評估持謹慎態度。OpenAI研究員Rowan Zellers曾幫助開發了一個名為HellaSwag的常識任務測試,在Gemini發佈後在社交網絡X上發帖説他對“這些天所有LLM論文都報告的十幾個文本基準測試有多可信”沒有“很好的概念”。
比這些測試成績更重要的是Gemini在實際應用中的表現,用户迅速指出該系統仍然容易出錯,似乎並不比OpenAI的產品更好。谷歌自己也難以準確解釋Gemini的分數對公眾意味着什麼,稱該模型是其“最靈活”、“最有能力”和“最大”的。
不要緊,它有三個不同的版本——Ultra、Pro和Nano——甚至連谷歌的巴德都很難識別。當我問聊天機器人關於它的新Gemini型號時,它把我引向了名為Gemini Pro的各種產品,包括高光地板拋光劑、便攜式PA系統和壓花機。
過多的基準測試看起來有點像PC時代的規格戰爭。幾十年前,計算機製造商用與處理器速度和內存大小相關的古怪指標來推廣他們的硬件。蘋果公司被認為是將焦點轉向展示產品如何提升日常生活的新特性的先驅。當史蒂夫·喬布斯揭開第一代iPod時,它的存儲容量遠不及“口袋裏裝1000首歌”的承諾重要。
對於人工智能公司來説,問題在於,由於他們的軟件聲稱幾乎可以做任何事情,很難準確概括出什麼使得某個特定產品特別。埃隆·馬斯克推銷xAI的 Grok 作為一種反覺醒的替代方案,而 X公司CEO琳達·雅卡里諾稱其為 “終極忠誠”(不管那是什麼意思)。
谷歌最明顯的區別在於展示了巴德的 “多模態”功能,即你如何與機器進行文本輸入之外的互動。在一個例子中,巴德看到了一張叉路的圖像,有車道通向一隻鴨子或一隻熊的塗鴉。當問到叉路口的另一隻鴨子應該朝哪個方向走時,巴德正確猜到最安全的路徑是朝着它的同類。
但谷歌後來承認演示有些虛假,並基於未發佈的Gemini版本。當我在Bard上運行相同的測試時,它奇怪地建議鴨子應該沿着自行車向南100英里前往羅德島高速公路。另一方面,ChatGPT完美地完成了提示。
谷歌需要更加努力才能在這方面獲得及格分。
重要新聞
微軟的回答關於其與OpenAI的關係的監管調查是,它並不擁有該公司的股份。相反,它將獲得OpenAI幾乎一半的財務回報,這是為了適應這家初創非營利組織的非正統結構。監管機構可能不願意看到這種區別。
值得關注
觀看Bloomberg Technology的採訪,採訪對象是Crispr的共同發明者、2020年諾貝爾獎獲得者Jennifer Doudna。### 充分充電
亞馬遜正在尋求駁回美國監管機構的反壟斷訴訟。
微軟將把其視頻遊戲員工的臨時工轉換為工會化員工。
谷歌表示歐盟提議分拆其盈利豐厚的廣告技術部門是“有缺陷的”。
更多來自彭博社
獲取彭博科技週刊,直接發送至您的收件箱:
- 網絡安全簡報,涵蓋黑客和網絡間諜的陰影世界
- 遊戲動態,報道視頻遊戲行業
- 動力源,提供蘋果獨家新聞、消費者科技資訊等
- 銀幕時光,近距離關注好萊塢和硅谷的碰撞
- 聲音碎片,報道播客、音樂行業和音頻趨勢
- 問答AI,回答您關於人工智能的所有問題