試用谷歌的Gemini之後，我只想説GPT-4有點菜_風聞

知危-知危官方账号-12-07 21:18

2023-12-07

今天凌晨，在 AI 領域沉寂許久的谷歌，終於有了大動作，推出了最新的人工智能模型 Gemini（雙子座）。

這個被谷歌稱為規模最大、能力最強的人工智能模型，如果只看官方的演示視頻，那確實是殺手級別的強。

在視頻中，Gemini 不僅秒識別演示者畫的畫、放的視頻、做的魔術小把戲，而且整個過程中對答如流，各種語氣助詞熟練得飛起。

注：字幕為機翻，某些地方會稍有誤差，不影響理解。已經看過的朋友可以直接跳過。

這次發佈的 Gemini 其實是一個家族式大模型，分別是 Gemini Nano、Gemini Pro 和 Gemini Ultra，三種模型將應用於各種不同場景，能力依次增強，可以理解成 “ 移動版 ”、“ 家庭版 ”、“ 企業版 ”。

從官方放出的數據來看，雖然每個版本都有自己合適的環境，但不同版本間，性能還是有着明顯差異的。

Gemini Ultra 的能力很強，在各種常規測試裏都超越了 GPT-4：

甚至在 MMLU （大規模多任務語言理解）測試裏，Gemini Ultra 超過 GPT-4 還不夠，還超越了人類專家，成為了第一個在該方面超越人類的模型。

除了在常規能力上的全面超越 GPT-4，Gemini 最特殊的一點是，它是谷歌帶來的首個多模態大模型，也就是能不光能打字互動，也能進行語音、視頻、圖片的互動。

按照谷歌的説法，現有的所謂多模態大模型，都是單獨訓練了文本、視覺和音頻等模型，再把這幾個拼接起來。

這樣出來的“ 散裝 ”多模態大模型，在遇到圖片、文字、語音或者視頻同時出現時，只會分解出不同模塊各自回答，然後彙總各個部分的回答最後形成答案。

而 Gemini 從根上就是個多模態模型，然後又通過大量多模態數據訓練，它能夠一開始就同步理解多模態。

這就好比遇到一箇中日韓英混雜的旅遊團，以往都是找懂對應語言的導遊組成導遊團去帶隊。

而 Gemini 的做法是找了一個通曉中日韓英四門語言的導遊，一個人就能無縫安排所有遊客。

不過，**Gemini 也在網上招來不少質疑。**比如有人吐槽明明 90.0% 和 89.8% 就差了千分之二，結果圖裏看起來像是巨大提升。而且，很多人發現，谷歌用了不止一次這樣的 “ 春秋手法 ”。

比如，Gemini Ultra 和 GPT-4 使用的測試方法並不一樣，卻放在一起比：

如果換成同樣的標準，那他的得分是 83.7，還不如 GPT-4 的 86.4。

所以，**具體強不強，可能要實測才能給出中肯的答案。**Gemini 的 Pro 版本模型已經集成在谷歌的 Bard 裏了，下面我們就來實際試一試。

首先要説明的是，由於 Gemini 官方表示現在 Bard 搭載的 Gemini 僅支持英語，所以我們都會採用英語來測試，同時這次主打的是 “ 多模態 ”，所以我們主要測試多模態場景（文字+圖片）。

我們先給它發了一張長城的照片過去，它馬上給出了精準答案，甚至能説出是其中哪一段：

而 GPT-4 這邊，卻有點底氣不足，只給了個長城的答案，至於是哪段，它沒具體説，介紹的也不多。

隨後，我們又給了一張車的圖片，讓他們猜猜車，他們都給出了正確答案：雪佛蘭科爾維特。

不過，細節上還是搭載了 Gemini Pro 的 Bard 要稍稍細緻些，發動機的型號、馬力以及起步情況都寫出來了，我們查了下也都對的上，沒胡説八道。

而 GPT-4 這邊，只是簡單給出了答案，評價了一句性價比不錯：

隨後，我們又找了一些有隱含意義的表情包讓他們理解。

第一張是狗狗戴伊麗莎白圈的梗圖，他們給出的答案差不多。

Bard 的答案是：

GPT-4 的答案是：

隨後我們也又試了一張打工人都能 get 到的表情包：

Bard 不僅讀出了人們討厭週一的意思，還認出了這是 2012 年火的一隻網紅貓：

GPT-4 這邊，給出了簡潔的答案，意思也解讀出來了，屬於是旗鼓相當：

我們又從美國財政部的官網隨便找了張柱狀圖丟給它們，看看它們能讀出多少信息。

這塊兒，Bard 和 GPT-4 也是難分伯仲，給出的信息點大差不差，都準確讀出了美國會加大對低等基礎設施州的投資力度。

Bard 的答案：

GPT-4 的答案：

他們之間只是表述語序有一些差別，孰好孰壞可能要看個人喜好。

但，你要明白，Bard 是免費的，而 GPT-4 是收費的，免費版能跟收費版不相伯仲甚至偶爾表現更好，還是很香的。

最後，我們還拿出了 “ 大模型的噩夢 ”，也就是數學題，來對他們進行測試。

第一道是道初中難度的幾何題，讓它們求一下 ABO 的角度。

Bard 很簡單明瞭地判斷出了三角形 ABO 是等邊三角形，得到角 ABO 是 60° 的正確答案：

而 GPT-4 明顯是不會，給出了 45° 這樣的答案：

隨後，我們又給出了一個判斷哪些點是連續但不可微的題目：

同樣，也是 Bard 更強，給出了正確答案，選 C：

GPT-4 這邊，則是繼續敗北，説了一大堆，猜了一個答案 B ：

總的來講，結合能力強弱和付費與否，在 Gemini Pro 面前，GPT-4 顯得有點菜了。

而在幾天之後的 13 號，開發者和企業用户，也將直接可以調用 Gemini Pro 的 API 了。

另外，谷歌還準備把 Gemini 引入了 Pixel，Pixel 8 Pro 將是第一款運行 Gemini Nano 的智能手機。

在接下來的幾個月中，Gemini 還會相繼與谷歌的搜索、廣告、Chrome 等服務和產品結合。

至於紙面實力 “ 暴打 ” GPT-4 的 Gemini Ultra ，則還要等到明年的年初，在 Bard Advanced 才能體驗到。

但是，Pro 已經小勝 GPT-4 了，Ultra 版本多半還會更強。

谷歌的 AI 從遙遙領先，到淪為 OpenAI 追趕者的故事，一度成了科技圈的 “ 傷仲永 ”，被大家當成了典型。

現在，谷歌給出了強有力的回擊。

畢竟，不要忘了，當年奧特曼、馬斯克等人創辦 OpenAI 的目的之一，就是為了打破谷歌在 AI 領域的壟斷。

甚至，“ GPT ” 中的 “ T ”，也就是 Transformer，最早也是谷歌團隊提出來的。

祖師爺一發力，或許誰也招架不住，Open AI 的神壇，看起來也不一定穩固。