小扎今天搞了個大新聞，想把大模型變成下一個“安卓”_風聞

差评-差评官方账号-07-20 07:52

2023-07-20

本文原創於微信公眾號：差評作者：差評君

距離 OpenAI 上次説考慮開源 GPT-3，已經過去兩個多月了。

結果，GPT-3 開源的影子一點兒沒瞅着，反倒是一直熱衷於開源的 Meta 又帶着他們家的羊駝模型來上大分了，發佈了一個進階版的 Llama 2。

説起這 Llama 羊駝模型，估計大夥兒之前也見識過了，一經問世，就在開源社區的各大榜單中刷屏。

也是從 LLaMA 開始，什麼斯坦福的 Alpaca、UCB 的 Vicuna。。。各種基於 LLaMA 的小模型一個接着一個地蹦出來。

別看這些二創的模型參數量小，和千億參數的 GPT 模型比起來，效果其實也還不錯。

前段時間網上不是發了一個大模型的排名嘛，第四名的 Vicuna 可沒比 GPT-3.5 遜色多少。

而這次的 Llama 2，又來了波升級。

相比上一代 Llama，Llama 2 增加了 40% 預訓練數據，Token 數翻了差不多一倍到2T，模型的參數量也擴展到了 700 億。

在長文本的支持能力上，訓練文本的窗口也從之前的 2048 擴展到 4096 。而且還發布了一個微調之後的 Llama 2-Chat 模型，專門針對應用場景的優化。

也可以這麼理解，升級過後的 Llama 2 初始屬性更強了，升級更快了，等級上限也更高了。

不過，這些還都只是小菜。

Llama 2 最大的亮點，就是開源、免費、可商用，而且還支持在高通的芯片上運行。

這跟上一代 Llama 源代碼泄露的“被開源”可不太一樣，之前即使允許二創，也只是停留在研究領域。

可以免費商用，就相當於拿到了 Meta 準用許可的“免死金牌”，你拿去幹啥都不用擔心回頭被告侵權。

當然了，這許可也是有點限制的，要是產品的日活超過 7 億，那就還得去申請一下。

而在高通的芯片上運行，也一反過去大模型受制於英偉達芯片的常態。

看來，Llama 2 這次，大有要一舉打破 OpenAI 和英偉達封鎖的意思啊。

所以消息一出，很快就在網上引起了一波轟動。

有不明覺厲的吃瓜羣眾跟風誇讚的，還有人馬上用 Llama 2 做了個應用程序出來。

甚至於，Meta 的首席 AI 科學家 Yann LeCun 楊立昆也在推特上為 Llama 2 站台，説它將會“徹底改變大語言模型的行業格局”。

Llama 2 這次的升級當真就有這麼厲害嗎？

本着求證的態度，差評君聯繫到了在學術圈和開源社區，都頗具影響力的智源 AI 研究院，得到的答案是：這次 Llama 2 的升級，其實並不是重點，開源可商用才是。

而與開源的羊駝模型形成對比的 GPT，就因為閉源（不開放源代碼）而備受吐槽。

當然，關於這開源和閉源的爭論，其實從 PC 時代就已經開始了。

當年的開放源碼運動裏，就誕生出了大家熟知的 Linux 系統。

因為開源之後，大夥們都能上手魔改代碼、移植應用等等，基於 Linux 的開源生態也扎着根長出了枝葉。

而如今的路由器、交換機、智能洗衣機、智能電飯煲、交換機、服務器等等設備上，幾乎搭載了各類 Linux 系統。

包括幾年前的美國火星車登錄成功，還把 Linux 帶上了火星。

而開源，也逐漸演變成為了一種“開放共享”的精神。

如果沒有開源，紅帽、ubuntu 等桌面操作系統很大概率就不會出現，安卓也不會拿下如今智能手機近三分之二的市場份額。

歷史總是驚人的相似，現在開源與閉源的戰火很明顯已經蔓延到AI領域。

有意思的是，一直被詬病不太“ Open ”的 Open AI，其實在 GPT-3 之前，一直都是開源的，GPT-2 的代碼、框架還有論文都開放得很徹底。

但到了 GPT-3，就只能看論文了。

也難怪馬斯克當年執意要退出 OpenAI，因為它們完全違背了當初要成立一家開源非營利組織的初衷。

但即使頂着外部輿論壓力，GPT-3 和 GPT-4 仍然雷打不動的堅持閉源。

至於原因，根據 OpenAI 官方的説法，是出於“安全”的考慮。

這也合理，作為目前最牛叉的大模型，GPT-4 要是真落入了壞人的手裏，的確很麻煩。

但差評君覺着，還有一個原因是，OpenAI 不想放棄現有的技術優勢。

畢竟 GPT-4 跟前輩們相比，無論是在參數量還是性能上都有了大規模的提升，Open AI 不想讓自己的心血白給也可以理解。

説白了，閉源更像是一種商業行為。

但有一説一，閉源的王座並不會一直牢固。

因為從第一代 Llama 開始，大模型開源的這把火就已經被點燃了。開源模型的隊伍日漸壯大，AMD 也宣佈要在明年開源 OLMo 大語言模型。

隨着更多模型源代碼的開放，將會有越來越多的人蔘與到模型的迭代升級當中，為開源的生態添磚加瓦。而技術壁壘在這個過程中，也會被慢慢拉平。

而作為打響了羊駝模型開源第一槍的 Meta，也一直在暗戳戳地往裏添柴。

當初，為了請 AI 大拿楊立昆出山，扎克伯格可謂是煞費苦心，不僅答應了他諸多苛刻的要求，而且還立下了研究成果必須開源的規矩。

從 2015 年把 CNN 卷積神級網絡用到 GAN 上，提出了 DCGAN，到開源基於 Python 的深度學習框架 PyTorch，再到如今全網刷屏的 Llama。

這麼多年了，小扎承諾過的“開放”似乎從來就沒變過。

包括 Llama 之後，Meta 又陸續推出了一系列多模態大模型，像什麼Imagebind、MusicGen，都是開源的。

而且，對於 OpenAI 口中，出於安全考慮的閉源理由，楊立昆也是不太認同的。

在他看來，使人工智能平台安全、良善、實用的唯一方法就是開源。

換句話説，技術掌握在少數人的手裏是危險的，只有讓監管 AI 的力量也同時進化，才能儘可能地管住 AI。

這在目前看來，暫時只有開源能辦到。

而小扎這步棋，又或者説，當年楊立昆堅持開源埋下的種子，或許很快就能看到收穫。

比如在定製化的大模型****上，開源會跑得比閉源更快。

不可否認的是，OpenAI 大模型的能力的確很能打，但 OpenAI 的團隊到底能不能根據具體的行業和應用場景去做適配，還需要打個問號。

打個比方，一家服裝廠要用 GPT-4 來優化貨物的調度流程，廠裏原材料的運送、存儲，成品的質量檢測，裏邊兒涉及到太多的行業 Know-How，如果不是由企業自家的開發者來操作，OpenAI 最終交付出來的效果不一定能滿足企業的業務需求。

畢竟，咱也不能指望一個搞 AI 的公司，突然就懂服裝了。。。

就算咱拋開質量不談，算力成本一攤下來，中小企業也很難吃得消。更何況，有些企業的數據涉及商業機密，全都交由 OpenAI ，老闆估計也不放心。

但開源的優勢就在於，開發者可以在源代碼的基礎上，根據業務需求對模型進行微調。

和從頭訓練大模型相比，在開源的基礎上，運用 LORA 這類低成本的微調方法去構建一個適配下游任務的模型，顯然後者的性價比更高。

當開源大模型滲透到越來越多的行業以後，開發者反饋的業務需求越多，模型迭代的速度也會越快。

先佔領市場，再用量變來催化質變。

當然了，無論是開源，還是閉源，其實都沒有絕對的對錯之分。

OpenAI、谷歌之流堅持閉源也無可厚非。

畢竟幾十億美元砸出來的優勢擺在那，在模型層級、Token 長度、推理等等能力上，還是領先現在的開源模型不少。

但開源大模型現在勢頭正猛，搶先一步實現商業化也不無可能。

就像不久前 Altman 説的那樣，AI 之後會分化，開源負責商業化落地，而閉源則負責研究超級智能。

所以差評君大膽猜測，AI 大模型的行業格局，或許會是一兩家頭部閉源，其他開源模型建立起社區生態的局面。

而在開源推動下的商業化落地，也可能會很快地重塑生活的方方面面，説不定哪天你家的掃地機器人就能幫你遛狗了。

差評君還是很期待，在開源的加持下，AI 究竟能給我們的生活帶來什麼樣的變化。

圖片、資料來源：

Meta AI、推特、WAIC

智源社區，當今開源大語言模型一覽，每個AI 實踐者都應該瞭解

We have no moat，and neither does OpenAI

遠川科技評論，差一步稱霸AI：歷史進程中的扎克伯格