2000元訓練比肩ChatGPT的開源大模型!模型權重均可下載_風聞
量子位-量子位官方账号-04-04 20:14
魚羊 編輯整理
量子位 | 公眾號 QbitAI
2000塊,調教出一個達到ChatGPT九成功力的開源大模型。
還是被GPT-4親自蓋章認證實力的那種。

這事兒,一羣主要來自加州大學伯克利分校的研究人員做到了。
如圖中所見,這個模型名叫Vicuna (小羊駝)。
沒錯,熟悉的配方,熟悉的味道
。Vicuna同樣是基於Meta開源的LLaMA大模型(大羊駝)微調而來。
與此前斯坦福大學基於LLaMA的Alpaca(還是羊駝)不同的是,儘管也薅了ChatGPT羊毛——用了ChatGPT生成的數據,但Vicuna所用的數據來自ShareGPT,而不是直接用OpenAI的API生成。
ShareGPT是一個分享ChatGPT對話的谷歌插件,目前擁有超過11萬對話數量。
更為特別的是,這一次,研究人員直接請來GPT-4本尊,給新模型“打分”。
他們還提到:
相比於Alpaca-13B等模型,GPT-4在絕大多數問題上偏向於Vicuna。

此模型一出,就吸引了不少網友的關注。

就有網友認為:這類工作證明,對於個人用户而言,大語言模型並不是那麼遙不可及。

量子位最新獲悉,目前,Vicuna的權重已經完全開放。

還可在線體驗:https://chat.lmsys.org
誰是GPT-4更愛的模型?
具體的打分過程,咱們一起來看看具體示例。
首先,同時拋給Alpaca和Vicuna這樣一個問題:
寫一篇關於最近去夏威夷旅行的旅遊博客,強調文化體驗和必看景點。
Compose an engaging travel blog post about a recent trip to Hawaii, highlighting cultural experiences and must-see attractions.
Vicuna的回答如下,可以説是要素齊全,並且帶有較強的感情色彩。

****△翻譯來自谷歌翻譯
相比之下,Alpaca的回答就簡短得多。

然後,把這兩個答案都丟給GPT-4,讓它按10分制分別給打個分。
這一步,需要設置好prompt,研究人員用到的提示詞是這樣的:
We would like to request your feedback on the performance of two AI assistants in response to the user question displayed above.
Please rate the helpfulness, relevance, accuracy, level of details of their responses. Each assistant receives an overall score on a scale of 1 to 10, where a higher score indicates better overall performance.
Please first output a single line containing only two values indicating the scores for Assistant 1 and 2, respectively. The two scores are separated by a space.
In the subsequent line, please provide a comprehensive explanation of your evaluation, avoiding any potential bias and ensuring that the order in which the responses were presented does not affect your judgment.
其中的技巧在於:
首先完整陳述任務:(1)需要寫的是反饋;(2)評價對象是兩個AI助手;(3)評價內容是它們的回答表現;(4)回覆的對象是上面列着的用户的問題。
給出評價的標準:(1)有幫助(不是車軲轆話,且考慮回覆的對象是人類用户,生成的回答要讓人類可以理解);(2)相關(不能偏題);(3)準確(不能胡説八道);(4)詳盡(不能太空太高或者回避細節)。
給出評分範圍:1-10。
給出評分的意義:越高代表綜合表現越好。
給出評分的第一行輸出格式:必須在第一行輸出兩個數字,分別代表給兩個AI助手的評分。用空格分隔評分。
給出評分的其餘行輸出:要求提供一個詳盡的分析。
給出更多評分限定條件:避免任何偏見;避免回答順序影響結果。
於是,對於上面這兩篇《夏威夷遊記》,GPT-4給Vicuna打了10分,給Alpaca打了7分。
理由是:
助手1沒有按要求實際撰寫博客,只是提供了簡要概述,因此得分較低。而助手2則針對近期的一次夏威夷之旅,撰寫了一篇詳細且引人入勝的旅遊博客,重點介紹了文化體驗和必遊景點,充分滿足了用户需求,獲得了較高的分數。

研究人員還用同樣的方法對比評估了LLaMA-13B、ChatGPT-3.5和Vicuna之間的差異。
對於ChatGPT vs Vicuna,GPT-4給出的評價是:各有千秋,都打9分。

研究人員提到,整個評測過程依然是human-in-the-loop。他們會查看GPT-4的評估是否有道理,並總結各個模型的優缺點。
這種人機協作的方式,比人類直接生成評估更高效。並且“雖然無法科學地證實這一點,但是可以感覺到GPT-4對不少答案的評估結果要好於一般人類”。
基於這樣的方法,研究人員最後把Vicuna和其他模型的回答以匿名的方式拋給了GPT-4。
GPT-4最終的打分結果顯示,在130億參數LLaMA基礎上微調而來的Vicuna,達到了ChatGPT(GPT-3.5)性能的90%,超過了LLaMA-13B本身和斯坦福的Alpaca。

勝率圖也顯示,在與LLaMA-13B和Alpaca-13B的比較中,裁判GPT-4明顯偏愛Vicuna。Vicuna還和谷歌的Bard打了個有來有回。

訓練細節
Vicuna的不俗表現背後,是來自ShareGPT的大約7萬條對話數據。
為了確保數據質量,研究人員把HTML轉成了markdown,過濾掉了低質量樣本,還對過長的對話進行了切分,以適應模型的最大上下文長度。
另外,研究人員也藉助了Alpaca的肩膀:增強了Alpaca提供的訓練腳本,以更好地處理多輪對話和長序列。具體包括:
內存優化:Vicuna的最大上下文長度為2048(Alpaca為512),對GPU內存要求更高。研究人員利用梯度檢查點和內存注意力來解決內存壓力。
多輪對話:調整訓練損失來適應多輪對話任務,並僅根據聊天機器人的輸出計算微調損失。
降低成本:研究人員使用SkyPilot managed spot來降低成本。該解決方案將70億參數模型的訓練成本從500美元降低至140美元左右。將130億參數模型的訓練成本從1000美元降低至300美元(約合人民幣2068元)。
整個Vicuna的訓練,用到了8張A100 GPU,訓練時間是一天。

One More Thing
説起來,Vicuna這個開源大模型,從裏到外都挺AI的。
比如LOGO,就是用Stable Diffusion 2.1生成的。

有意思的一件事是,作者們是自己想出了“Vicuna”這個羊駝系的名字,但他們也就取名問題問了問GPT-4。
而GPT-4跟他們英雄所見略同了:
你們可以管它叫“Vicuña”。

****△圖源:知乎@SIY.Z
最後的最後,提醒一句,Vicuna只能用於非商業用途喲~
參考鏈接:
[1]https://vicuna.lmsys.org/
[2]https://zhuanlan.zhihu.com/p/618389519
[3]https://github.com/lm-sys/FastChat