我已經用DeepSeek試着寫了不少東西,當輸出字數過多時,你要學會主動分段_風聞
天刚破晓-1小时前
【本文由“加東123”推薦,來自《Deepseek大模型推理算法其實很簡單》評論區,標題為小編添加】
leve
希望V4多用點真實數據訓練,r1的蒸餾量太大了,上下文嚴重依賴CoT。
-------------------------------------------------------------------------------------------------------
(字數太多,只能單開)
你先學會自己怎麼識別和使用AI吧……看你這説法,就是個外行
DeepSeek-R1, 不是什麼蒸餾版本,懂嗎?它是DeepSeek-V3的推理版本,與蒸餾無關。
DeepSeek-V3也好,DeepSeek-R1也好,其官方正式版本都不純在蒸餾一説。
你先搞清楚這個前提。
所謂蒸餾版本,是DeepSeek公司為了減少終端用户的部署門檻,主動發佈了幾個使用DeepSeek-R1作為教師模型,去蒸餾其它模型,而得到的小規模的蒸餾模型,主要是蒸餾了千問與llama的模型。
所謂蒸餾,就是用教師模型去訓練學生模型,將教師模型的一些能力傳遞給學生模型。所以,DeepSeek公司發佈的幾個蒸餾模型,並不是DeepSeek自己的模型,而是被蒸餾改造的千問模型與llama模型。
很多人,連這個事情都沒理解清楚。張嘴閉嘴就是蒸餾蒸餾,蒸了什麼他們完全不懂。
蒸餾模型的目的是為了進行賦能,並得到相對較小的模型,比如DeepSeek公司發佈的那幾個千問和llama的蒸餾模型,都很小,最小的7B,最大的也就70B
7B就是70億參數;70B就是700億參數。DeepSeek-R1的官方完整版是671B,也就是6710億參數。參數差距一目瞭然;其使用效果也是大相徑庭的,參數越多越聰明,越少越笨,甚至智賬。
我已經在本地部署了一些蒸餾小模型,只能説,玩玩還行,當真用還是算了吧。還是繼續用官方的完整版吧,現在硅基流動上已經開放了昇騰平台上的DeepSeek-R1滿血完整版,使用其開放的API KEY,可以很方便的在本機調用DeepSeek-R1的完整版功能。
由於硅基流動的華為平台相對比較安全,不像DeepSeek官網那樣每天被鬼子們圍攻,所以穩定性和響應速度明顯好的多。本人親測之後,其算力與官服幾乎沒有差別,也就是説,昇騰平台跑671B參數的全血版,實際推理能力絲毫不遜色於官服的英偉達算力平台。
只不過這兩天隨着DeepSeek爆火,響應速度也在眼看着下降,但還是比官服強很多。
希望硅基流動加大投入,擴服擴容啊~~~~
説到上下文問題,你得會用。使用容器類軟件加載模型後,要設定相應的模型温度與上下文參數,如果你要讓他寫小説,那就把上下文調成最大。另外,你要學會給模型做預設,根據你的需求,對其進行能力與身份描述,描述的越精準,它就越接近你想要的“樣子”。DeepSeek-R1可以經過你的設置,變成你心目中的那位,或者睿智,或者幽默,或者既幽默又睿智,當然,你也可以讓它撒嬌賣萌,都可以。
很多人不惜工本,在本地部署DeepSeek,其實不是為了快,是為了“破限”,就是讓本地模型不受在線模型的限制,變成一個可甜可鹽的角色……當然,這就是個人口味了。
我已經用DeepSeek試着寫了不少東西,當輸出字數過多時,你要學會主動分段,一次次輸出。總之它就是個工具,你得會用。不會用,也不學習,罵工具不靈的人,隨處可見,但這有啥意義呢?意義就是證明他追不上技術腳步唄。