3w+星標項目大佬創業：樹莓派即可運行大模型，已獲GitHub前CEO投資_風聞

量子位-量子位官方账号-06-25 14:32

2023-06-25

楊淨發自凹非寺

量子位 | 公眾號 QbitAI

資深開發大佬，終於忍不住自己出來創業了。

Georgi Gerganov，今年三月曾開源了llama.cpp項目，GitHub上已破三萬星標，要知道Stable Diffusion也不過8.8k。

這個項目能讓開發者在沒有GPU情況下運行Meta的LLaMA模型，即便是在樹莓派、MacBook上運行大模型也通通不在話下~

**△**在 M2 Max 上以 40 tok/s 的速度運行 7B LLaMA

甚至還成功吸引了小扎的注意：Meta也在運行llama.cpp。

可能由於反響太好，這位大哥決定把背後核心純C語言框架ggml拿出來創業：原本是幾月前的副業項目。

在官宣前這家公司就已經獲得來自GitHub前CEONat Friedman、Y Combinator合夥人Daniel Gross的種子前投資。

消息一出，眾多開發者趕來祝賀。

其中不乏一些堅定的擁護者：ggml正在將大模型普及到邊緣設備。

沒過多久就有人建議：蘋果應該將它收購了。（狗頭）

llama.cpp作者創業

ggml，是一個純C語言編寫的張量庫，可幫助開發者在消費級硬件上運行大模型，GitHub星標數達到4.4k。

由於加速效果驚人，一下子收穫了不少開發者的支持。

By the way，ggml的gg恰好是他名字的縮寫。

大哥自己的兩個上萬星標的項目llama.cpp和whisper.cpp都使用了它。

後者是為OpenAI的Whisper自動語音識別模型開發的加速方案，可在Mac、Windows、Linux、iOS、安卓、樹莓派以及web上運行。

**△**使用whisper.cpp在樹莓派上檢測短語音命令

不少初創公司，比如主打生活搜索引擎的rewind都使用了這套解決方案。

還有兩個項目同時在終端上運行。

**△**在單個M1Pro上同時運行4個13B LLaMA+Whisper Small實例

根據個人介紹，ggml張量庫具有以下這些特點：

支持 16bit 浮點數；支持整數量化（包括 4 位、5 位、8 位）；自動微分；內置優化算法（例如 ADAM、L-BFGS）；為蘋果芯片設置特定優化；在 x86 架構上使用AVX / AVX2 Intrinsic；通過WebAssembly和WASM SIMD提供Web支持；無第三方依賴；運行時零內存分配；支持指導型語言輸出……

目前這個庫以及相關項目都是免費開源，開發過程也全公開；當然也不排除開發授權給一些商業用途的項目。

用C/C++重寫神經網絡代碼

而這背後的開發大佬Georgi Gerganov也值得説道説道。

他的個人網站十分簡單直接，甩出各種開源項目，除此之外別無其他。可以看出，他是C/C++的狂熱愛好者，信仰Vim。

此前，他曾用C/C++語言重寫神經網絡推理代碼，這樣幾乎不依賴於其他庫，以此提升效率。至於llama.cpp也是他一晚上Hacking出來的。

除此之外，他還有一些有意思的項目。

比如檢查鍵盤是否可以通過麥克風竊聽、猜Hacker News的標題，Wordle克隆版等等。

One More Thing

值得一提的是，背後的這兩個投資者也有點意思。

他們還專門給創業者提供算力集羣，只需在網站上申請即可。這波是在Next Level上了~

參考鏈接：

[1]https://ggerganov.com/

[2]http://ggml.ai/

[3]https://twitter.com/ggerganov