陳根:漢語大模型,究竟有多難?_風聞
根新未来-08-01 10:58
文/陳根
牛津大學最近進行的一項研究表明,從諸多語言模型的計費方式看,英語的輸入和輸出比其他語言的輸入和輸出要便宜得多。例如,西班牙語的成本約為英語的1.5倍,簡體中文的價格約為2倍以上,緬甸撣語在15倍以上。
成本的差異也間接導致英語使用者和世界其他語言使用者之間形成AI鴻溝。
成本差異主要是因數據標記化所帶來的。標記化就是將訓練文本分解成更小的單元,這個更小的單元就是標記(Token)。這是一個人工智能(AI)公司將用户輸入轉換為計算成本的過程。
研究顯示,使用英語以外的語言訪問和訓練模型的成本都更高。例如中文,無論是在語法上還是在字符數量上,都有更復雜的結構,從而導致更高的標記化(Token)率。

漢語訓練大語言模型不僅成本更高,並且難度更大,這其中的原因就在於漢語的詞性、語法都比英文更為複雜。
因此,目前談論漢語大模型訓練成本的企業,基本上都只是一種自我假象。並且所謂的一些測試,更多的只是基於特定數據庫的檢索問答,跟真正的機器具備自我生成式能力還存在比較大的差異。
當然,這也是目前我們所看到的,各種發佈會都很領先,但是至今沒有可以公開使用的大模型。偶爾有個別公司上線了手機端的APP應用,也基本上沒有真正的用户使用,更多的是一種面向資本市場的營銷行為。
因為這些應用背後的技術,從真正能夠提供、賦能、解決工作的層面來看,基本上沒有實質性的價值,更多的只是提供給一些用户嘗先使用。
當然,一些企業更多的則是藉助於國際上已經開源的一些大模型,然後進行換臉。不過這些包裝應用,由於還沒有受到市場關注,也沒有什麼實質性的用户,因此監管部門還沒有介入。
從嚴格意義上來説,不論是套殼,還是自我研發的大模型,目前沒有一個大模型是具備在正常講話的前提下,並且能夠正確的講話。