其實中國的大模型應該國家起頭弄，這樣有利於掌握數據安全，數據的權屬如何認定？_風聞

湖来人-05-26 09:12

2023-05-26

【本文來自《肖仰華：國內大模型真正的短板並非數據和算力，而在"煉製"工藝》評論區，標題為小編添加】

其實中國的大模型應該國家起頭弄，這樣有利於掌握數據安全，數據的權屬如何認定？僅僅屬於開發企業嗎？我認為並非如此，個人用户在付費使用過程中，其實也為數據提供了養分，這一部分是公共權益，理應由國家掌控。人工智能搞了十幾年了，那些基本原理算法其實沒區別，越早投入應用，模型進化得越快，實用可以提供海量的數據，可以參看美劇西部世界，遊戲玩家的特徵數據才是核心。

國家搞基本建設，只需要提供接口給各大平台企業。也可以避免資源浪費，算力浪費，大模型屬於贏家全拿的模式，越多的用户，你的模型就會越精準，其他的訓練量少的模型基本上都會被淘汰成為無效投入。

另外我觀察百度的模型估計搞歪了，比如大家遇到的輸入法尷尬的煩惱，很多時候同音詞，百度輸入法，qq輸入法其實應該都應用了智能輸入的技術，但是很多時候優先蹦出來的是錯別字，日常用語中有些故意的錯別字要看語境的，詞頻調整，最先出現的應該是正確那個，用户自造的可以排第二以後。別字詞儘量不支持快速拼音輸入。

其實模型梯度算法，加損失函數，有個缺陷，已知未知的都用同一個算法，就是太耗算力，對於模糊應用這個算法很好，但是對於人類已知的，確定性的規律和習俗就沒必要了，用雙向指針應該效率更高，大模型最優解是兩者結合。新創的知識和存量來比總歸是少很多的，新創的東西機器理解就很需要時間和算力。總之我不是研究這方面的，個人愚見。