其實中國的大模型應該國家起頭弄,這樣有利於掌握數據安全,數據的權屬如何認定?_風聞
湖来人-05-26 09:12
【本文來自《肖仰華:國內大模型真正的短板並非數據和算力,而在"煉製"工藝》評論區,標題為小編添加】
其實中國的大模型應該國家起頭弄,這樣有利於掌握數據安全,數據的權屬如何認定?僅僅屬於開發企業嗎?我認為並非如此,個人用户在付費使用過程中,其實也為數據提供了養分,這一部分是公共權益,理應由國家掌控。人工智能搞了十幾年了,那些基本原理算法其實沒區別,越早投入應用,模型進化得越快,實用可以提供海量的數據,可以參看美劇西部世界,遊戲玩家的特徵數據才是核心。
國家搞基本建設,只需要提供接口給各大平台企業。也可以避免資源浪費,算力浪費,大模型屬於贏家全拿的模式,越多的用户,你的模型就會越精準,其他的訓練量少的模型基本上都會被淘汰成為無效投入。
另外我觀察百度的模型估計搞歪了,比如大家遇到的輸入法尷尬的煩惱,很多時候同音詞,百度輸入法,qq輸入法其實應該都應用了智能輸入的技術,但是很多時候優先蹦出來的是錯別字,日常用語中有些故意的錯別字要看語境的,詞頻調整,最先出現的應該是正確那個,用户自造的可以排第二以後。別字詞儘量不支持快速拼音輸入。
其實模型梯度算法,加損失函數,有個缺陷,已知未知的都用同一個算法,就是太耗算力,對於模糊應用這個算法很好,但是對於人類已知的,確定性的規律和習俗就沒必要了,用雙向指針應該效率更高,大模型最優解是兩者結合。新創的知識和存量來比總歸是少很多的,新創的東西機器理解就很需要時間和算力。總之我不是研究這方面的,個人愚見。