DeepSeek大火之後,人工智能的內容安全問題值得關注_風聞
明叔杂谈-明叔杂谈官方账号-杂谈,一家之言而已。8分钟前

(圖片攝於中國雪鄉)
1)在互聯網時代,各種內容浩如煙海,用户在尋找和使用相關內容時,需要一個“入口”。在大語言模型出現前,這個入口主要是搜索引擎。搜索引擎顯示的搜索結果的質量,決定了用户所能使用的相關網絡內容的質量。隨着DeepSeek這樣的大語言模型廣泛被應用,大語言模型的對話、問答界面,正在取代搜索引擎,成為用户尋找和使用網絡內容的第一個入口。
2)從這個意義上來説,大語言模型的對話、問答界面,正在成為“二十一世紀的大百科全書”,它起到了向全社會傳遞、普及最基礎知識的關鍵作用。正因如此,大語言模型輸出內容的準確性、權威性和質量,會對全社會產生重大和關鍵影響。
3)國產大語言模型中,除了最新的DeepSeek,還有豆包、通義千問、文心一言、kimi等;與此同時,還有越來越多的國產網絡軟件正在集成DeepSeek的能力。隨着這一趨勢加速,大語言模型的對話、問答界面,將加速成為用户獲取信息的主要渠道。
4)目前,大語言模型輸出內容的質量主要面臨兩大挑戰:第一,現有的大語言模型都無法避免所謂的“人工智能幻覺”,所有的大語言模型都可能“一本正經地胡説八道”,這是大語言模型乃至人工智能接下來發展要解決的一個關鍵技術問題;第二,每個大語言模型輸出信息的質量,跟這個大語言模型在訓練時所使用的輸入語料高度有關,因此,輸入語料的質量會直接影響大語言模型輸出內容的質量。
5)經過過去二三十年的發展,中文互聯網上出現了UGC(用户生成內容)非常繁榮的局面,無論是微信公眾號,還是微博、知乎、抖音、小紅書、豆瓣等,都有大量用户生成的內容。這些內容在豐富了中文互聯網內容生態、為用户提供了多樣化資訊的同時,也存在各種內容泥沙俱下、良莠不齊的問題,甚至還存在一些不良自媒體故意編造虛假信息、吃帶血的流量飯等問題。如果一個大語言模型在訓練中大量使用這些用户生成的內容且無法識別這些內容本身的準確性和質量,必然導致這個大語言模型輸出內容的質量同樣會泥沙俱下、良莠不齊。在越來越多的用户選擇直接信任和使用大語言模型輸出的內容的情況下,一旦不準確、似是而非的甚至是錯誤和有誤導性的信息通過大語言模型的對話、問答界面,成為全社會所能接觸到的基礎信息,將會對全社會的知識和信息傳播產生不利影響。
6)因此,所有的大語言模型在訓練時都要有一個清醒的認知——互聯網上的內容並非都是準確的、都是有效的,必須對大語言模型使用的語料進行內容質量上的把關、判斷和進行價值加權賦值。舉例來説,當用户搜索2024年中國外貿數據時,大語言模型應該優先推薦海關總局、商務部等國家權威部門的數據,而不是各種自媒體使用的數據。再比如,用户搜索美國自俄烏衝突爆發以來對烏克蘭提供了多少援助時,大語言模型應該優先使用人民日報、新華社、總枱等權威媒體機構的數據,而不是使用各種自媒體的數據。
7)大語言模型內容風險還體現在,一些大語言模型由於不提供模型的思考和推理過程,只提供結果,因此,整個過程處在一種“黑盒”狀態,用户並不知道大語言模型使用了哪些語料、搜索了哪些網頁,是怎麼得出相關結論的。部分大語言模型會列出所有使用的網頁,但是,很明顯,其中包括大量自媒體網頁。由於自媒體內容泥沙俱下的特性,必然會導致大語言模型輸出的內容會受到這些自媒體內容的影響,從而出現不準確甚至是存在誤導性的情況。
8)用户在使用搜索引擎時,雖然獲取信息的效率相比大語言模型有所降低,但可以清楚地看到每一個網頁的來源和歸屬,從而在一定程度上判斷這個網頁的內容質量。但是,一些大語言模型雖然也會通過“註解”的方式提供原始網頁的鏈接,但相關提示不夠清楚、不夠簡潔,用户還需要進一步操作才能判斷原始網頁是否權威。因此,大語言模型可以用更加簡單、有效的方式,提示所使用的原始網頁名稱、性質和來源等,從而幫助用户判斷大語言模型輸出的內容是否準確、是否權威。
9)對於廣大用户來説,一定要對大語言模型輸出的內容保持必要的“警惕心”。我們要時刻記住,大模型輸出的內容僅供參考,它可能存在不準確甚至是錯誤的地方,千萬不能想當然地把大模型輸出的內容視為權威、準確、有效的內容,直接加以使用。古人講,“盡信書不如無書”。在互聯網時代,自媒體的內容不可全信,網上的各種內容都應該核實,大模型輸出的內容同樣不可以全信、盡信,否則,就可能被網絡誤導,被人工智能誤導。
10)整體來説,大語言模型會越來越發揮“大百科全書”的作用,就像我們要高度重視大百科全書的內容質量一樣,我們應該高度重視大語言模型輸出內容的質量:
——所有人都應該形成一種對大語言模型輸出內容的基本判斷和常識,認識到它們在現階段只能起到參考和輔助作用,並不能完全代替大百科全書、政府部門和權威媒體提供的信息。我們更要從一開始就清楚,大語言模型輸出的內容可能是不準確的、可能是錯誤的、可能是存在誤導性的,必須加以核實才能使用;
——大語言模型的開發者在訓練模型時要甄別和判斷自己所使用語料的質量,要優先使用大百科全書、政府部門、權威媒體和權威機構的信息,對自媒體信息要降低使用比例和權重;
——大語言模型的開發者在輸出社會公共基礎知識時,必要時可引入權威機構和權威專家對輸出內容進行人工抽檢、核查和驗證,不斷改進這些基礎知識的準確性;
——大語言模型要進一步完善輸出內容的質量反饋機制,引入用户的力量,修正大語言模型輸出內容可能存在的安全問題;
——在監管層面,在支持人工智能產業發展的同時,可以更加關注大語言模型的內容安全問題,確保人工智能的發展始終保持正確的方向、始終為全社會創造有益的增量價值。
一家之言,僅供參考。