日本網友對安倍政府的情緒,到底有多“好”?_風聞
蒋旭栋-上海国际问题研究院博士后2018-10-10 11:32
本文嘗試通過自然語言處理對雅虎日本論壇“Textream”內兩個帖子中的4643條與14624條評論,進行描述統計。
(一)引言
若論近期日本政壇熱點,定提及安倍成功連任。然就其連任而言,本就無甚懸念。日本政治精英照着編排好的劇本來演,底下吃瓜羣眾看看熱鬧,聽聽媒體“吹拉彈唱”“讀讀旁白”,好不熱鬧。
一出政治喜劇的過後,留下的是政治強人的足跡,彰顯的是世家政治的強悍,也許背後還有美國“總導演”的暗暗鼓掌。安倍的政治力量,不僅源於自身之堅持,亦源自美日兩國政治精英的共同扶植。安倍連任所帶來的政治隱喻不單純是一黨一派之絕對強勢,亦有安倍對美國所做之承諾“Japan is back”所言非虛。
客觀而言,無論是安倍外交學、安倍經濟學,都有一定成效。日本的外交局面在其任內確有“俯瞰地球儀”之架勢,日本的經濟頹勢亦有止跌回升之勢頭,兩者相交,諸相呼應,對外贏得美國讚揚,對內取得國內財團之認可。
視線轉向另一邊,在安倍的所作所為中恰恰看不到普通民眾的身影。對於日本的普通民眾而言,閒暇時在網絡上發發牢騷,宣泄不滿;翌日清晨,洗漱完畢,伸伸懶腰,接着上班。日復一日,年復一年。日本上層建築之變化,對底層民眾來説無非就是“年年歲歲花相似,歲歲年年人不同。”
在日本最大的門户網站“雅虎日本”的論壇“Textream”上,早在2014年12月20日就發起了一則名為“第3屆安倍內閣”的帖子。而日本自民黨決定將“連任2屆共6年”的總裁任期上限延長至“連任3屆共9年”還要在兩年後的2016年。
這則具有預言價值的“帖子”,也許在當時僅是戲虐,但在今天卻是現實。因此,筆者饒有興趣地翻看一番,並對其作為樣本採集。看看,日本的網友到底是怎麼看待安倍第三次連任的?
通過基礎的文本閲讀可做質性分析的判斷,即日本網友在網絡上對安倍政府多有不滿。然而,做好壞之判斷容易,但具體“好”“壞”到什麼程度?卻難判斷。故而,筆者引入“情感分析”,嘗試對日本網友的“情緒”進行度量。
(二)案例一:對帖子“第三屆安倍內閣”的分析
首先,筆者採集了自2017年9月1日~2018年9月30日間的數據,合計評論數:4643條。
之所以選擇這一區間:一是因為日期較為規整,二是因為採集過早的數據其現實意義並不強。就日本國內政治而言,安倍連任之心雖是“路人皆知”,但直至2017年才愈發凸顯其現實意義。這也是為何會在2017年才接連爆出“森友”、“加計”醜聞,意在為安倍連任製造困難。當然,現在看來醜聞亦未動搖安倍的根基。
其次,筆者利用日本工業大學高村大也團隊所制的《日語單詞情感極性對照表》為基礎,匹配每一條網友評論中的“情感詞”並取平均數得出“情感值”。
高村團隊所作的《日語情感詞表》,主要標註了日語的情感極性。情緒極性是一種二元屬性,表示該詞是否具有積極意象(正面)或消極意象(負面)。該《詞表》中的詞語取自《巖波日語詞典》,情感區間為-1到+1。越接近-1,情感越是負面(-1~0);反之,越接近+1,情感越接近正面(0~+1)。故本文的“情感值”簡寫為“PN值,positive&negative”)
最後,在數據預處理與可視化後,可知:

(圖一)
(1)從圖一中可看出日本網民評論的分佈區間,對安倍的評論基本都是負面(注:PN 為情感值,),都集中在(-0.6~-0.4)的區間內,中位數是-0.517205。
(2)在添加時間序列後,可得圖二,看出日本網民在一年的時間區間內對“第三屆安倍內閣”的評論情緒的變化。

(圖二)
(3)利用LDA主題模型取出關鍵詞。LDA(Latent Dirichlet Allocation)最初是由David Blei,Andrew Ng和Michael I. Jordan於2003年撰文提出。它的本質是一種概率論。LDA假設每一篇文章中都包含多個主題,而每個主題各對應一組詞彙。反過來,多種主題亦構成了整篇文章,而構成文章的詞彙則是基於一定概率相互排列。因而,可通過計算概率分佈,找出對應主題。
另一方面,由於網友評論難有單一見解,往往分屬不同主題,如森友加寄為代表的腐敗問題;如朝核危機為代表的安全問題;又如特朗普同安倍會談為代表的外交問題,各式各樣,難以窮盡。因此,本文采用無監督學習方法中的LDA模型,嘗試抽取5個主題。結果如下:

(表一)
從主題分析的結果可見,在日本的內部事務中,選舉、野黨、天皇、自衞隊等詞總是如影隨形的出現,是日本國內關注度頗高之話題。另一方面,在日本的外部事務中,朝鮮半島與中國仍是日本關注最高的地區,亦可窺得日本網民之“視界”。其中,凡是提及中美兩國,則往往與經濟問題聯繫在一起,由是可知日本經濟對中美依賴之深。
**(三)案例二:對帖子“安倍才是有資格擔任日本首相的人”的分析**
在筆者對案例一的分析完畢後,關注到同一論壇中有題為“安倍才是有資格擔任日本首相的人”這一帖子。
該帖自2013年發起,當前70萬條留言置於其下,旁觀者數倍之,是論壇中政經欄目下最活躍的帖子,故而筆者決定對該帖進行同樣的數據分析,測試這一看似命名“積極正面”的帖子,日本網友是否會在此處對安倍政府做積極的評價?
因而如法炮製上述步驟,但因該帖內數據量較大,故便於分析,僅取2018年9月1~30日,一個月內的數據,合計共14624條評論。可見該帖之活躍,僅一個月內的評論就已是“第三次安倍內閣”帖下評論數量的3倍之多。
在同樣利用“情感分析”測量後,如下圖所示:

(圖三)

(圖四)
(1)由上述兩圖可知,在“安倍是有資格擔任日本首相的人”這一看似積極正面的命名下,日本網友的評論依舊負面居多(主要集中在-0.6 ~ -0.4),這與”第三屆安倍內閣”相似(表二)。

(表二)
(2)如圖三、圖四所示,與案例一不同,在本案例中可以看到部分“情感值”頗為正面,甚至接近於+1。然而,細讀之,可發現積極正面的評論多是“諷刺”言語,如圖五所示:

(圖五)
(3)同樣利用LDA主題模型取出5個主題:

(表三)
其中,值得關注的是,第5組主題與“第三屆安倍內閣”帖下的第5組主題在關鍵詞上高度重合(表四),可窺得日本網友看待安倍內閣之共識。

(表四)
(四)研究方法的“缺陷”
出於對日本網友對安倍政權評價的具體程度的好奇,筆者嘗試對“雅虎日本”進行“情感分析”。然而,本次筆者所利用情感詞典取平均數的方法,進而獲得情感值的“情感分析”。但在實際運用中仍有缺陷,主要表現在:(1)當前所用方法無法判斷“諷刺”語言,如(圖五)所示。(2)當前所用方法僅能根據情感詞彙賦值,難以結合特定“場景”做判斷,如案例二中的2018年9月27日的一條評論,情感值為(-0.428192)(圖六),粗看起來頗為“中性”,但展開細讀之,可知並非如此。
(圖六)
筆者將上述評論中省略部分展開並翻譯如下:
【在左翼人士的看來,安倍連任是“保守派沒有做好的判斷”,而保守派則認為左翼沒有腦子。就像有的分析師説股票年底會漲,也有人會説下跌,但最終是漲是跌只有天知道。左派最大的缺點只相信有利於他們的信息,而忽略對他們不利的消息。最糟糕的是,左派總是説他們的意見和你所要的東西一樣。由於左派不斷重複説這些內容,就像他們總説‘打工的人要和公務員拿一樣的工資’這類傻話,致使其信譽大打折扣。他們就像是羣只會做減法的瘟神一樣。】
原文中的評論其實是在批判日本左翼而實際褒揚保守派。它的真實意思是贊同安倍連任,故而應當屬積極評價,但在機器的眼中卻是負面的。故而説明筆者所用之算法,僅能對原文中的詞彙的情感進行賦值,而無法判斷特定之“場景”。此為該算法的一大缺憾。日後,仍需嘗試不同的機器學習的算法加以克服與改進。
(3)對於LDA主題模型的利用,實際在調參後的表現高於筆者預期。但不可忽視LDA對短文本分析的固有缺陷,仍需日後改進。
(4)兩個案例的時空差異,僅作測試用。