神經網絡到張量網絡的“變身”_風聞

返朴-返朴官方账号-关注返朴（ID：fanpu2019）,阅读更多！1小时前

2024-11-17

神經網絡是完成機器學習任務的基本模型，其中一類重要的神經網絡是玻爾茲曼學習機。它和它的變體是在上世紀八十年代被提出來的，但是經過三十多年的研究，這些模型在表達能力的理解、配分函數的計算和訓練深層模型的高效算法等方面仍然發展不完善。近些年，一些物理學家開始用與神經網絡具有相似性的張量網絡來進行研究，並得到一些有趣的結果。接下來，我們會從玻爾茲曼學習機出發，嘗試向讀者展示神經網絡的二維張量網絡表示。當神經網絡“變身”為張量網絡之後，我們也會隨之獲得對上述問題的新的理解。

撰文 | 李素潔（理論物理所2018級在讀博士）

1984年，Hinton和Sejnowski等人提出了變量概率分佈滿足玻爾茲曼分佈的學習機，即玻爾茲曼學習機[1]，它可以用來擬合高維數據的聯合概率分佈，並從該分佈中採集新的樣本。這個神經網絡包含可見變量和隱藏變量兩種變量，可見變量會出現在最終的結果中，而隱藏變量作為內部變量，會被求和掉。在玻爾茲曼學習機中，相互作用可以存在於任意類型的變量之間，沒有任何限制，但是這種複雜的相互作用形式使得模型的求解變得困難。隨後，人們發展出了它的變體受限玻爾茲曼學習機 (restricted Boltzmann machine, RBM) [2]，將相互作用限制在了隱變量與可見變量之間。如圖 1(a)所示，它是一個兩層的神經網絡，其中一層紅色圓圈代表可見變量，另一層藍色圓圈代表隱變量，變量之間的連接表示存在的相互作用。兩層神經網絡一般是無法滿足實際應用需求的，為了增強模型的表達能力，人們進一步將RBM拓展到具有更多層隱變量的神經網絡——深度玻爾茲曼學習機 (deep Boltzmann machine, DBM) 。圖 3(a)是具有兩層隱變量DBM的圖表示。

圖 1: RBM轉化為二維張量網絡結構的過程 [3]，其中紅色代表可見變量，藍色代表隱變量。

表達能力是刻畫神經網絡模型性能的重要指標之一。在實際應用中，我們總是希望模型具有更強的表達能力來更好地完成數據分佈的擬合或者量子態的表示等任務。對玻爾茲曼學習機的表達能力的理論研究可以追溯到2008年，在參考文獻[4]中，作者證明了含有足夠多隱變量的RBM可以用來表達任意的離散概率分佈，而且同等條件下具有多層隱變量的DBM的表達能力更強。隨着研究的進一步深入，人們看到了這些模型的更多面貌。一方面，研究人員開始在量子態的表示中探索RBM與DBM的表達能力，並獲得許多的成果[5-9]。另外一方面，它們與張量網絡態之間的關係也開始逐步被挖掘：RBM與矩陣乘積態 (matrix product state, MPS) 之間具有等價關係，可以藉助糾纏來分析模型的表達能力[10]；短程連接的RBM對應到糾纏塊態 (entangled plaquette state, EPS)，全連接的RBM對應到弦鍵態 (string bond state, SBS) [11]。

最近，我們發現RBM可以被嚴格映射到二維的張量網絡結構，而且這個結構可以被拓展到任意深度的DBM [3]。在這個映射過程裏，神經網絡被展成了規則的二維張量網絡結構。隨着神經網絡的加深（隱變量層數的增加），二維張量網絡如同搭積木般被不斷拼接擴展。從二維張量網絡結構中，我們可以直觀地看到神經網絡的每一部分對模型的表達能力是如何做貢獻的。

我們首先考慮兩層的神經網絡RBM圖 1(a)，它可以通過三步“變身”為二維張量網絡結構圖 1(d): 首先，將變量用複製張量代替，變量之間通過玻爾茲曼矩陣連接來將模型轉化為一般的張量網絡形式圖 1(b)；然後，利用複製張量等價的MPS結構，從一般張量網絡結構轉化為三維結構圖 1(c)；最後，通過將三維結構由上至下的壓縮得到二維張量網絡表示圖 1(d)（在這裏我們省去了具體的細節，感興趣的讀者可以參考[3]）。這個二維結構的長為RBM可見變量的個數，寬為隱變量的個數。

在張量網絡的表示下，模型的表達能力可以通過鍵維（連接張量的邊的維度）來度量。那麼，如果比較兩個模型的表達能力，我們可以在相同的張量網絡結構下對比其中的鍵維大小。例如，我們增加RBM隱變量的個數，將會得到一個高度更高的二維張量網絡結構，而與原始結構相比高出的部分可以通過向下壓縮到原始的網絡而將增加的隱變量的表達能力貢獻給張量之間的橫向鍵維。如圖 2所示，左圖中灰色部分來源於增加的一個隱變量，它的貢獻可以轉化為右圖中二維張量網絡第一行張量之間的橫向鍵維。

圖 2: 將多一個隱變量的RBM的二維張量網絡表示轉化為原始的二維張量網絡表示。

如圖 3所示，我們可以進一步將這個方法應用於含有兩層隱變量的DBM。在圖 3(d)中，二維張量網絡的綠色部分對應於第二層隱變量。如果我們將這部分從右向左壓縮到藍色部分，結構就回到了RBM所對應的二維張量網絡，只不過最右邊一列的張量之間的縱向鍵維變大。這裏縱向鍵維的增加就來源於第二層的隱變量對錶達能力的貢獻。

圖 3: 含有兩層隱變量的DBM轉化為二維張量網絡結構的過程 [3]，其中紅色代表可見變量，藍色和綠色分別代表第一層和第二層隱變量。

那如果含有更多層隱變量的DBM會“變身”為怎樣的二維張量網絡結構呢？就像圖 4中所展示的那樣，隨着隱層的增多，二維張量網絡會如貪吃蛇般生長開來。如果我們仍然考慮每個隱層相對於原始RBM結構圖 1(d)中表達能力的貢獻，那麼會發現，所有的奇數層會貢獻於二維張量網絡的橫向鍵維，而偶數層會貢獻於網絡的縱向鍵維。因此，通過上述方法分析，理論上任何深度的玻爾茲曼學習機都可以由含有兩層隱變量的DBM通過控制每層的隱變量的個數來表達。在[7]中，作者從量子態的角度出發給出了類似的結論。

圖 4: 含有多層隱變量的DBM的二維張量網絡表示圖，其中(a)-(c)為模型圖表示，(d)-(f)為對應的二維張量網絡表示 [3]。

在本文的開頭我們提到過，一般的玻爾茲曼學習機由於包含更復雜的相互作用形式（即相互作用可以存在於同類變量之間）而不便於被研究，那麼它在二維張量網絡的表示下會是什麼樣子呢？其實，無論是可見變量與可見變量、隱變量與隱變量還是RBM與DBM中的可見變量與隱變量之間的相互作用，在二維張量網絡的表示下它們都有清晰明瞭的對應。如圖 5所示，可見變量與可見變量之間的局部相互作用，會等價對應於二維張量網絡的局部橫向鍵維，而隱變量與隱變量之間的局部相互作用，會等價對應於二維張量網絡的局部縱向鍵維。因此，在二維張量網絡表示的圖像下，我們看到這些不同的相互作用角色是無差別的，我們可以將它們放在同等的地位來研究，而無需因為連接的複雜性限制模型的應用。

圖 5: 具有一般相互作用的玻爾茲曼學習機的二維張量網絡圖表示。

除此之外，對於玻爾茲曼學習機，二維張量網絡表示不僅僅幫助我們定性地分析表達能力，還可以通過張量網絡縮並算法來計算模型的配分函數。如今，已經發展出了很多成熟的縮並算法，比如張量重正化羣算法 (tensor renormalization group, TRG) [12]，密度矩陣重正化羣方法 (density matrix renormalization group, DMRG) [13]和邊界矩陣乘積態方法 (boundary matrix product states, BMPS) [14]，還有可以處理任意連接的張量網絡的近似算法[15]等。但是，我們需要注意的是，精確求解配分函數本身是一個#P難的問題，即使我們轉換了表達方式，也只是提供了一種更高效的計算方法，對於較大的系統，配分函數仍然很難精確計算。

在機器學習中有一類與玻爾茲曼學習機同樣用於擬合高維數據概率分佈，但不需要計算配分函數的模型——自迴歸模型。最近，我們將自迴歸模型與張量網絡相結合提出了AMPS (autoregressive matrix product state) [16]，它具有與RBM相似的二維張量網絡結構，但是又具有天然的計算配分函數與無偏採樣的優勢，感興趣的讀者可以將這個內容作為本文的擴展做進一步的閲讀。

參考文獻

[1] Geoffrey E Hinton, Terrence J Sejnowski, and David H Ackley. Boltzmann machines: Constraintsatisfaction networks that learn. Carnegie-Mellon University, Department of Computer SciencePittsburgh, PA, 1984.

[2] David E. Rumelhart and James L. McClelland. Information Processing in Dynamical Systems:Foundations of Harmony Theory, pages 194–281. 1987.

[3] Sujie Li, Feng Pan, Pengfei Zhou, and Pan Zhang. Boltzmann machines as two-dimensionaltensor networks. Phys. Rev. B, 104:075154, Aug 2021.

[4] Nicolas Le Roux and Yoshua Bengio. Representational power of restricted boltzmann machinesand deep belief networks. Neural Computation, 20(6):1631–1649, 2008.

[5] Giuseppe Carleo, Yusuke Nomura, and Masatoshi Imada. Constructing exact representations ofquantum many-body systems with deep neural networks. Nature communications, 9(1):1–11,2018.

[6] Sirui Lu, Xun Gao, and L-M Duan. Efficient representation of topologically ordered states withrestricted boltzmann machines. Physical Review B, 99(15):155136, 2019.

[7] Xun Gao and Lu-Ming Duan. Efficient representation of quantum many-body states with deepneural networks. Nature communications, 8(1):1–6, 2017.

[8] Yusuke Nomura, Andrew S Darmawan, Youhei Yamaji, and Masatoshi Imada. Restricted boltzmann machine learning for solving strongly correlated quantum systems. Physical Review B,96(20):205152, 2017.

[9] Dong-Ling Deng, Xiaopeng Li, and S Das Sarma. Quantum entanglement in neural networkstates. Physical Review X, 7(2):021021, 2017.

[10] Jing Chen, Song Cheng, Haidong Xie, Lei Wang, and Tao Xiang. Equivalence of restrictedboltzmann machines and tensor network states. Phys.rev.b, 2018.

[11] Ivan Glasser, Nicola Pancotti, Moritz August, Ivan D Rodriguez, and J Ignacio Cirac. Neuralnetwork quantum states, string-bond states, and chiral topological states. Physical Review X,8(1):011006, 2018.

[12] Michael Levin and Cody P Nave. Tensor renormalization group approach to two-dimensionalclassical lattice models. Physical review letters, 99(12):120601, 2007.

[13] Steven R White. Density matrix formulation for quantum renormalization groups. Physical reviewletters, 69(19):2863, 1992.

[14] Roman Orus and Guifre Vidal. Infinite time-evolving block decimation algorithm beyond unitaryevolution. Physical Review B, 78(15):155117, 2008.

[15] F. Pan, P. Zhou, S. Li, and P. Zhang. Contracting arbitrary tensor networks: General approximatealgorithm and applications in graphical models and quantum circuit simulations. Physical ReviewLetters, 125(6), 2020.

[16] Jing Liu, Sujie Li, Jiang Zhang, and Pan Zhang. Tensor networks for unsupervised machinelearning. arXiv preprint arXiv:2106.12974, 2021.

本文經授權轉載自微信公眾號“中國科學院理論物理研究所”。

特別提示

1. 進入『返樸』微信公眾號底部菜單“精品專欄“，可查閲不同主題系列科普文章。

2. 『返樸』提供按月檢索文章功能。關注公眾號，回覆四位數組成的年份+月份，如“1903”，可獲取2019年3月的文章索引，以此類推。