基於因果追溯的體系貢獻率分析方法_風聞
Science_北京-不惧过往,不畏将来!2020-05-18 10:36
體系(System of Systems,SoS)的概念已經出現很長時間,許多不同領域的學者和組織也從他們各自的領域背景和角度提出了體系的定義,然而目前還沒有一個被普遍接受的定義。體系是系統的聯接,在系統聯接的體系中允許系統間進行相互協同與協作,如信息化戰場的C4I(Command, Control, Computers, Communications, and Information)與ISR(Intelligence, surveillance and Reconnaissance)系統。體系是系統的綜合,系統綜合以系統的演化發展、協同與優化為目的,最終達到提高整體效能的宗旨。體系是相互協作的系統的集成,這些組成使系統具備兩種附加特性,即運作的自主性與管理的自主性。美國防部認為:“互相依賴的系統組合鏈接,提供的能力遠大於這些系統的能力之和”。
體系貢獻率是指在給定條件下評估對象對體系完成規定任務所發揮能力和達到效果的貢獻程度,是評估對象對體系內各個系統能力及體系效能的影響作用或湧現效應的度量。體系效能是在一定條件下體系完成規定任務程度的度量。體系具有整體湧現性、適應性、進化性、不確定性等顯著特點。事實上體系效能是各個影響因素(包括體系內各成員性能以及其他影響因素)複雜交互作用而湧現產生的整體性效果,它包含了體系湧現性的內部機制。而對體系(尤其是武器裝備體系-Weapon System of Systems, WSoS)貢獻率進行準確、有效地建模和評估是體系發展與優化的前提。開展體系貢獻率分析與評估工作,需要度量體系完成規定任務的程度,更需要客觀有效地刻畫各個影響因素及其交互效應對體系效能的貢獻率,以便揭示體系湧現性、適應性和進化性等方面機理和特性。
目前體系貢獻率研究方面還處於起步階段,但已經開展的研究工作有:
1)通過剖析體系貢獻度的基本概念,界定了其內涵和分類,提出了開展體系貢獻評估工作需要遵循的一些基本原則;
2)通過構建參量之間的影響關係鄰接矩陣來分析體系貢獻度;
3)基於模糊綜合的證據推理方法進行體系貢獻度評估建模;
4)在給出貢獻度定義的基礎上研究了貢獻度的複雜性特徵,分析了裝備對體系能力的影響模式,提出了貢獻度多維對比分析方法,給出了基本框架和較為具體的幾種測量方法;
5)從任務、能力、結構、演化出發構建了武器裝備體系貢獻度分析的總體框架,提出了基於“探索性分析+”的武器裝備體系貢獻度評估流程。
上述研究雖取得了一些成果,但還存在兩個不足:
1) 當前貢獻度分析很少考慮體系影響參數之間的交互關係,不能體現體系的演化性和湧現性特徵;
2) 沒有從參數與效能之間的因果追溯關係上進行貢獻度分析,無法顯式地表現出參數與效能直接貢獻關係。
為了獲得體系貢獻度評價效果的高可信度,一方面在貢獻度評估分析過程中,需要充分考慮體系影響因素及其參數(本文統稱為影響參數impact parameter)交互效應,它體現了體系湧現性和演化性;另一方面,需要從影響參數與效能之間的因果追溯關係上進行貢獻度分析。因此,本文提出一種基於因果追溯的體系貢獻率分析方法。首先,借鑑Granger因果檢驗分析思想,利用數據分組處理 (Group Method of Data Handling, 簡稱GMDH)建立影響參數值與體系效能指標值之間的優化函數,形成能夠表達影響因素到體系效能指標複雜數學關係的代理模型;然後,基於Sobol指數法,通過一階因果追溯指數和全局因果追溯指數,分析影響因素及其交互效應對體系效能指標的貢獻率,構建了基於因果追溯指數的體系貢獻率分析過程模型。最後,通過案例説明了該方法的有效性。
1.基於GMDH的影響參數與體系效能代理模型
代理模型可以對一組輸入輸出數據之間的關係用具體的數學表達式或數學模型表示。為精確擬合體系輸入輸出數據之間的關係,提高計算效率,我們基於GMDH構建影響因素到體系效能指標的代理模型。首先以某一具體任務下體系影響參數值為輸入數據,採用相應評估方法計算出該任務下體系效能指標值為輸出數據,借鑑格蘭傑因果檢驗分析思想,然後利用GMDH來找出輸入數據與輸出數據之間的最優函數,構建影響因素與體系效能指標關係的代理模型。
具體地,借鑑Granger因果檢驗分析思想:Granger因果檢驗是利用時間序列的關係來鑑定兩個因素是否具有因果關係。其基本原理是:假設多變量模型是由輸入變量X和輸出變量Y組成,如果變量X有助於預測Y,即根據Y的過去值對Y進行迴歸時,如果再加上X的過去值,能夠顯著地增強模型的迴歸解釋能力,則稱X是Y的Granger原因。借鑑Granger因果關係定義,利用GMDH算法可通過檢驗模型預測能力是否顯著變化來判斷輸入參數與輸出參數之間是否存在因果關係,即:如果變量Y的現在值用X和Y的過去值預測,比只用Y的過去值預測要好,就稱X是Y的原因。基於此,我們可以給出了GMDH因果關係定義。
假定容量為的樣本數據可劃分為三個子集,並且定義,則樣本數據可表示為:
對於給定的多變量模型,設輸入向量(時間序列)為,
表示第i個輸入變量所形成的時間序列,樣本數據為w,輸出向量(時間序列)為
,其可能的原因信息全部包含在
中。定義外準則的一般表達為:
其中表示在數據集G上估計得到的係數,
,
,
,
。記
,
。如果
則稱
是Y的GMDH原因的構成因素;如果
則稱
是Y的GMDH瞬時原因的構成因素。
GMDH因果關係可檢驗複雜模型中多維變量間因果關係和強弱程度,識別出複雜模型中同時存在的多個因果關係,進而從整體上了解模型變量的層次、結構和功能。由此,GMDH因果關係可以用來分析複雜體系中影響因素到體系效能指標的複雜追溯關係。
GMDH是自組織數據挖掘的核心技術。GMDH將數據分為訓練集和測試集, 在訓練集上使用內準則進行參數估計得到中間待選模型, 而在測試集上使用外準則在中間候選模型進行選擇, 這個過程不斷重複直到外準則值不能再改善才停止, 這樣的停止法則可以保證在一定噪聲水平下得到數據擬合精度和預測能力最優平衡的函數模型,GMDH產生最優函數模型過程如圖1所示。
圖1. GMDH產生最優函數模型過程
基於GMDH產生最優函數模型過程,以影響參數值作為GMDH的輸入,以體系效能指標值作為GMDH 的輸出,形成初始數據樣本集,就構建由影響參數到體系效能指標之間的GMDH代理模型,具體過程如下:
1)將初始數據樣本集(N個數據樣本)分為訓練集A和檢測集B,並且滿足樣本總數。
2)定義出因變量(輸出)和自變量(輸入)之間的一般函數關係, 作為“轉換函數”. 這裏採用K-G多項式。以三輸入單輸出模型為例,可取二次K-G多項式:
3)確定初始模型. 以K-G多項式為轉換函數,它的子項作為網絡結構中的m個初始模型。例如當m=10時,則有:
4)確定外準則. 從具有外補充性質的可選擇準則中選出一個(或若干個)作為目標函數, 也就是外準則。
5)產生第一層中間模型。在圖1中,以傳遞函數, k=1,2,…,m為第一層中間模型,它們由自組織過程自適應產生。第一次中間模型因所含變量個數、函數結構的不同而不同。同時在訓練集A上估計
的參數。
6)篩選中間層模型。根據外準則,在檢測集B上對中間層模型進行篩選,選出的中間模型將作為網絡下一層的輸入變量。
7)形成最優代理模型。重複第5、第6步,最終形成具優化函數的代理模型。在圖1中,以第三層後的狀態為例,在模型y*中變量的數目≤4,而網絡初始變量的個數為5,初始變量
在篩選中被自動淘汰。
通過上述過程,以實際影響參數值和效能指標值作為輸入,構建影響因素到體系效能指標的GMDH代理模型,能夠較客觀準確地表達具有交互效應和湧現性特徵的影響因素與體系效能的關係。
2. 基於因果追溯的體系貢獻率分析過程模型
借鑑格蘭傑因果檢驗思想,利用GMDH構建出來的代理模型雖然能構建出各個影響因素與體系效能指標之間的函數關係模型,但並不能精確地表達出這些影響因素對體系效能指標的因果影響大小(即貢獻率大小),無法對體系影響因素對體系效能貢獻率提供定量分析支撐。有必要進一步通過全局因果追溯來定量分析影響因素對體系效能指標的影響大小。為此,通過影響參數的偏方差佔體系效能指標總方差比率來表示貢獻率。
1) 基於Sobol的體系貢獻率追溯指數
Sobol指數法是由俄羅斯學者I.M.Sobol提出,並以他的名字命名的一種基於方差分解的因果追溯分析方法。該方法的核心思想是方差分解,把模型用參數及參數之間組合的方式表示,通過計算單個輸入參數或輸入參數集的方差對總輸出參數方差的影響來分析輸入參數的重要性以及輸入參數之間的交互效應。
由Sobol指數法生成的Sobol序列是基於一組直接數構造的隨機序列,設
是小於
的正奇數,則
以及
的生成需要藉助係數只為0或1的簡單多項式,多項式可表示為:
式中,p為多項式的度數,為多項式係數。對於
,由此推導上式求得
:
式中,表示二進制按位異或,對於
,遞推公式為:
綜合以上推理,可以利用以下公式生成序列
式中,是n的二進制形式。
假設數學模型為,該模型平方可積。則該模型可分解為單個參數及參數之間相互作用的子項函數之和:
其中,
屬於n維單位立方體
,上式中一共含有
個子項。如上式滿足:
其中,,則模型
具有唯一的分解方式。通過積分方法,求得各個分解函數。
兩邊對X求積分,可得到:
兩邊除以外積分得到:
兩邊除、
的其他參數積分可得:
以此類推,可以得到各個分解函數。
基於以上條件,Sobol的因果追溯分析方法定義了輸入參數偏方差和輸出參數總方差,並通過偏方差佔總方差比率來表示模型參數及其交互作用對目標響應的影響程度,其中模型的總方差D為:
各子項(輸入參數)的偏方差為:
參數的因果追溯指數為:
因果追溯指數滿足。
式中,表示參數
的一階因果追溯指數,描述了參數
對輸出的貢獻率。參數的一階因果追溯指數越大,表示該參數的變化對輸出值的影響越大。
體系的一個重要特性是體系的湧現性。體系影響因素的交互是實現體系湧現性的一個重要途徑,因此,體系的湧現性很大程度上取決於體系影響因素之間的交互效應。為描述影響因素的全局影響,即某一影響因素與其它因素的交互對輸出值的貢獻度,引入了全局因果追溯指標。全局因果追溯指標包含了影響參數之間的交互效應。若一個輸入影響參數的全局效應指數很小,表明該因素不僅自身的變動對輸出變動影響小,而且該因素與其它因素之間的交互效應也很小。因此,可以對全局效應指數小的參數取固定值或者忽略,減少可變指標個數,從而簡化模型。
則上述一階因果追溯指數計算可用以下公式:
全局因果追溯指數:
從上述分析上看,一階因果追溯指數可以體現體系影響因素對體系效能指標的貢獻率。全局因果追溯指數不僅體現了該因素直接對體系效能的貢獻率,同時也體現了該因素與其它因素的交互效應對體系效能的貢獻率。
2)基於因果追溯指數的體系貢獻率分析模型
體系效能是體系完成規定任務的程度,它要求在一定條件下對任務的完成程度進行量化度量。體系效能是體系影響因素作用以及體系湧現性的結果,同時由於體系具有顯著的不確定性,在特定條件下的體系效能評估結果,首先,無法獲得影響因素對效能的貢獻率,更沒有辦法獲得影響因素之間交互效應對體系效能的貢獻率。其次,效能評估過程中獲得的數據樣本量不足以分析計算影響參數的一階因果追溯指數和全局因果追溯指數。因此需要在進行體系效能評估的基礎上,通過基於GMDH的影響因素到體系效能指標的代理模型,進行數據樣本擴容,再通過一階因果追溯指數和全局因果追溯指數計算影響參數對體系效能的貢獻率,形成基於因果追溯指數的體系貢獻率分析過程模型,其詳細步驟為:
Step 1: 針對體系的任務場景,構建體系效能評估指標體系,確定體系效能評估模型。
Step 2: 初始樣本集獲取。確定各影響參數的取值範圍,選用合適的取樣方法生成N組初始輸入變量,通過體系效能評估模型計算出相應的效能指標值。由特定條件下的影響參數值與相應效能指標值構成初始樣本集。
Step 3: 初始樣本集預處理。對各個初始樣本值進行無量綱化處理,將樣本值歸一化到[0,1]之間。歸一化公式為:
Step 4: 代理模型生成。以各初始樣本中的影響參數值作為GMDH的初始輸入,以通過體系效能評估模型計算得到的效能指標值作為輸出,來訓練GMDH,當擬合精度達到預先設定值,得到相應的代理模型,訓練結束。代理模型擬合精度用均方誤差(MES)和平均絕對誤差(MAE)來衡量,MES和MAE的值越小,預測結果越好。其中表示真實值,
為預測值,
為樣本個數。
均方誤差計算公式:
平均絕對誤差計算公式:
Step 5: 樣本擴充。利用擬蒙特卡洛方法擴充影響參數值,並且通過代理模型計算擴充影響參數值對應的體系效能指標值。
Step 6: 因果追溯分析。計算每個影響參數的一階因果追溯指數及其全局因果追溯指數,獲得每個影響因素對體系效能的貢獻率,並對因果追溯指數進行排序,進而獲得影響體系效能的關鍵成員性能參數。
3. 實例分析
通過案例分析驗證基於因果追溯的體系貢獻率分析方法。假設某體系效能指標及其影響因素如圖2所示。
圖2 某體系效能局部效能指標體系
對於信息保障能力而言,在不同方案下,各個影響參數
的不同取值,利用蒙特卡洛方法生成容量為1000的樣本,利用AHP方法可得出相應的信息保障能力
,見表1。
表1 不同方案下信息保障能力各個參數值
採用主成分分析、探索性分析技術分析各因素對上層指標的影響關係。依據從離散到連續的探索性分析思路來分析影響參數對上層指標的影響,分析過程如下:
1)因子分析。該階段對影響參數進行篩選,獲取影響上層參數的關鍵因素後,以
因子分析其對
影響的主效應和交互效應。
2)因子分析。該階段完成關鍵參數的
因子分析,依據計算結果進行參數的關聯性分析,並獲取參數取值區間的因果追溯區域,找出指標的影響規律。
在完成影響因素的主效應和交互效應分析之後,需要進一步探索影響因素對體系效能指標的敏感區域。將進行到
因子分析,即每個指標分兩段、取三種值級。以信息獲取速度為例,其影響因素主要包括互操作性、信息共享度、通信兼容性以及系統反應時間等。互操作性RCS三種值級定為[0.1, 1, 5],信息共享度為[60, 130, 200],系統反應時間為[30, 55, 80],通信兼容性為[0.5, 0.75, 0.9]。可獲得
和
因子下的主效應和交互效應,圖3分別給兩種情況的趨勢圖。
圖3 信息獲取速度主效應與交互效應圖
從上圖中可以分析出影響參數的敏感區域。例如,在當前分析模型下,RCS 指標在[0.1 1]區域內變化時,信息獲取速度反應敏感,變化較大。但變化超出一定範圍時,信息獲取速度對RCS 指標反應“遲鈍”,信息獲取速度值呈現一種穩定趨勢。這樣可以獲得信息獲取速度與影響參數取值變化關係。用同樣的方法可獲得信息保障能力與其他各個影響參數之間的變化關係。
利用上面的探索性分析獲得足夠多的影響參數值,代入到效能評估模型中,即可得到相應的體系效能指標值關係。表2是不同影響參數取值下的信息保障能力值和綜合效能值(基於Choquet積分的AHP模型)。
表2 某體系信息保障能力與效能值
在獲得相應影響參數值和效能指標值之後,以這些數據作為輸入,通過訓練學習獲得相應的代理模型。由於在訓練獲得代理模型的過程中,需要輸入足夠多的數據樣本方能訓練出精度較高的代理模型。因此,在進行代理模型訓練學習之前首先需要對初始數據樣本進行擴充。這裏採用拉丁超立方體採樣和隨機採樣進行樣本擴容後,再進行訓練。為了驗證模型的可用性,採用基於拉丁超立方體採樣的GMDH代理模型(L-GMDH)、基於拉丁超立方體採樣的BP神經網絡代理模型(L-BP)、基於拉丁超立方體採樣的支持向量機SVR代理模型(L-SVR)、隨機採樣的GMDH代理模型(R-GMDH)、隨機採樣的BP神經網絡的代理模型(R-BP)、隨機採樣的SVR代理模型(R-SVR)進行對比試驗。其中BP隱層神經元個數為20,激活函數設置為sigmoid函數。訓練樣本選取樣本集的90%,測試樣本為樣本集的10%。樣本集設定為300,分別運行相應的代理模型。其中各個代理模型MSE和MAE的結果見表3。
表3 代理模型的MSE和MAE
由於MSE和MAE的結果越小,模型精度就越高,因此由上表可以看出採用拉丁超立方體取樣的模型都比隨機取樣的模型精度高。基於表1的數據,進行數據擴充後經過代理模型計算獲得效能值與參考值的擬合結果如圖4所示。
圖4 代理模型計算結果與參考值擬合效果圖
圖4為三種代理模型測試樣本值與真實樣本值擬合效果圖。從圖中可以看出,L-GMDH代理模型擬合效果優於L-BP模型、L-SVR模型,擬合效果最好。
若一個輸入影響參數的全局效應指數很小,表明該因素不僅自身的變動對輸出變動影響小,而且該因素與其它因素之間的交互效應也很小。因此,可以對全局效應指數小的參數取固定值或者忽略,減少可變指標個數,從而簡化模型。在本案例中,若一個影響參數的全局效應指數很小,則該因素將被忽略。對L-GMDH、L-BP和L-SVR三個代理模型生成的數據進行因果追溯指數分析過程中,抽樣方法為低差異的Sobol序列,設置樣本數為10000,其分析結果見表4。
表4 信息保障能力指標的一階因果追溯指數
上表中的參考值是通過ADC方法計算的結果。基於L-GMDH模型計算的因果追溯係數整體與參考值非常接近,而基於L-BP模型與L-SVR模型計算的因果追溯係數不穩定,有些與參考值非常接近,如L-BP模型中敏感係數,L-SVR模型中
與參考值非常接近,但有些偏離過大,如L-BP模型中
、
,L-SVR模型中
、
。
表5 信息保障能力指標全局因果追溯指數
表5為信息保障能力指標的全局因果追溯指數,表中可以看出,基於L-GMDH代理模型計算得到的全局因果追溯指數與參考值更接近,整體效果較好,而基於L-BP模型計算得到的全局因果追溯指數與真實值差別較大,尤其是和
與真實值差別明顯。
從表4和表5獲得的一階因果追溯指數和全局因果追溯指數體現了信息保障能力主要影響因素對該能力的貢獻程度,通過歸一化可以獲得影響因素對信息保障能力的一階貢獻率和全局貢獻率,見表6。
表6 主要影響因素對信息保障能力的貢獻率
從表6中看出,全局貢獻率是在一階貢獻率的基礎上,考慮了指標之間的交互效應,能夠更好地體現了體系效能影響因素之間的交互效能,更加適合用於複雜體系貢獻率的評價。
※ ※ ※
創新體系工程基礎理論和方法
推動系統工程理論再發展