看懂網絡分析,成為高階球迷_風聞
观察者网用户_212170-2019-10-17 19:20
導語
隨着複雜網絡研究範圍的日益擴大,體育競技也逐漸被應用到其中,尤其是足球和籃球這兩項團體運動中。本文梳理了近年來的多篇相關研究,從球員傳球風格與球隊勝率,到球隊風格的量化,再到聯賽整體特徵,以及體育與社會的關係等,展示覆雜網絡研究和數據分析技術與體育結合的多種可能。
1. 複雜網絡是個框,體育也能往裏裝?
不管是足球還是籃球,團體性的競技體育都是涉及幾十億人,數萬億美元的大產業。隨着體育比賽的數據化,海量的數據使得數據科學得以在體育產業展示它的魔法。NBA勇士隊掀起了利用專業的數據分析提高成績的浪潮,隨着勇士隊的連續奪冠,數據分析師已經成為了各個NBA球隊籃球教練組必不可少的一員。在足球,網球,排球等其他運動項目上,數據分析也起到了提升球隊的比賽的效果。
任何涉及到團隊配合的運動,都可以被自然地視為參與者之間相互作用組成的網絡。由於競技體育的勝負是清晰定義的,這使得數據天生就帶有標註;而競技體育中球員特徵,例如身高、體重等以及在場上的傳球、射門、突破等動作,也是有明確定義的,隨着計算機視覺對視頻數據的自動標註,海量的數據,使得競技體育中積累了眾多天然的隨機雙盲實驗。這使得研究者得以使用複雜網絡的成熟方法學,研究網絡結構的變化,網絡中的信息傳遞和網絡湧現出的宏觀結果(比賽輸贏)這三者的關係。
複雜網絡在體育中的應用,有廣闊的空間。比如除了職業的各種球類運動,對於團隊性的電子競技項目,例如Dota,一些研究方法和結論也是適用的。而在未來,網絡分析的框架,還可以整合包括視頻、可穿戴設備、體檢體測數據等數據源,可以使網絡具有更多的層次,從而更好的發揮網絡分析的威力。對於非職業的體育項目,隨着用户上傳數據的增加,也能產生全新的研究方向,例如研究如何避免運動產生的傷病,如何讓參加運動的球員相對平均地得到鍛鍊和發展。
本文將介紹近期的四篇相關研究,視角逐漸放大,先看球員的傳球對勝負的影響,再看球隊持續的風格如何定量化的考察,之後分析整個聯盟在不同時間的整體特徵,最後分析體育在社會中的位置,展示覆雜網絡研究和體育結合的諸多可能方向。
2. 怎樣傳接球
能讓你贏得籃球比賽
球隊狀態不好,某名球員發揮不好,是輸球之後常見的藉口。而用網絡科學的視角來分析的時候,就可以定義一個新的指標,來預測球隊的輸贏。
杜克大學的研究者,在18年arxiv.org上的一篇預印本論文中,針對籃球比賽,提出了一項預測指標。
論文題目:
SMOGS: Social Network Metrics of Game Success
論文地址:
該研究基於美國高校的NCAA聯賽,統一安裝了高清晰度的三維立體攝影和分析,該文關於的也是傳球網絡,有了這樣的數據,就能針對每名球員,給出其傳球和接球的熱點位置。如下圖所示,圖a)中的熱點區域説明該球員最經常在三分線弧頂傳球,bcd分別展示了傳給鋒線,中鋒和後衞位置的球員時,最常見的成功接球位置。
圖1:某球員的傳球出球位置與不同類型球員的接球位置的熱圖
之後作者結合籃球規則,自己定義了一個指標,用來描述每名球員在傳接球網絡中的影響。該指標可理解為結合了具體應用場景的一種中心度計算方法(SMOGS),只是該計算方法分別針對傳球和接球,且每名球員對給出一個在二維空間的,而不是一維空間的值。
作者比較了同一個隊伍在贏球時和輸球時,傳接球網絡根據新提出的指標,通過展示倆者的顯著區別,説明該指標能夠預測球隊的輸贏。
圖2:贏球和輸球時,一隻球隊的上場球員的傳球指標對比
上圖中的每個點(數字代表球員的編號)代表一名球員,紅色代表接球,藍色代表傳球,所在的位置代表了根據SMOGS計算得出的指標在二維空間上所處的位置。左邊對應輸球時,右邊對應贏球時。不管是從整體上(一個球隊)還是個體來看,都有明顯差別。而用作預測時,新提出的指標也比現有的指標要好。
3. 瓜迪奧拉治下的
巔峯巴薩,有何不同
9月 Nature 子刊 Scientific Reports 上發表的一篇論文,研究者利用網絡科學方法,佐證了球迷對主帥瓜迪奧拉旗下的巴薩隊(10-11賽季)傳球細膩,控制比賽節奏的印象。
論文題目:
Defining a historic football team: Using Network Science to analyze Guardiola’s F.C. Barcelona
論文地址:
https://www.nature.com/articles/s41598-019-49969-2
研究者關注比賽中的傳球,將球隊在西甲單賽季的傳球記錄,組成如下圖所示的有向網絡。圖中的每個點是一個球員,點的大小代表在網絡中的特徵向量中心性(Eigenvector Centrality),點的位置是其平均傳球的位置,線的深度代表了傳球的總次數。
圖3:巴薩隊的傳球網絡可視化
之後,研究者對比了傳統足球分析中用到的指標,例如傳球距離50次傳球所需的時間,以及網絡分析中用到的指標,如聚類係數(cluster cofficient)、最大的特徵向量、隊中球員的特徵向量中心度的最大值等,發現巴薩和西甲其他球隊傳球網絡的平均值,都有明顯的差異。
而在進球或者丟球之前,巴薩的傳球網絡與西甲其他球隊也有明顯不同。
圖4:西甲不同球隊的進球/丟球前50次傳球網絡的對應指標對比
上圖展示的是進球和丟球前的五十次傳球組成的網絡,依次考察的是網絡的聚類係數、傳球網絡對應矩陣的最大特徵向量。縱軸是進球時的值,橫軸是丟球時的值。
該分析用來説明在進球/丟球的關鍵時刻,巴薩和其他球隊的差異依然存在,而且這種球隊間差異具有魯棒性。研究者還通過橫軸和縱軸的區別,説明在丟球和進球前的傳球網絡有所不同。
4. 足球比賽正在變得無趣——
比賽結果爆冷門越來越難了
競技體育的魅力就在於沒有永遠的贏家,但最近的一篇文章,打破了愛拼就會贏的神話。今年8月在arixv上的一篇論文,通過對11個主流的歐洲聯賽中8萬場比賽的勝負的分析,作者得出球隊間的強弱差距正在變得顯著,比賽結果也更具有可預測性,同時主場優勢普遍變得不那麼顯著。
論文題目:
Football is becoming boring;Network analysis of 88 thousands matches in 11 major leagues
論文地址:
圖5:英超比賽中勝負關係的網絡可視化
上圖展示的該文研究的網絡,圖中的每個點是英超聯賽中的一支球隊,線的深淺代表這兩隊之間的淨勝球數目,點的大小代表該球隊在勝負網絡中的中介中心性(Betweenness Centrality)。
該文基於球隊的平均賽季進球丟球數等指標,結合是否在主場,用簡單的邏輯迴歸模型預測比賽的輸贏。
下圖展示的是歐洲幾個頂級聯賽中預測模型的AUC(橙色,用來評價模型的準確性)及基尼係數(藍色,用來評價不平等的程度),可以看出從95年到18年,兩者都在顯著地增加。
圖6:英超,德甲,西甲,意甲中勝負的可預測性與衡量球隊勝負差異大學的基尼係數
5. 某隊球迷數量和
所在城市的人口呈現冪律關係
競技體育具有跨越國界的魅力。在18年的一篇arxiv文章中,作者發現了三隻足球豪門皇馬,曼聯,拜仁的球迷數目(twitter關注量,轉發條數)和各個國家不同城市之間的人口數呈現冪律分佈。
論文題目:
Urban scaling of football followership on Twitter
論文地址:
這並不意外,但該文章有趣的是分析了球迷人數的增長,在那些國家是超線性的(superliner),即球迷人數的增加比城市總人口的增長還要快,例如城市人口增長10倍,球迷數量增長15倍,這是對應的expnent係數就是15/10=1.5。下圖分別展示了印尼(ID),哥倫比亞(CO),墨西哥(MX),西班牙(ES),英國(GB)和美國(US)中,這三個球隊的球迷數目和城市人口之間的冪指數大小。
圖7:不同國家中不同城市裏三隻足球豪門的球迷人數增長率
可以看出,在印尼、哥倫比亞,都存在不同程度的超線性增長,也就是説球迷的比例在大城市要高於小城市。
而在美國,英國,西班牙則是相反的,美國人對足球不感興趣,但對於英國和西班牙為何也沒有出現超線性的增長,這説明在發展中國家,對足球的喜愛更加緊密的依賴着城市大小的增長。
一種可能的解釋是,在貧富差距大的地方,越是大的城市,越需要競技體育帶來的消遣娛樂。
這篇論文除了其結論契合冪律法則的通用性,而且將體育看成是社會物理學(social physics)中的一部分,研究體育和其他我們關心的指標的關係,例如球隊的成績和所在城市的經濟興衰。
6. 用數據説話,做一個專業球迷
關於網絡科學與數據科學在體育比賽中的應用,相關的研究越來越多,與行業知識的結合也越來越深。
如果你問一個籃球迷,主場優勢意味着什麼,他不一定能説清楚。而用數據科學的武裝的你,就可以拿出(Home Sweet Home: Quantifying Home Court Advantages For NCAA Basketball Statistics)這篇論文的研究,指出主場打球的隊伍,蓋帽數目,助攻數目,相比平均值會出現接近20%的增加,而罰球數和搶斷數目也會有5%-10%的增加。這和球迷看球的一般印象是吻合的,蓋帽,搶斷數據上升的原因是球員更積極的拼搶,罰球多則是裁判對主隊的照顧,助攻多則是球隊打得更有耐心。
論文題目:
Home Sweet Home: Quantifying Home Court Advantages For NCAA
Basketball Statistics
論文地址:
其他結合網絡數據研究還有很多,如根據足球中傳球的位置,將球隊聚類,從而對應於球迷常説的442,434等不同陣型上(Clustering algorithm for formations in football games)。再如用遺傳算法,幫助球隊經理選擇最佳的球員組合。
論文題目:
Players’ selection for basketball teams, through Performance Index
Rating, using multiobjective evolutionary algorithm
論文地址:
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0221258
另一個可能的結合點是研究那些因素決定着職業運動員/教練員的成敗,關於成功的科學(Science of success)也是近來的研究熱點。而將球員共同比賽的關係組成網絡,研究者是否也會在體育界,發現在藝術家和科學家中存在的“與大牛合作”、“名師出高徒”等成功規律,這也是值得研究的方向。
而筆者更關心的是體育和普通人的關係,能否通過大數據的研究,説明體質訓練,體質測評的得分和個人的學業,事業成功或創新能力有相關性?或者指出體育鍛煉設施多少和城市的經濟發展有因果關係?這是更具有普遍價值,也更接地氣的研究方向。
作者:郭瑞東
審校:劉培源
編輯:張爽
來源: 集智俱樂部