Ex.3. VMP 總覽篇——海爾波普彗星般的假數據(上)_風聞
山田赫敏Official-2021-06-03 08:26
VMP全稱Virtual Manhattan Project(虛擬曼哈頓工程);截至2020年11月,VMP統計了包括但不限於Cover本部虛擬主播的直播結束時的數據,並對統計結果作出分析。在此放出一部分成果。
本文各圖中的view(直播結束時的點擊量)與like(點贊量)都分別除以了對應的總體中位數,不然軸太長不好觀察。

圖一 Cover總體直播數據總覽圖 此時未做任何處理
首先Cover,彩虹社,以及某youtuber的直播數據如圖二到圖四所示。圖二到圖四的橫縱為每一場直播結束時的點擊量(view),縱軸為對應的直播結束時的點贊數(like)。換而言之,圖中的每一個點都代表了某場直播結束時的點贊數與點擊量。

圖二 Cover的總體數據

圖三 彩虹社的總體數據

圖四 某youtuber的直播數據
可以看到與彩虹社以及某youtuber的數據相比,Cover的數據集中出現在四條徑直的直線上。而彩虹社的數據與某youtuber的數據卻保持了相當的離散性。因此,對數據進行染色處理。若某場直播的數據落在該直線上,便被染成藍色。由圖五可知,Cover的數據高度集中在四條直線上。

圖五 對Cover的總體數據進行染色
那什麼因素會導致Cover的主播的點贊數與點擊數如此古怪,並呈現出多個穩定的比例,即多條直線?換而言之,為什麼Cover的“觀眾”如同邪教教徒一般,無論直播點擊數多少都穩定地保持着這些點贊比例?
正如之前《Ex.2. 活人與假數據》所陳述,Youtu.be對假流量的清理是十分嚴格的。因此,即使水軍刷的數據存活率高,也要有個限度,不然刷得過多會被Youtu.be識別出來清除掉。嚴重時甚至會標記水軍機房IP,導致無法批量刷數據。
基於這種情況,水軍刷數據會有設定一個“合理”限度,刷數據時並不會超過該上限。但是為了追求刷流量效益最大化,大量水軍工作室會將數據堆到上限附近。因此,刷出來的數據會呈現線性相關。簡而言之,圖四中的直線便是其大量買水軍的特徵表現。
同時,可以對不同直播點擊量下的觀眾點贊行為進行分析並進一步驗證。若僱傭了大量水軍,水軍相對固定的行為模式將極大影響點贊與觀看行為,導致無論直播點擊量多少,其點贊模式保持不變。換而言之,五千點擊的直播與五十萬點擊的直播有類似的點贊比。然而在正常情況下,在點擊量高時點贊比難以維持高位,因大量路人不是忠實觀眾,不會熱衷於點贊。
具體分析方法如下:
首先需要判別哪些數據是主體數據,避免極端數據的干擾。圖五的橫軸為直播結束時的點擊量(view),縱軸為有該點擊量的視頻的相對個數(density)。換而言之,無論是Cover的主播還是彩虹社的主播,或者某youtuber,他們直播結束的點擊量主要落在0-3這個區間內。因此,取0-3區間的數據進行進一步分析。(圖六)

圖六 判別將要分析的數據區域
在選取了將要分析的數據後,對該區間的觀眾點贊行為進行分析。橫軸為點贊數/點擊量,縱軸為該點贊比的相對出現次數。可以看出在0-3這個區間下,有4個點贊頂峯。換句話説,圖七反映了Cover的觀眾在0-3這個點擊量下的點贊行為模式,特徵為4個對應點贊比頂峯。

圖七 0-3數據大區的點贊比走勢
在完成對0-3整個數據大區的分析後,對該大區進行切分分析,用以研究Cover的“觀眾”在不同直播點擊量下的點贊意願。首先將0-3這一個區間分成了0-1,1-2,2-3三個區間,即較低播放量的情況,中等播放量的情況,較高播放量的情況

圖八 不同點擊量下的直播的觀眾點贊走勢 可以看出四個點贊峯很穩定 整體走勢趨同
那麼運用圖七到圖八的分析手法,對彩虹社的主播數據以及某youtuber的主播數據進行切分分析。可以看到彩虹社的主播數據與某youtuber的直播數據在中等與較高播放量的情況下,出現了變形。換句話説,就是彩虹社的觀眾在高播放量的直播時,點贊意願會改變。這與Cover的情況不一致。Cover的“觀眾”在高播放量的直播時,仍保有了原有的點贊意願。

圖九 彩虹社的點贊行為走勢 可以看出在中高點擊量的情況下 觀眾點贊模式變形

圖十 某youtuber的觀眾點贊走勢 可以觀察到 在中等和較高點擊量時 觀眾點贊模式變形
這也與圖二和圖四的數據分佈相對應。可看到圖十一的紅圈部分與圖十二的藍圈部分,即彩虹社的高點擊量直播有着比較低的點贊數,與Cover的情況差別極大。Cover的直播在高點擊量的情況下仍保持了高贊,並呈現出線性關係。

圖十一 彩虹社的高點擊量直播有着比較低的點贊數 因大量路人觀看直播不會點贊

圖十二 高點擊量下的低點贊比 因大量路人觀看直播不會點贊
換而言之,Cover的“觀眾”無論直播點擊量多少,都保持了十分穩定的點贊意願,並且穩定到足以表現出線性相關關係。無論直播內容是什麼,直播時間點與觀眾契合與否,直播點擊量是五千還是五十萬(即路人觀眾多寡),只要湊足了十個“觀眾”,就能出一個點讚的“鐵粉”。此1:10的比例出自本文圖四中各直線的斜率“0.095,0.105,0.120,0.135”。除非這些“觀眾”是水軍或者邪教教徒,或者兩者都有,不然難以解釋步伐如此統一的點贊模式。
總結一下,截至2020年11月,Cover的油管直播數據造假嚴重,受水軍影響大。可是數據趨勢為什麼呈現出4條直線,而不是1條,2條,3條,甚至5條呢?
原動態:
1)https://t.bilibili.com/522673283432332789?tab=2
2)https://t.bilibili.com/522750558482297614?tab=2