為什麼許多人愛虛報身高?_風聞
观察者网用户_239226-2020-01-08 09:17
當自然產生的數據分佈在某一個位置出現一個「堆積」時,貓膩可能就隱藏其中。
有些可能不是有意造假,比如人口普查數據年齡堆積在尾數為0或者5的數字中,是因為被調查人記不清自己的年齡,報告了一個模糊的數字。(https://www.zhihu.com/question/24929287/answer/29574198)
有些可能也不算造假,而是數據操縱,例如上市公司的盈利總是堆積在0的右側,那可能算是一種盈餘管理,將不同年份的盈餘挪騰後避免連續虧損而退市。
但有些數據中出現堆積,可能就有造假的嫌疑了,最好的例子就是身高。身高是一個難以突變也無法操縱的數字,當我們對一羣人的身高進行比較精密的測量時,他應該比較接近正態分佈,以下數據來源於CHNS——

但如果我們把人們自己報告的身高拿來做一個概率分佈,他的分佈就沒有那麼完美了,下圖列出了CFPS2018數據中25-35歲男性的身高——當然,這個身高數據是自己彙報的。

可以看到,這裏的身高在每一個整五或者整十關口都出現了明顯堆積,尤其是170處,高達19.25%的男性聲稱自己有170cm。
以上兩組數據來源於同一個年齡段的人口,出現這樣大的差異顯然是不可能的,一定有許多身高並非170的人將自己的身高謊報為170。
那麼,到底是身高比較矮的那些傾向於高報,還是身高比較高的人傾向於低報呢?我們可以將兩組數據畫出累計分佈圖。

上圖畫出了兩組數據的累計分佈。可以看到,在170以上,自報身高和測量身高是基本重合的,説明身高超過170的人口沒有虛報或者低報自己的身高。
但在170以下差距就呈現出來了。上圖畫出了三個箭頭,表示儀器測量身高為167cm的25-35歲男性在人羣中的分佈和自報身高為170cm的同年齡段男性的累積分佈概率是一樣的,類似的現象還在165→168以及162→165的位置出現。
如果我們假設測量身高到自報身高是一個保序的映射——前者到後者不改變其排序——那麼可以得出一個結論,那就是身高169、168和一部分身高為167的男性,在面對調查員時會將自己的身高報告為170。以及167、166和一部分165的男性會報告168的身高;164、163和一部分162的男性會報告165的身高。
換言之,面對調查員,170cm以上的男性不太會虛報自己的身高,但是170以下的男性會虛報,且虛報不會超過3cm。
上面的結論是被調查人面對調查員的反映,面對調查員的虛報可能還可以避免,但到了相親市場上,這個虛報可能就不僅僅是可以理解,而且是完全必要的了。為了比較相親市場上的表現,我們加入世紀佳緣的用户資料數據(
@楊陽對網站做了數據抓取)——世紀佳緣需要每一個用户填寫自己的身高。
那麼當我們把世紀佳緣的25-35歲男性身高累積分佈放進上圖的時候,奇蹟出現了——

世紀佳緣的身高分佈和測量身高以及自報身高都出現了非常顯著的差異,且在170處的「堆積」更加明顯了。
當然,要從上圖進行推理,還需要解決幾個問題。
首先,雖然都是25-35歲的男性,世紀佳緣的人口分佈和有羣體代表性的抽樣調查肯定是不一樣的,比如身高很高的男性可能用不着去世紀佳緣掛牌相親。但是這個猜測與數據並不吻合,因為身高更高的人更不會選擇掛牌相親,會導致藍線向上穿過灰色線,但實際並沒有,藍色線始終在灰色線的下方。
另一種可能是身高比較低的男性就連在相親網站掛牌的概率都會更低,這與數據是吻合的,但卻仍然不能解釋在170處的「堆積」現象——我們可以理解身高169的男性上相親網站的比例低於身高170的男性,但卻無法解釋身高為170的男性要十多倍於身高為171的男性,兩者的數量是連續的,這個數字差距這意味着170男性上相親網站的比例是171男性的十多倍。
因此,在「連續年齡上相親網站的概率也連續變化」這個假設下,只有大量的身高虛報,才能解釋上圖在170處出現的堆積現象。
虛報了多少呢?有兩種假設。
第一,假設世紀佳緣的人口分佈和25-35歲的真實人口分佈相同,那麼虛報身高的為下圖中點A和點C的距離,這個數字可以理解為虛報上限,為7釐米,
第二,假設世紀佳緣人口和真實人口分佈不同,但在170處分佈連續變化,且下降速度和真實人口在該點的下降速度相同,那麼虛報身高為下圖中點B和點C的距離。由於在該假設下170以下人口偏少,分佈下降速度會慢於真實人口分佈,因此這個數字可以理解為虛報下限,為4釐米。

因此,我們大概可以得出一個結論,在面對調查員時,身高170以下的25-35歲男性最多會做出3釐米左右的身高虛報,但在相親市場上,則最多會做出4到7釐米的身高虛報。
寫到這裏,可能有女士會開啓嘲諷——相親時聲稱自己為170的男性很只有166甚至163!
顯然,這個嘲諷是錯的,因為這個數字只是我計算出的上限,他表示不會有男性虛報更多的身高,從165到169的男性都可能聲稱自己為170。
其次,大家都能發現,上面的分析中我沒有畫出女性的情況,這是因為我懶。實際上女性身高的分佈是這樣的——

可以看到,相親市場上女性在160處的「堆積」現象,比男性還要嚴重,有五分之一的男性聲稱自己是170,同時有整整四分之一的女性聲稱自己是160!但這顯然是不可能的。我們用類似的方法可以推算出,女性也是半斤八兩,160以下的女性,在相親市場上最多會將自己的身高虛報5-7釐米,下限比男性還要高。
綜上,從上文可以看到,不管是男性還是女性,在相親市場上都會傾向於高報自己的身高,尤其是170以下的男性和160以下的女性,幅度最高可以達到7釐米之多。
同時,我們並沒有發現大家低報身高的證據。
還有一件有趣的事——大家可以看到,雖然在相親市場上大家的表現差不多,但女性的橙色線和灰色線之間的距離,沒有男性那麼遠。
這説明男性和女性在面對不認識的人(調查員)和潛在的相親對象的反應差異是不一樣的。從中大概可以得出另一個不太嚴謹的結論——
在身高問題上,男性的撒謊是連續的,對不認識的人撒箇中謊(最多虛報3釐米),對潛在相親對象撒個大謊(最多虛報4-7釐米)。
而女性的撒謊是跳躍的,對不認識的人會撒個小謊(最多虛報2釐米),對潛在相親對象撒個比男性更大的謊(最多虛報5-7釐米)……