中國福利彩票是簡單的概率問題嗎?_風聞
观察者网用户_239226-2019-04-12 09:24
以雙色球為例。「雙色球」每注投注號碼由6個紅色球號碼和1個藍色球號碼組成。紅色球號碼從1--33中選擇;藍色球號碼從1--16中選擇。如果6個紅色球和1個藍色球全部正確,那麼中一等獎;如果6個紅色球正確但是藍色球不正確,那麼中二等獎。
因此,隨便買一注雙色球彩票,它中一等獎的概率為:

【雙色球歷史數據】
,我們可以下載到從2003年至今共1756期雙色球的中獎情況。其中,總投注額除以2就等於當期的投注數量。那麼,按照每一期的投注數量和每一注的中獎概率,我們可以用蒙特卡洛模擬來算出每一期的一等獎數量。先做三次模擬:

三次模擬之間的形狀有一些細微的差別,
平均值在6.04到6.1之間,標準差為4.2左右。他們的一項共同特點是:尾部縮小很快,且一期中很少有可能會開出超過20注一等獎。
20注一等獎?
我們再多做一些模擬,每次仍然模擬1756期,並且每次模擬都記錄下來有幾期開出了20注以上一等獎。為了編程方便,我們共做了1756次模擬,得到下圖:

可以看到,共有3.4%的模擬是沒有一期開出超過20注一等獎的,有21.8%的模擬開出了3次超過20注一等獎。在1756期裏開出9、10次超過20注一等獎的模擬,佔全部模擬的0.62%。
上面是理論的計算,但實際上發生了什麼呢?

可以看到,我們得到的1756期真實開獎結果有一條非常長的尾部——有許多期不只是開出了20多注一等獎,最多一次甚至開出了117注一等獎。
計算機的模擬和真實世界的結果畢竟還是有區別的,否則就不會有那麼多「黑天鵝」事件了。例如,每注彩票的選擇不是相互獨立的,還有選中一個號碼然後倍投的現象呢。此時,如果開出了20注以上的一等獎,也有可能因倍投的情況而使得該期的一等獎遠大於20注。但好在雙色球是一個可以用古典概率簡單算出來的東西,我們可以不去考慮到底開出了幾注一等獎,而是考慮開出20注以上一等獎的可能性有多大。用簡單的概率可以算出,一期開出超過20注一等獎的概率等於

為當期的總投注數量,
為每一注的中獎概率。
使用這1756次的真實投注數代入後,可以算出:
理論上,會出現3.3期開出20注及以上一等獎,佔總期數比。
但實際上,共有86期開出20注以上一等獎,佔總期數比4.9%
0注一等獎?
使用真實的投注量,我們可以算出這1756次開獎平均每期應當可以開出6.09注一等獎,其99%置信區間在5.96到6.23之間。
而真實的數據中,每期平均開出了6.18注一等獎,哇,接近理論值的99%置信區間上限呢,這是不是説明開獎的情況和理論值是相符的呢?
別忘了,真實數據中出現了反常多的期數開出了20注以上一等獎。當我們把20以上的尾部排除後,剩下的結果的平均值卻僅剩下了4.76,遠遠低於於理論預測值的99%置信區間的下限。

上圖是排除了開出20次以上一等獎的情況後畫出的圖。問題出在哪兒呢?一個很明顯的差別出現在0注一等獎的情況。在模擬中,1756期中開出0注一等獎的期數一般在80到90次之間。但事實上,共有195期連一注一等獎都沒有開出來。
在模擬中,最後一次開出0注一等獎的時期一般都會早於2009年——在2009年之後,由於每期投注量大增,連一注一等獎都開不出的可能性已經趨近於零。
但在實際情況中,09年之後還有17期連1注一等獎都沒有開出來,最近一次出現在2014年4月17日,當時的總投注量為186509167注,開出0注一等獎的概率僅有十萬分之2.7。但是,0注一等獎還是給開出來了。
問題不僅出在0註上。在模擬中,一期開出0到3注的比例大約在三分之一,也就是590次左右。但事實上,這1756期中有837期開出了3注以下一等獎,佔比為47.7%,接近一半。
換句話説,雙色球的開獎情況,由概率論計算出的分佈,和真實出現的分佈,出現了很大的差異。
在開出20注以上一等獎的比例與3注以下一等獎的比例上,真實值都要遠高於理論值。如此保證了平均每期的一等獎注數和理論值吻合。
那麼,「雙色球」到底是怎麼開的呢?這個判斷,交給讀者。
畢竟,給猴子一台打字機和無限多的時間,它也一定能夠打出莎士比亞全集。所以,即使我們看到了猴子真的打出了莎士比亞全集,也不要激動,那有可能是真的呢。
當倍投存在時,一等獎的開出分佈和之前的理論分佈會有所不同,我在之前沒有考慮到這點。
由於全部數據暫不可得,我們首先假設人們在購買雙色球時的倍投分佈在2003年到2014年間不變,各倍的倍投佔總投注額的比例如下圖所示:

可以看到,單注購買佔總投注額的73.7%,接下來是5倍倍投,佔比5.5%;以及2倍倍投,佔比5.08%。甚至有1%的銷售額是來自100倍的倍投。將這一系列倍投比例分配到每期的投注額,可以每期分別計算一等獎的開出次數。將一等獎開出次數的真實值、預測值(不考慮倍投)和預測值(考慮倍投)放在一起,可以得到下圖:

可以看到,考慮了倍投之後,0到2次的一等獎開出次數比起不考慮倍投的紅色柱狀圖上升了,由407次上升至496次;20注以上一等獎的比例也有所上升,由原本的預測的5次上升至42次。但是,這個分佈仍然距離真實的一等獎分佈甚遠。
要計算能夠產生真實分佈的投注分佈,一個最簡單的方法就是從單注開始計算。由於只出一次一等獎的情況只可能由單注購買的投注產生,因此只要計算出在什麼比例下,1756次雙色球能夠產生230次一注一等獎即可。容易計算出,大約為53%的投注份額需要是單注投注。
但是,按照2010年某省的單注投注份額在73.7%的結果來看,要讓全國總體達到53%的單注投注份額,相當困難。
因此,在獲取全國所有更多的數據之前,我還是保留對雙色球開獎所產生的一等獎分佈的疑問。