《統計基礎:【34】教你用Excel理解大數定律》中,我用Excel向大家演示了隨機擲骰子的過程,發現隨著實驗次數的增多,各點數的出現頻率會無限接近其理論概率0.167。這一結果與大數定律預測一致。 期望值 上一篇推文最后,我給大家留下來一道懸念題,在此把題目再展示一遍: 彩票公司出售的某款彩票具有以下的概率:1/5的概率獲得免費彩票(價值1美元);1/100的概率贏得5美元; 1/100 000的概率贏得1 000美元;1/10 000 000的概率贏得100萬美元。如果彩票公司以1美元的價格出售這款彩票,彩票公司是否能夠期待獲利?每張彩票的期待收益是多少? 在這個彩票案例中包括5種不同的事件,每一事件都有特定的概率和公司相應的收益。最簡單的方式是將所有結果和相對應的概率在同一張表中展現,這樣我們就可以計算每張彩票的期望收益: 如上表所示,公司銷售彩票會獲得盈利,記為正值;而消費者獲得免費彩票或贏得獎金記為虧損,收益是負值。每張彩票的期望收益是所有事件的值和概率相乘之和,即: 1-0.2-0.05-0.01-0.1=0.64(美元) 換句話說,以平均多次購買彩票的結果來看,消費者每購買一張彩票,公司將會獲利64美分。如果消費者購買1,000,000張彩票,公司將會獲利640,000美元。 某一變量的期望值是對所有可能值的加權平均。這只是一個平均數,只有當大量事件發生時我們才能計算期望值,同時大數定律才會有效。 同樣,彩票公司必須出售大量彩票時,上述的期望收益才會發生;僅出售少量彩票時,獲利或虧損都是難以預料的。例如,以1美元賣出100份彩票,公司獲利100美元。如果100個消費者中無人中獎,公司將獲得所有收益。然而,當100個消費者中獎金額超過100美元時,公司將面臨虧損。 大數定律是近代博彩業、保險業,乃至銀行業賴以建立的數理基礎。它們正是利用了大數定律中發現的“大量隨機現象平均結果的穩定性”抵消發生概率極小的不確定性,使公司承擔的損失在穩定的可控范圍內。 賭徒謬論 說到這兒,有人不禁會問:按大數定律的說法,隨著博彩次數的增多,輸贏的可能性也會接近0.5呀,這是不是意味著博彩次數越多,消費者的虧損就可以越少呢? 我們一起來看由計算機模擬大量投擲硬幣所得出的結果: 當投擲的次數增加時,出現正面的概率越來越接近0.5, 和大數定律預測的一致。但是表格最后一列說明了正面朝上和反面朝上次數之間的差異也在不斷擴大,這意味著盡管正面出現的概率接近0.5,你的虧損可能(正面和反面出現次數的差異)還是在不斷擴大。 大多數賭徒尤其是狂熱賭徒總是相信物極必反,壞運氣總會到頭;這種錯誤的觀念被稱為“賭徒謬論”。但大數定律卻告訴我們,你過去的壞運氣并不會對你未來的機遇產生影響。 正如伯努利所說:“一個人押注任何一部分財產, 不論是多么小,在數學意義上都是在玩不公平的游戲,以非理性的行為在冒險。一個賭徒將會輕率地在僥幸游戲中投入他更多的財產。” 用樣本均值估計總體均值 接下來,我們考慮另一個案例。我們研究一個班60名學生的平均身高。毋庸置疑,從班級中隨機抽取10名學生獲得的身高均值比隨機抽取3名學生獲得的身高均值更有可能接近班級平均身高。因為10名學生的樣本量更大,能更好地代表整體。 隨著樣本量的不斷增加,樣本對總體的估計會更加準確。試想一下,我們隨機抽取59名學生獲得的身高均值與60名學生的身高均值差異幾乎已經完全相同。 這個案例同樣揭示了大數定律中隱藏的另一規律,即:隨機樣本均值將隨著樣本量的增加而收斂于預期值的概率。當樣本量很大的情況下,樣本均值近似于總體均值。 在之前介紹中心極限定理的推文中也提到了這一規律,中心極限定理也正是在大數定律體系的不斷完善過程中發展起來的定理。 現實生活中,考察某一變量總體通常是不切實際的,但根據大數定律,我們直接從樣本中收集數據,并通過樣本統計量即可推斷總體參數。這在為什么要抽樣這篇推文中也進行了詳細介紹。 |
|