概率論是人類研究混沌和不確定性的主要武器。盡管我們擁有大量的數學工具,但概率論利用初等數學以及邏輯和常識。它幫助我們在統治我們世界的混亂中發現規律和秩序。中心極限定理——或簡稱 CLT——是實現這一目標的概率論和應用統計學中最深刻和最有用的定理之一。 中心極限定理CLT與大數定律是概率中的兩個所謂的極限定理。它們處理樣本均值隨著 n(樣本數量)增長的長期行為。我們假設讀者熟悉概率的基本概念,例如隨機變量、均值、方差、分布等,因為它們對本文至關重要。 考慮到這一點,讓我們深入了解中心極限定理的卓越之處及其大量應用! 考慮n 個獨立且同分布 (iid) 的隨機變量X?、X?、X?、…、X?,每個變量均具有相同的均值μ和相同的方差σ2。我們將上述隨機變量序列的“樣本均值”定義為 ![]() n 個隨機變量序列的樣本均值本身就是一個隨機變量。我們感興趣的是計算它在 n 接近無窮大時的分布。讓我們看看如何應對這一挑戰。 好吧,首先,我們可以嘗試計算X??的均值和方差。顯然,當 n 趨近于無窮大時,這兩個性質不會揭示其分布。然而,一旦我們弄清楚它的分布,它們就會有用。 平均來說,我們可以簡單地做: ![]() 回想一下,序列的所有隨機變量都具有相同的均值μ。因此,我們得到: ![]() 這個結果不應該讓我們感到驚訝。如果我們考慮一下,這是非常直觀的。具有相同平均值的一系列隨機變量的樣本均值的平均值……就是該平均值本身。 我們對方差的計算并沒有太大不同: ![]() 我們現在可以將每個Var[]運算符中的“n”項因式分解,但我們必須先將其平方。我們得到: ![]() 考慮一下這個結果。樣本均值的方差與序列的大小n成反比。如果我們的序列中只有一個隨機變量n=1,則樣本均值的方差通常等于該隨機變量的方差。 然而,隨著序列中隨機變量數量的增加,隨著n趨近于無窮大,樣本均值的方差越來越小,趨近于零值。 我們現在準備陳述和理解中心極限定理的本質。
請注意,我們從未說明序列中每個隨機變量的分布。這是因為沒關系。這就是 CLT 的力量所在。無論我們的隨機變量的分布如何,隨著序列大小的增加,它們的樣本均值將始終接近正態分布。 在數學符號中,我們寫: ![]() 從上面的公式可以看出,隨著n趨近于無窮大,樣本均值的平均值不會受到影響。但是,它的方差將接近零,從而為我們提供正態分布N(μ,0)。 我們必須注意,我們所有的隨機變量都具有相同的均值和方差這一事實并不是 CLT 成立的必要條件。在任何情況下,樣本均值的平均值將是我們的隨機變量的平均值,而當 n 接近無窮大時,其方差將始終接近零。 可視化中心極限定理現在,我們將嘗試通過使用一個您也可以自己使用的具有指導意義的在線工具來鞏固我們的觀點。 假設我們有以下形式的任意人口。 ![]() 我們的人口分布一點也不像正態分布。 現在,我們將繪制當總體樣本量為 N = 10 時的均值分布。為此,我們將從總體中重復獲取 10 個樣本并繪制它們的平均值,如下所示。 ![]() 如果我們多次重復這個過程,我們可以看到樣本均值的分布將趨近于正態分布。 ![]() 隨意創建您自己的群體并親眼看看 CLT 的實際應用。 如何應用中心極限定理從理論上講,理解一個概念是必不可少的,但無論我們對它的理解程度如何,事實證明將其應用于沒有經驗的問題是很棘手的。讓我們看看當我們想在現實生活場景中利用 CLT 時可以遵循的一般準則。
![]() 2.計算Y的平均值和方差。 ![]() 3. 使用 CLT 并對我們的變量 Y 進行一些調整以簡化我們的計算,我們可以有把握地說 ![]() 因此,為了計算P(y? < Y < y 2 )我們可以這樣做: ![]() 起初看起來有點令人生畏,但正如我們現在將通過一個例子看到的那樣,應用中心極限定理是一個實踐問題! 例子銀行出納員為排隊的顧客一一服務。假設客戶i的服務時間Xi的平均值為E[Xi]=2(分鐘)且Var[Xi]=1。我們假設不同銀行客戶的服務時間是獨立的。令Y為銀行出納員為50 位客戶服務的總時間。求 Y 在 90 到 110 分鐘之間的概率。 答:我們需要計算P(90<Y<110)。 ![]() 通過CLT,我們最終得到: ![]() 最后的評論本文介紹了中心極限定理,這是概率論中最重要的定理之一,也是所有科學中應用最多(如果不是最多的話)的定理之一。 雖然這個定理背后的想法非常簡單,但將其應用到現實生活場景中可能會很棘手。出于這個原因,我們提供了一個簡短但有用的指南,至少在我們看來是如何應用 CLT 的指南。 |
|