互聯網時代每天產生的數據正在以指數級增長,如何看透數據背后隱藏的秘密和規律,統計學概率論應運而生,很快成為科學的基礎工具,滲透到了整個自然科學和社會科學領域。 概率論是研究隨機現象數量規律的數學分支,它可以幫助我們應對不確定性、預測未來、并做出科學決策。面對隨機而又復雜的世界,數學家用分布來刻畫變量的變差(在某個類型內部的差異)和多樣性(不同類型之間的差異),將變量表示為在數值上或類別上定義的概率分布。分布為事件或價值分配概率。 每日降雨量、考試分數或身高的分布為每一個可能的結果值分配一個概率。各種統計量將分布中包含的信息壓縮為單個數值,例如均值是分布的平均值。 社會科學家經常通過均值來比較各個國家的經濟發展水平。例如:2020年,美國的人均國內生產總值為63051美元,日本為39048美元,中國是10582美元。 常見的概率分布有泊松分布,二項分布,伯努利分布,正態分布,均勻分布。其中正態分布是最為核心的概率分布。 一、認識正態分布正態分布,也稱“常態分布”,又名高斯分布,正態曲線呈鐘型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。 正態分布函數公式如下: 其中μ為均數,σ為標準差。μ決定了正態分布的位置,與μ越近,被取到的概率就越大,反之越小。σ描述的是正態分布的離散程度。σ越大,數據分布越分散曲線越扁平;σ越小,數據分布越集中曲線越陡峭。在一個標準正態分布中,約有 68.2% 的點落在 ±1 個標準差的范圍內。約有 95.5% 的點落在 ±2 個標準差的范圍內。約有 99.7% 的點落在 ±3 個標準差的范圍內。 正態分布概念是由法國數學家棣莫弗于1733年首次提出的,后由德國數學家高斯率先將其應用于天文學研究,故正態分布又叫高斯分布,高斯這項工作對后世的影響極大,所以有了“高斯分布”的美稱。 在我們的自然界,大多數物種的高度和重量都滿足正態分布,它們圍繞著均值對稱分布,而且不會包含特別大或特別小的事件. 例如:我們從來沒有遇到過1米長的螞蟻,也沒有看到過1千克重的大象。世界似乎被代表正態分布的“鐘形”包圍著,很多事物都是服從正態分布的:人的高度、胖瘦、壽命、雪花的尺寸、測量誤差、燈泡的壽命、IQ分數、面包的分量、學生的考試分數,員工上班所需時間等等。 正態分布有以下幾個特征: 集中性:曲線的最高峰位于正中央,且位置為均數所在的位置。 對稱性:正態分布曲線以均數所在的位置為中心左右對稱且曲線兩端無線趨近于橫軸。 均勻變動性:正態分布曲線以均數所在的位置為中心均勻向左右兩側下降。 面積恒等:曲線與橫軸間的面積總等于1。 正態分布有兩個非常重要的參數,它們分別是:樣本的均值和標準差。均值是樣本中所有點的平均值。均值定義了正態分布的峰值位置,大多數值都集中在均值周圍。標準差是表示數據集與樣本均值的偏離程度。標準差定義了正態分布的寬度,決定了觀察值與均值的偏離程度。標準差越小,正態分布曲線越窄。標準差越大,正態分布曲線越寬。當分布較窄時,值落在均值附近的概率會更高。 正態分布的解釋力非常強,因為分布的均值、眾數和中位數是相等的;我們只要用平均值和標準差就可以解釋整個分布。 就數學理論而言,正態分布有其優越性: ①兩個正態分布的乘積仍然是正態分布; ②兩個正態分布的和是正態分布; ③正態分布的傅里葉變換仍然是正態分布。 二、正態分布產生的原因鐘形分布曲線無處不在,這是為什么呢?其奧秘來自于中心極限定理。 中心極限定理:只要各隨機變量是相互獨立的,每個隨機變量的方差都是有限的,且沒有任何一小部分隨機變量貢獻了大部分變差,那N≥20個隨機變量的和就近似一個正態分布。 中心極限定理告訴我們: 任何一個樣本的平均值將會約等于其所在總體的平均值。 不管總體是什么分布,任意一個總體的樣本平均值都會圍繞在總體的平均值周圍,并且呈正態分布。 案例1:在一個500人的小城鎮中,人們的購買行為數據顯示,每個人平均每個星期花費100美元。在這些人中,可能有些人這個星期只花50美元、下個星期則花150美元,另一部分人可能每3個星期花費300美元。而其他人則可能每個星期的花費在20至180美元之間。只要每個人的支出都只有有限的變差并且沒有任何一小部分人貢獻了大部分變差,那么分布的總和必定是一個正態分布,其均值為50000美元。每個星期的總支出也將是對稱的:可能高于55000美元,也可能低于45000美元。 案例2:中心極限定理來解釋人類身高的正態分布。一個人的身高取決于基因、環境以及兩者之間的相互作用。基因的貢獻率可能高達80%,因此不妨假設身高只取決于基因。研究表明,至少180個基因有助于人體長高。 例如,一個基因可能有助于長出較長的頸部或頭部,另一個基因可能有助于長出更長的脛骨。雖然基因之間存在相互作用,但我們可以假設在“長高”這件事情上,每個基因都是相互獨立的。如果身高等于180個基因貢獻的總和,那么身高將呈現正態分布。 高爾頓釘板試驗更加形象地證明了正態分布。弗朗西斯·高爾頓是英國著名的統計學家、心理學家和遺傳學家。他設計了一個釘板實驗,希望從統計的觀點來解釋遺傳現象。 如下圖所示,木板上釘了數排(n排)等距排列的釘子,下一排的每個釘子恰好在上一排兩個相鄰釘子之間;從入口處放入若干直徑略小于釘子間距的小球,小球在下落的過程中碰到任何釘子后,都將以1/2的概率滾向左邊,以1/2的概率滾向右邊,碰到下一排釘子時又是這樣。如此繼續下去,直到滾到地板的格子里為止。試驗表明,只要小球足夠多,它們在底板堆成的形狀將近似于正態分布。因此,高爾頓釘板實驗直觀地驗證了中心極限定理。 中心定理并不是萬能的,他擁有三個很重要的前提:隨機、獨立和相加。 首先,第一個前提就是取樣需要隨機。如果我們抽取人的時候,只抽取長的高的或者只抽取長得矮的人,那么結果自然不符合正態分布。 第二,影響結果的因素是相互獨立或者是相互影響比較小的。以身高為例,影響一個人長高的因素有很多,例如:父母長得高還是矮、營養是否跟得上、是否熱愛運動......等等。父母長得高還是矮,對營養的補充沒有很大的關系,跟是否熱愛運動也沒有關系,所以可以看成是相互獨立的因素,所以身高的人群分布曲線自然就符合正態分布。 第三是相加,如果一個事物受到多種因素的影響,不管每個因素本身是什么分布,它們加總后,結果的平均值就是正態分布。正態分布只適合各種因素累加的情況,如果這些因素不是彼此獨立的,會互相加強影響,那么就不是正態分布了。如果各種因素對結果的影響不是相加,而是相乘,那么最終結果就變成了對數正態分布。 在一定條件下,各種隨意形狀概率分布生成的隨機變量,它們加在一起的總效應,是符合正態分布的。中心極限定理告訴我們:無論引起過程的各種效應的基本分布是什么樣的,當實驗次數n充分大時,所有這些隨機分量之和近似是一個正態分布的隨機變量。 中心極限定理從理論上證明了,在一定的條件下,對于大量獨立隨機變量來說,只要每個隨機變量在總和中所占比重很小,那么不論其中各個隨機變量的分布函數是什么形狀,也不論它們是已知還是未知,當獨立隨機變量的個數充分大時,它們的和的分布函數都可以用正態分布來近似。這就是為什么實際中遇到的隨機變量,很多都服從正態分布的原因,這使得正態分布既成為統計理論的重要基礎,又是實際應用的強大工具。中心極限定理和正態分布在概率論、數理統計、誤差分析中占有極其重要的地位。 三、正態分布的應用場景1、檢驗顯著性 我們可以利用正態分布的規律來檢驗各種平均值的顯著性差異。顯著性檢驗就是事先對總體(隨機變量)的參數或總體分布形式做出一個假設,然后利用樣本信息來判斷這個假設(備擇假設)是否合理,即判斷總體的真實情況與原假設是否有顯著性差異。其原理就是“小概率事件實際不可能性原理”來接受或否定假設。如果經驗均值與假設均值之間的偏差了超過兩個標準差,那么社會科學家就會拒絕這兩種均值相同的假設。 例如:現在提出這樣一個假設,即舊金山的通勤時間與洛杉磯的通勤時間相同。假設數據表明,舊金山的通勤時間平均為33分鐘,而洛杉磯為34分鐘。如果這兩個數據集的均值標準差都是1分鐘,那么我們就不能拒絕舊金山和洛杉磯兩地通勤時間相同的假設。雖然二者的均值不同,但只存在1個標準差。如果洛杉磯的平均通勤時間為37分鐘,那么我們就會拒絕這個假設,因為均值之間相差4個標準偏差。 2、六西格瑪方法 六西格瑪方法是摩托羅拉公司于20世紀80年代中期提出的,目的是減少誤差,該方法根據正態分布對產品屬性進行建模。試想這個例子:一家企業專業生產制造門把手所用的螺栓。它生產的螺栓必須天衣無縫地與其他制造商生產的旋鈕組裝在一起。規格要求是螺栓直徑為14毫米,但是任何直徑介于13毫米與15毫米之間的螺栓也可以接受。如果螺栓的直徑呈正態分布,均值為14毫米,標準差為0.5毫米,那么任何超過兩個標準差的螺栓都是不合格的。 兩個標準差事件發生的概率為5%,這個概率對于一家制造企業來說太高了。六個西格瑪要求每一百萬個機會中有3.4個出錯的機會,即合格率是99.99966%。企業可以根據中心極限定理,從整體中抽樣幾百個,并根據這樣一個樣本來估計均值和標準差。然后推斷出正態分布。這樣一來,這家螺栓制造企業就可以得出一個基準標準差,然后花大力氣去降低它。 3、對數正態分布 中心極限定理要求我們對隨機變量求和或求平均值,以獲得正態分布。如果隨機變量是不可相加而是以某種方式相互作用的,或者如果它們不是相互獨立的,那么產生的分布就不一定是正態分布。例如,獨立隨機變量之間的乘積就不是正態分布,而是對數正態分布。對數正態分布缺乏對稱性,因為大于1的數字乘積的增長速度比它們的和的增長速度快,比如,4+4+4+4=16,但4×4×4×4=256;而小于1的數字的乘積則比它們的和小,比如,1/4+1/4+1/4+1/4=1,但1/4*1/4*1/4*1/4=1/256。如果將20個不均勻地分布在0到10之間的隨機變量相乘,那么多次相乘后所得到的乘積將會包括一些很接近于零的結果與一些相當大的結果,從而生成如下圖所示的對數正態分布。 對數正態分布 一個對數正態分布的尾部長度取決于隨機變量相乘的方差。如果它們的方差很小,尾巴就會很短,如果方差很大,尾巴就可能會很長。如前所述,將一組很大的數相乘會產生一個非常大的數字。在各種各樣的情況下都會出現對數正態分布,包括新冠肺炎的傳染人數、大多數國家的收入分布也近似于對數正態分布。 一個簡單的模型可以解釋為什么收入分布更接近于對數正態分布而不是正態分布。這個模型將與工資增長有關的政策與這些政策所隱含的分布聯系起來。大多數企業和機構都按某種百分比來分配加薪,表現高于平均水平的人能夠得到更高百分比的加薪,表現低于平均水平的人則只能得到更低百分比的加薪。與這種加薪方法相反,企業和機構也可以按絕對金額來分配加薪。例如普通員工可以獲得1000美元的加薪,表現更好的人可以獲得更多,而表現更差的人則只能獲得更少。 百分比加薪方法與絕對金額加薪方法兩者之間的區別乍一看似乎只是語義上的區別,但其實不然。如果每一年的績效都是相互獨立且隨機的,那么根據員工績效按百分比加薪,就會產生一個對數正態分布。即使后來的表現相同,未來幾年的收入差距也會加劇。 假設一名員工因過去幾年表現良好,收入水平達到了80000美元,而另一名員工則只達到了60000美元。在這種情況下,當這兩名員工的表現同樣出色并都可以獲得5%的加薪時,前者能夠獲得4000美元的加薪,后者卻只能得到3000美元的加薪。這就是說,盡管績效完全相同,不平等也會導致更大的不平等。如果企業按絕對數額分配加薪,那么兩名績效相同的員工將獲得相同的加薪,由此產生的收入分布將接近正態分布。 總結正態分布啟示我們,要用整體的觀點來看事物。用整體來看事物才能看清楚事物的本來面貌,才能得出事物的根本特性。不能只見樹木不見森林,也不能以偏概全。同時正態分布曲線及面積分布圖告訴我們一定要抓住重點,因為重點就是事物的主要矛盾,它對事物的發展起主要的、支配性的作用。正態分布是科學的世界觀,也是科學的方法論,是我們認識和改造世界的最重要和最根本的工具之一,對我們的理論和實踐有重要的指導意義。 正態分布如此重要,不僅因為它在自然界普遍存在,還因為它是被證明的、其他復雜概率分布的演化結果,可以說是所有概率分布的最終宿命。根據“熵增”原理,一個孤立系統的熵總是在不斷增大。而對一個已知均值和方差的分布,正態分布的熵值最大,即這個孤立系統中的所有結果持續演化,最終一定是呈正態分布的穩定狀態。對于宇宙熵增的最終穩定態,是宇宙各部分能量達到平衡,失去活力,陷入熱寂。 參考資料: 《模型思維》 作者:斯科特·佩奇 浙江人民出版社 《從擲骰子到阿爾法狗:趣談概率》 作者:張天蓉 清華大學出版社 |
|