久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    從賭博中衍生出的數學——正態分布,成了社會科學的重要工具

     老胡說科學 2022-03-12
    什么是正態分布,為什么它很重要?
    正態分布是說,在平均值附近觀察到特定數據值的概率最大,并且隨著與平均值的差值增加而迅速減小。多快取決于一個叫標準差的量。
    數學是模式的科學。概率的隨機作用遠非我們直覺理解的那樣。目前關于“隨機”的定義是:
    沒有任何可識別的模式。
    幾個世紀以來,數學家們一直在研究幾何、代數和分析中的數學模式,他們意識到,即使是隨機性也有它自己的模式。但是,“隨機事件的模式”與“隨機事件沒有模式”的觀點并不沖突,因為隨機事件的規律是統計意義的。例如,如果你反復多次擲一個骰子,那么大約有六分之一的次數擲到1,這是一個清晰的統計模式。但這并不能告訴你下一次投擲時,哪個數字會出現。
    直到19世紀,數學家和科學家才意識到統計模式(規律)在偶然事件中的重要性。甚至人類的行為,如自殺和離婚,也受到數量法則的影響。這似乎與自由意志相抵觸。但今天,這些統計規律構成了醫學試驗、社會政策、保險費用、風險評估和職業規劃的基礎。
    這一切都是由賭博學者吉羅拉莫·卡達諾引起的。卡達諾是個“不學無術”的人,他通過下國際象棋和賭博來賺錢。他將自己強大的才智應用于這兩方面。國際象棋并不取決于運氣。然而,在賭博中,運氣似乎是主要的“實力”。卡達諾意識到,即使在賭博中,他也可以發揮出自己的數學才能。他就此主題寫了一本書,名為《概率游戲(博弈)之書》,這是第一次系統地討論數學概率的書。
    概率游戲引起了布萊斯·帕斯卡的注意。他和費馬就一個與賭博有關的數學問題互相寫信。在此過程中,他們創造了一個新的數學分支:概率論。概率論中的一個核心概念就是我們現在所說的“期望”,這是玩家長期的平均收益。
    • 帕斯卡與費馬
    1713年,當雅各布·伯努利發表了他的《猜想的藝術》時,概率論成為數學中一個成熟的領域。他從事件概率的“工作定義”開始:
    從長遠來看,在任何時候,事件發生的幾率。
    這里用“工作定義”,因為如果試圖讓它成為基礎的話,會出現問題。例如,假設有一枚均勻的硬幣,多次拋擲,大多數情況下,得到的是一個看起來隨機的正面和反面的序列。如果持續投擲足夠長的時間,大約有一半的時間會得到正面。然而,很少會恰好有一半的時間是正面朝上,例如,在奇數次投擲中,這是不可能的。我從微積分中得到靈感來修改定義,
    但有時極限并不存在。例如,假設正面和反面的順序是
    拋擲得到“人頭”朝上的概率等于拋擲次數趨于無窮時,拋擲得到“人頭”朝上的概的極限,我們要證明這個極限存在。
    一次反面,兩次正面,3次反面,6次正面,12次反面,以此類推。3次反面之后,每個階段的數字都翻倍。投擲三次后,正面的比例是2/3,6次后是1/3,12次后是2/3,24次后是1/3,所以這個比例來回擺動,在2/3和1/3之間,因此沒有明確的極限。
    而且這樣的投擲結果序列是非常不可能的,但為了定義“不可能”,我們需要定義概率。所以邏輯是循環的。此外,即使極限存在,它也可能不是1/2的“正確”值。一個極端的情況是硬幣落地時總是正面朝上(極限是1)。同樣,這是不可能的。
    伯努利決定從相反的方向來研究這個問題。首先定義正面和反面出現的概率為0到1之間的p。如果硬幣是均勻的,那么p=1/2,否則不是1/2(有偏差)。伯努利證明了一個基本定理,大數定律。
    大數定律指出,如果拋擲次數足夠多,正面朝上的概率確實有極限,極限是p。從哲學上講,這個定理表明,通過以一種自然的方式分配概率(即數字)是合理的。所以伯努利的觀點是,作為概率的數字提供了一個一致的數學模型來描述一遍又一遍拋硬幣的過程。
    他的證明基于帕斯卡三角:
    其中所有行都以1開始和結束,每個數字都是它上面兩個數字的和。我們現在稱這些數字為二項式系數,因為它們出現在二項式表達式(p + q)^n的代數中。也就是說:

    伯努利的關鍵觀點是,如果我們拋n次硬幣,得到正面的概率是p,那么拋擲特定次數得到正面的概率是(p + q)^n的對應項,其中q = 1 ? p。什么意思呢?
    例如,假設我拋硬幣三次。那么八個可能的結果是:
    根據正面出現的次數對序列進行分組。所以在這八個可能的序列中,有:
    1. 三次正面
    2. 兩次正面
    3. 一次正面
    4. 零次正面
    這種與二項式系數的聯系并非巧合。如果你展開代數公式(H + T)^3,會得到:
    指數表示為:
    然后,用概率p或q替換H和T。
    即使在這種情況下,每一個極端的HHH和TTT只在8個試驗中出現一次。使用二項式系數進行更復雜的計算,可以證明伯努利大數定律。
    當數學家們不知道如何計算一些重要的東西時,他們會找到一種方法來間接地靠近它。舉個例子,你想知道投擲100次硬幣得到42次正面的概率,你必須做200次乘法然后簡化一個非常復雜的分數。我的電腦瞬間就告訴我答案,是
    但伯努利沒有電腦。
    這種直接計算是不可行的。大約在1730年,亞伯拉罕·德·莫弗爾推導出了一個關于重復投擲“不均勻硬幣”的概率的近似公式。這引出了誤差函數正態分布,由于其形狀,通常被稱為“鐘形曲線”。他證明了,用公式定義均值μ、方差σ^2的正態分布Φ(x):
    對于投擲n次不均勻硬幣(n是大數),得到m個正面的概率非常接近Φ(x),當
    這里的“均值”指的是平均值,而“方差”指的是數據分布的范圍——鐘形曲線的寬度。方差的平方根,σ本身,稱為標準差。下圖顯示了Φ(x)的值如何依賴于x。
    曲線看起來有點像鐘形。鐘形曲線是概率分布的一個例子;這意味著,在兩個給定值之間獲得數據的概率等于曲線下和與這些值對應的垂直線之間的面積。曲線下的總面積是1。
    當鐘形曲線開始出現在社會科學的經驗數據中時,它開始得到重視,而不僅僅是理論數學。1835年,比利時人阿道夫·奎特雷是社會學定量方法的先驅,他收集和分析了大量的數據,包括犯罪、離婚率、自殺、出生、死亡、身高、體重等,這些變量沒有人認為會符合任何數學模式,因為它們的原因太復雜,涉及到人類的選擇(自由意志)。認為這可以簡化成一個簡單的公式似乎很可笑
    如果你想準確預測誰會自殺,以及何時自殺,顯然是不可能的。但當奎特雷專注于統計問題時,例如不同人群、不同地點、不同年份的自殺比例,他開始看到模式。這些是有爭議的:如果你預測明年某個地方將有六起自殺事件,當每個人都有自由意志時,這又有什么意義呢?他們都可能改變主意。但是自殺的人所構成的人口數量并沒有事先明確說明;這不僅是那些自殺的人所做選擇的結果,也是那些想過自殺但沒有自殺的人所做選擇的結果。人們在許多其他事情的背景下行使自由意志,這些事情影響著他們的自由決定:這里的約束包括經濟問題、關系問題、精神狀態、宗教背景……無論如何,鐘形曲線不能做出準確的預測;它只是說明哪個數字最有可能。可能會發生五到七起自殺事件,這給任何人都留下了施展自由意志和改變主意的空間。
    數據最終贏得了勝利。無論出于什么原因,人們的集體行為比個人行為更容易預測。也許最簡單的例子就是身高。當奎特雷繪制給定人群的身高比例時,他得到了一條漂亮的鐘形曲線。他對許多其他社會變量得出了同樣的曲線形狀。
    鐘形曲線迅速成為概率論的標志,特別是統計學。主要有兩個原因:一是鐘形曲線的計算相對簡單二是它在實踐中的應用。這種思維方式的主要來源之一是18世紀的天文學。由于儀器的微小變化,人為的誤差,或者僅僅是大氣中氣流的運動,觀測數據都會出現誤差。那個時期的天文學家想要觀察行星、彗星和小行星,并計算它們的軌道,這就需要得到最符合數據的軌道。
    這個問題的實際解決辦法首先出現了。它歸結為:在數據中選擇一條直線,使總誤差盡可能小。這里的誤差必須是正的,簡單方法是將其平方。所以總誤差是觀測值與直線模型偏差的平方和,期望的直線使其最小化。
    1805年,法國數學家阿德里安-瑪麗·勒讓德發現了這條線的一個簡單公式,使得計算起來很容易。這個公式被稱為最小二乘法。下圖說明了關于壓力和血壓的人工數據的方法。
    圖中使用勒讓德公式得出的直線。不到十年,最小二乘方法就成為法國、普魯士和意大利天文學家的標準方法。又過了20年,它成了英國的標準。
    高斯將最小二乘方法作為他在天體力學領域研究的基石。1801年,他成功預測了小行星谷神星的存在。這一預測奠定了他在數學和天文學上的聲譽,并使他成為哥根廷大學的天文學教授。高斯并沒有使用最小二乘來做這個特殊的預測,他的計算歸結為求解一個八次代數方程。但在1809年的《天體繞太陽作二次曲線運動的運動理論》中,他把重點放在了最小二乘法上。他還說,早在勒讓德10年前,他就提出并使用了這個方法,這引起了一些爭議。
    為什么觀測誤差應該是正態分布的?1810年,拉普拉斯給出了一個驚人的答案。拉普拉斯利用傅里葉變換證明了許多觀測值的平均值可以用鐘形曲線來描述,即使個別觀測值并非如此。他的結果,中心極限定理,是概率論和統計學的一個重要轉折點,因為它為數學家最喜歡的分布——鐘形曲線——分析觀測誤差提供了理論依據。
    中心極限定理指出鐘形曲線是唯一適合于多次重復觀測的均值的概率分布。因此,它被稱為“正態分布”。1865年,弗朗西斯·高爾頓研究了孩子的身高與其父母的身高之間的關系。這是一個更大的目標:理解遺傳。證明中心極限定理很困難,因為中心極限定理是一把雙刃劍。奎特雷發現了一個關于身高的漂亮的鐘形曲線,但這似乎并沒有顯示出影響身高的不同因素,因為中心極限定理預測了正態分布,不管這些因素的分布是什么。即使父母的特征是這些因素之一,他們也可能被其他因素所覆蓋——例如營養、健康、社會地位等等。
    • 高爾頓
    然而,到了1889年,高爾頓找到了擺脫這種困境的方法。拉普拉斯中心極限定理的證明依賴于平均許多不同因素的影響,但這些因素必須滿足一些嚴格的條件。1875年,高爾頓將這些條件描述為“高度人為的”:
    1. 它們的作用都是獨立的;
    2. 都是相等的(具有相同的概率分布);
    3. 所有人都承認自己被視為“高于平均水平”或“低于平均水平”的簡單替代品;
    4. 假設影響變量是無窮多的。
    這些條件都不適用于人類遺傳。條件(4)對應于拉普拉斯的假設,即被加因子的數目趨于無窮大,所以“無窮大”有點夸張;然而,數學所建立的是為了得到一個很好的正態分布的近似,必須結合大量的因素。每一個因素對平均值的貢獻很小。比方說,有100個因素,每個因素貢獻了其價值的百分之一。每一個單獨的實驗都沒有顯著的效果。
    中心極限定理為正態分布提供了一個充分條件,而不是一個必要條件。即使它的假設失敗,由于其他原因,有關的分布可能仍然是正態分布。高爾頓的任務就是找出這些原因。要想與遺傳聯系起來,它們必須適用于少數大而不同的影響的組合,而不是大量的無關緊要的影響。他慢慢地摸索著找到了解決辦法,并通過兩個實驗找到了答案。
    這兩個實驗都可以追溯到1877年。其中一種是設置一個裝置,在這種裝置中,滾珠從斜坡上掉下來,撞到一排柱上,向左或向右的幾率相等。理論上,球應該根據二項分布在底部堆積起來,所以它們應該形成一個大致鐘形的堆。
    他想象當球的一部分下落時,它們仍然會形成一個鐘形曲線,但這個鐘形更窄。這意味著最終的大鐘形曲線可以被看作是許多小曲線的總和。當多個因素(每個因素都遵循其獨立的鐘形曲線)組合在一起時,鐘形曲線就會自我復制。
    當高爾頓培育出豌豆時,關鍵時刻到來了。1875年,他把種子分給了七個朋友。每個人都收到了70粒種子,但重量都不同。1877年,他測量了這七組種子的“后代”。每一組都是正態分布,但每一組的平均重量不同,與原始組中每個種子的重量相當。當他將所有組的豌豆合并后,結果再次呈正態分布,但方差更大——鐘形曲線更寬。這再次表明,組合幾個鐘形曲線會產生另一個鐘形曲線。高爾頓找到了這一現象的數學原因。假設兩個隨機變量都是正態分布,均值和方差不一定相同。它們的和也是正態分布的;它的均值是兩個均值之和,它的方差是兩個方差之和。
    • 高爾頓豌豆實驗史料
    這個定理適用于少量的因子組合,每個因子可以乘以一個常數,所以它適用于任何線性組合。正態分布是有效的,即使每個因素的影響都很大。現在高爾頓可以看到這個結果是如何應用到遺傳上的。假設由孩子身高給出的隨機變量是父母身高相應隨機變量的組合,這些隨機變量是正態分布的。假設遺傳因素是相加的,那么孩子的身高也會呈正態分布。
    隨著鐘形曲線的中心作用被牢牢地固定在當時被認為是堅實的基礎上,統計學家可以以高爾頓的觀點為基礎,其他領域的工作者也可以應用這些結果。社會科學是早期的受益者,生物學緊隨其后,而由于勒讓德、拉普拉斯和高斯,物理科學已經走在了前面。很快,任何想要從數據中提取模式的人都可以使用完整的統計工具箱。我將只關注一種技術,因為它經常被用于確定藥物的有效性,以及許多其他應用。它被稱為假設檢驗,其目標是評估數據中明顯模式的重要性。它是由四個人建立的:英國人羅納德·艾爾默·費雪、卡爾·皮爾森和他的兒子埃根,以及一個生于俄羅斯、在美國度過了大部分時間的波蘭人杰西·內曼。
    在公眾意識中,“鐘形曲線”一詞與兩位美國人——心理學家理查德·J·赫恩斯坦和政治學家查爾斯·默里在1994年出版的爭議性著作《鐘形曲線》有著不可避免的聯系。這本書的主題是宣稱用智商衡量的智力與收入、就業、懷孕率、犯罪率等社會變量之間的聯系。作者認為,智商水平比父母的社會和經濟地位或教育水平更能預測這些變量。
    爭論是不可避免的,無論這本書的學術功過如何,因為它觸及了一根敏感的神經:種族和智力之間的關系。媒體報道傾向于強調智商差異主要源于遺傳,但這本書對這種聯系持謹慎態度,并對基因、環境和智力之間的相互作用持開放態度。另一個有爭議的問題是,一項分析表明,美國的社會分層在整個20世紀顯著增加,而主要原因是智力的差異。另一項是一系列處理這一所謂問題的政策建議。一是減少移民,書中稱移民降低了平均智商。也許最具爭議性的建議是,據稱鼓勵貧困婦女生育的社會福利政策應該停止。
    具有諷刺意味的是,這個想法要追溯到高爾頓本人。他在1869年出版的《遺傳天才》提出了這樣一個觀點:“人類的自然能力是在與整個有機世界的形式和物理特征完全相同的限制下,由遺傳得來的。”因此,在連續幾代中,通過明智的婚姻來產生一個具有高度天賦的男性種族是相當可行的。他斷言智商較低的人生育能力更高。相反,他表達了社會可能會發生變化的希望,讓更聰明的人理解多生孩子的必要性。
    把數學模型當作現實來看待是錯誤的。在物理科學中,模型通常非常符合現實,這可能是一種方便的思考方式。但在社會科學中,模型往往比漫畫好不了多少。僅僅因為智商具有數學譜系,就認為它是對人類能力的某種精確衡量,這種觀點也犯了同樣的錯誤。把廣泛的、極具爭議的社會政策建立在簡單化、有缺陷的數學模型之上是不明智的。
    概率論被廣泛應用于新藥和治療方法的醫學試驗中,用來檢驗數據的統計意義。測試通常基于底層分布是正態分布的假設。一個典型的例子是癌癥群集的檢測。對某些疾病而言,群集是指該疾病在總人口中發生的頻率高于預期的群體。集群可能是地理上的,也可能是指具有特定生活方式或特定時期的人。例如,退休的職業摔跤手,或者1960年到1970年出生的男孩。
    從賭博問題中衍生出來的統計方法有多種用途。它們為分析社會、醫療和科學數據提供了工具。任何使用統計方法的人都需要了解這些方法背后的假設及其含義。盲目地將數字輸入計算機,并把結果當作真理,而不理解所使用方法的局限性,這將導致災難。然而,合法使用統計數字已使我們的世界得到了翻天覆地的改善。這一切都始于奎特雷的鐘形曲線。

      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 无码毛片一区二区本码视频 | 人妻少妇456在线视频| 日本高清中文字幕免费一区二区| 美女被强奷到抽搐的动态图| 久久这里精品国产99丫E6| 九九电影网午夜理论片| 国产精品自在线拍国产| 丰满少妇被猛烈进入高清播放| 欧美日韩精品一区二区视频| 免费国产一区二区不卡| 丰满少妇人妻HD高清大乳| 亚洲欧洲中文日韩久久AV乱码| 国产精品福利中文字幕| 久久精品无码鲁网中文电影| 日韩人妻无码精品系列| XXXXXHD亚洲日本HD| 又粗又黑又大的吊AV| 毛片大全真人在线| 欧美性受XXXX黑人XYX性爽 | 午夜毛片精彩毛片| 无码AV岛国片在线播放| 亚洲人成网线在线播放VA| 亚洲AV成人中文无码专区| 69天堂人成无码免费视频 | 377P欧洲日本亚洲大胆| 天天做天天爱天天爽综合网| 国产69精品久久久久99尤物| 又大又粗欧美成人网站| 国产小受被做到哭咬床单GV| 亚洲欧美日韩精品久久亚洲区| 玩弄漂亮少妇高潮白浆| 116美女极品a级毛片| 久久久亚洲欧洲日产国码农村| 久久这里有精品国产电影网| 国产精品国产三级国产AV中文 | 久久精品国产一区二区三区不卡| 少妇群交换BD高清国语版| 久久一区二区中文字幕| 99久久久精品免费观看国产| 一区二区三区无码高清视频| 无码免费大香伊蕉在人线国产|