這本書的全名是:趣談概率——從擲骰子到阿爾法狗。這本書的作者張天蓉,是一位女士,美國德州奧斯丁大學理論物理博士,雖然她的知識淵博,但她出版的書籍都深入淺出,哪怕是小白也特別容易看懂。我將用兩周的時間,為大家領讀這本書。 概率論誕生于17世紀,源于一場賭博。發明概率論的法國的數學家帕斯卡,首先我們科普一下帕斯卡這個人。帕斯卡是一個神童,12歲的時候就發現了幾何學里邊的一個規律,三角形的三個角之和等于180度,如果你對數學有研究的就知道,這個正是在歐幾里得的《幾何原本》證明過的第32條定理。在16歲的時候,帕斯卡創作了論文《圓錐曲線專論》,證明了:圓錐內曲線內接六邊形,它的三對底邊延長線的交點,在一條直線上。這個就是帕斯卡定理。當時的專家學者感覺太不可思議了,是不是真的他證明的啊?甚至還懷疑是不是他父親代寫的? 除了對數學方面的成就,帕斯卡在物理領域也有很大的貢獻,他用水銀柱測量氣壓,水銀柱越高,說明氣壓越高。經過無數次實驗,證實了水銀柱的高度隨著海拔的高度減少。后人為了紀念帕斯卡,就把氣壓的單位用“帕”表示。說句題外話,我當年做軟件開發的時候,接觸過一門編程語言,是Pascal,也是以帕斯卡的名字命名的編程語言,由此可見帕斯卡在歷史上的地位多高。其實,這些都不是本書的重點,帕斯卡最偉大的地方,就是創立了概率論。概率論怎么誕生的呢?我們就從一場貴族的賭博游戲說起。 1 賭博中途退賽,如何分錢?當年有一位貴族,特別喜歡賭博,尤其是擲骰子的游戲。當然,他在玩的過程中,也會思考一些相關的數學問題。1654年,他向帕斯卡請教一個親身經歷的分錢問題。這個問題大概是這樣的:貴族約了一個賭友各自拿出10元出來對賭,誰先贏了就可以把20元全部拿走。他們怎么對賭呢?比如說是拋硬幣,拋到正面的就是貴族贏1分,反面的就是賭友贏1分,誰先拿到10分的,就贏得全部賭金。問題來了,當對賭進行到中途,貴族得到8分,而賭友也獲得7分的時候,貴族有點急事要出去處理,這場賭博就不能進行下去了,此時此刻,這20元應該怎么分? 如果說,把這20元都物歸原主,那么貴族肯定不干,因為他都贏了8分,還有2分就勝利了;如果說就判貴族贏吧,那賭友肯定不干,他也贏了7分,雖然比貴族少了1分,但還沒到最后,誰說他一定會輸呢?如何分錢,才算是合理呢? 前面得了多少分,這個已經是確定性的了,如何分錢是取決于后面得分的可能性,所以要重點關注后邊幾局,要是貴族再得2分,就贏得賭局;反之要是賭友再得3分,就是他贏。只要再比4次,就可以分出勝負。所以,帕斯卡所有可能發生的情況,都排列組合一遍,我們把貴族看作是甲方,而賭友看作是乙方,一共有16種情況,能夠讓甲方贏的有11種,而讓乙方贏的有5種。 這也就說明,貴族最終贏的勝利的概率是11/16,而賭友贏的概率是5/16,再把這個賭金重新乘以這個概率,我們可以得出;貴族應該拿回13.75元,而賭友拿回剩下的6.25元,問題解決了! 2 真實的概率,可能跟我們的直覺大相徑庭在年初的時候,在某個小區做了全員核酸檢測,張三“幸運地”檢測出了陽性,這個結果把他嚇了一跳,到底張三有沒有中招呢?我不知道核酸檢測的準確率是多少,姑且假定為“1%的假陽性率,1%的假陰性率”,也就是說,本來是陽性,檢測出陰性的概率是1%,或者本來是陰性,檢測出陽性的概率是1%。那么,對于中招的人來說,99%真的是陽性,而沒有中招的人,也有可能1%是假陽性。所以,張三被拉去隔離了。 在隔離的時候,張三跟醫生交談,內心害怕得要命。他恰好遇到一個懂數學的醫生,告訴他:怕啥呢,這種好事沒這么容易輪到你!張三說:“不是啊,檢測出來的結果,不是99%的概率正確的嗎?”醫生笑了笑,說道:別忘了,真正被感染的人,也許1000個只有一個,所以你中招的概率,并不是99%。那么,到底是多少呢? 我們從概率論去分析,因為核酸檢測的誤報率是1%,所以說在1000人里邊,有10個是誤報的,只有1個是真正的中招(真陽性只有1個)。所以,11個人里邊,只有1個是真正的陽性,所以張三中招的概率,不是99%,而是1/11=0.09%!這個過程怎么推算的呢?考慮到大多數人看公式不一定能看懂,你就記住這個答案可以了。總之,因為真正是有病的人概率很小的,哪怕它檢測出來99%準確,其實中招的概率也并不大。 如果說,核酸檢測離我們太遠,不足以說明真實的概率,跟我們的直覺有很大的差異,那么再看看我們常見的情況。比如說拋硬幣,要是你連續5次拋出的都是正面,那么你可以告訴我,第6次是正面還是反面呢?這也許就有兩種聲音:第一種,既然前面這么多次都是正面,那么還是正面也很合理啊;第二種,都已經出了這么多次正面了,下一次是不是應該來一次反面呢?但是,我想說的是,這兩個想法都是錯的!為什么呢?假如沒有前面5次拋硬幣的結果,你覺得是正面還是反面呢?這就不確定了!只要這個硬幣沒有做過手腳,每一次拋出正反兩面出現的概率,都是50%,跟上一次的結果并沒有任何關系。 只要拋硬幣的次數足夠多,正反兩面出現的概率,都會出現50%!問題來了,是不是我們可以認為,“風水輪流轉”呢?有很多人研究彩票的時候,都會很認真分析每一期開出的數字,試圖從中找到規律,比如說,某個冷門的數字好像很久沒有開過獎了,這一期會不會開它呢?但我想要說的是,研究彩票規律,都是妥妥的無用功!你可以認為,每一期數字出現的概率是相等的,但要多少期才會出現對等的情形呢?答案是——無窮大!你想要通過“風水輪流轉”來實現中獎的目標,你要么就是有無窮多的錢,要么就是有無窮大的壽命,而且彩票公司還不能破產。 古語有說“善有善報惡有惡報”,這句話正確嗎?如果單純是從古典概率來說,這絕對是扯淡。某個人做了好事,但并沒有記載下來,所以做了跟沒做,結果都是一樣的;同樣道理,一個人做了坑蒙拐騙的事情,只要沒有被人逮到,換了一個環境,同樣還是會得逞。做好事并沒有感動上天,做壞事也并沒有人會知曉,在這種情況下,其實并不成立。當然,現在是大數據的時代,你做過的事情,不論是好事或者壞事,都會記錄下來評判一個人,就需要用到貝葉斯定律,這個我們再下一篇會講到。 3 正態分布:印在鈔票上的函數圖形如果說,有一張鈔票,印有函數的圖像,你相信嗎?德國的10馬克鈔票,就印有高斯的頭像,以及他的偉大發明,正態分布的函數圖形,由此可見,正態分布的價值有多大。我們觀察一下這個函數圖像,中間大,兩邊小。這意味著什么呢? 我們還是拿拋硬幣的例子來說吧,假如你拋硬幣拋4次,會有多少次的正面呢?這就有16種組合,其中一個正面都沒有的,只有1種組合;全部都是正面的,也是只有1種組合;出現一個正面的,或者三個正面的,分別有4種組合;出現2個正面的情況最多,有6種組合。我們把這個組合圖形畫出來,是不是就是一個正態分布圖像,中間大,兩邊小? 說了這么多,到底正態分布跟我們生活有什么關系呢?其實關系大著呢!比如很多人吃自助餐,總想把人家的自助餐廳吃垮。到底能不能把人家的餐廳吃垮呢?為了簡化期間,我就只假設自助餐的價格是每個人88元,它是根據什么來定這個價格的呢?作為餐飲行業,保守估計,好歹也得賺一半吧,那它的成本是每個人44元這樣子。在配食材之前,它就會用到正態分布,中間的那個峰值就是44元,這就是一個均值,至少有68%的人,都在44元這個范圍內波動。你想要吃垮自助餐,就得吃得超過這個成本價。雖然說,偶爾會有幾個人能夠吃超這個成本,也頂多是在68%~95%這個范圍內波動。 也就是說,你想要吃垮自助餐,除非你的食量驚人,超過95%以上的人,要不然吃垮只是一個傳說。你能確定自己的食量這么拔尖嗎?哪怕偶爾有這么幾個像你這樣有256G的胃口,但畢竟占5%左右,對于自助餐廳而言,根本是無傷大雅。 從另一個方面看,自助餐廳的定價也是很講究的,如何能夠實現盈利呢?最重要的,就是人多,畢竟食材的成本都是固定的,越多人來付餐費,錢就賺得越多。所以,他們價格不能定得太高,因為太高的話,來就餐的人就少了;如果說定價低了呢,跟這個平均食量不匹配,那真的就會有大量的大胃王涌入,這回真的是會被吃垮的。所以說,要是你做自助餐的老板,也得好好琢磨一下正態分布的模型。 好了,今天我們就先聊到這里,主要是談論了相互獨立的概率;但是,每一件事情往往是有關聯的,這就要用到貝葉斯定理。關于這個話題,我們下一篇再談。我是@狂人先生,我們下一篇不見不散! |
|