久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    為什么正態(tài)分布在AI中如此重要?

     goandlove 2019-07-17

    普通概率分布有什么特別之處?為什么這么多數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)文章圍繞正態(tài)概率分布?


    我決定寫一篇文章試圖以一種易于理解的方式解釋正態(tài)概率分布的概念。

    機(jī)器學(xué)習(xí)的世界圍繞概率分布,概率分布的核心集中在正態(tài)分布上。本文說(shuō)明了正態(tài)分布是什么以及為什么它被廣泛使用,特別是對(duì)于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家。

    我將從基礎(chǔ)知識(shí)中解釋一切,以便讀者理解為什么正態(tài)分布非常重要

    文章結(jié)構(gòu)

    本文將解釋:

    概率分布是什么?
    什么正態(tài)分布意味著什
    哪些變量表現(xiàn)出正態(tài)分布?
    如何在Python中檢查數(shù)據(jù)集的分布?
    如何使變量在Python中正常分布?
    正常問(wèn)題

    照片由TimJ在Unsplash上拍攝

    首先是一點(diǎn)背景
    首先,最重要的一點(diǎn)是正態(tài)分布也稱為高斯分布。
    它以Carl Friedrich Gauss天才命名。

    正態(tài)分布也稱為高斯分布。

    最后,需要注意的一點(diǎn)是,簡(jiǎn)單的預(yù)測(cè)模型通常是最常用的模型,因?yàn)樗鼈兛梢员唤忉尣⑶冶怀浞掷斫狻,F(xiàn)在補(bǔ)充一點(diǎn); 正態(tài)分布很簡(jiǎn)單,因此它的簡(jiǎn)單性使它非常受歡迎。

    因此,值得了解正態(tài)概率分布是什么。

    但首先,概率分布意味著什么?

    讓我先解釋一下構(gòu)建適當(dāng)?shù)臉?gòu)建塊。

    考慮我們可能有興趣在我們的數(shù)據(jù)科學(xué)項(xiàng)目中構(gòu)建的預(yù)測(cè)模型。

    如果我們想要準(zhǔn)確地預(yù)測(cè)變量,那么我們需要執(zhí)行的第一項(xiàng)任務(wù)就是了解目標(biāo)變量的基本行為。

    我們首先需要做的是確定目標(biāo)變量的可能結(jié)果,以及潛在結(jié)果是離散的(不同的值)還是連續(xù)的(無(wú)限值)。為簡(jiǎn)單起見,如果我們估計(jì)骰子的行為,那么第一步是知道它可以取1到6的任何值(離散)。

    然后,下一步是開始為事件(值)分配概率。因此,如果不能發(fā)生值,則為其分配概率為0%。

    概率越高,事件發(fā)生的可能性越大。

    攝影:Brett Jordan,來(lái)自Unsplash

    作為一個(gè)例子,我們可以開始重復(fù)實(shí)驗(yàn)很多次并開始注意我們?yōu)樽兞繖z索的值。

    現(xiàn)在我們可以做的是將值分組到類別/桶中。對(duì)于每個(gè)存儲(chǔ)桶,我們可以開始記錄變量具有存儲(chǔ)桶值的次數(shù)。例如,我們可以擲骰子10000次,因?yàn)轺蛔涌梢杂?個(gè)可能的值,我們可以創(chuàng)建6個(gè)桶。并開始記錄每個(gè)值的出現(xiàn)次數(shù)。

    我們可以繪制圖表,它將形成一條曲線。該曲線稱為概率分布曲線,目標(biāo)變量獲得值的可能性是變量的概率分布。

    一旦我們理解了值的分布情況,我們就可以開始估計(jì)事件的概率,即使是通過(guò)使用公式(稱為概率分布函數(shù))。因此,我們可以更好地了解其行為。概率分布取決于樣本的時(shí)刻,例如平均值,標(biāo)準(zhǔn)偏差,偏度和kertosis。

    如果添加所有概率,則總計(jì)將達(dá)到100%。

    存在大量概率分布,并且最廣泛使用的概率分布被稱為“正態(tài)分布”。


    讓我們現(xiàn)在轉(zhuǎn)向正態(tài)概率分布

    如果繪制概率分布并形成鐘形曲線并且樣本的均值,模式和中值相等,則變量具有正態(tài)分布。

    這是正態(tài)分布鐘形曲線的示例:


    理解和估計(jì)目標(biāo)變量的概率分布非常重要。

    以下變量接近正態(tài)分布變量:

    人口的高度
    成年人的血壓
    經(jīng)歷擴(kuò)散的粒子的位置
    測(cè)量誤差
    回歸中的殘差
    鞋子大小的人口
    員工到家的時(shí)間
    大量的教育措施

    此外,我們周圍有大量的變量是正常的,ax%置信度; x <100。

    攝影:Mathew Schwartz在Unsplash上

    什么是正態(tài)分布?

    正態(tài)分布是僅依賴于數(shù)據(jù)集的兩個(gè)參數(shù)的分布:其平均值和樣本的標(biāo)準(zhǔn)偏差。

    平均值 - 這是樣本中所有點(diǎn)的平均值。
    標(biāo)準(zhǔn)偏差 - 表示數(shù)據(jù)集偏離樣本平均值的程度。

    分布的這種特性使統(tǒng)計(jì)人員非常簡(jiǎn)單,因此任何具有正態(tài)分布的變量都可以以更高的精度進(jìn)行預(yù)測(cè)。

    現(xiàn)在,需要注意的是,一旦你發(fā)現(xiàn)大多數(shù)變量在自然界中的概率分布,那么它們都大致遵循正態(tài)分布。

    正態(tài)分布很容易解釋。原因是:

    分布的均值,模式和中位數(shù)相等。
    我們只需要使用均值和標(biāo)準(zhǔn)差來(lái)解釋整個(gè)分布。

    正態(tài)分布只是......我們熟悉的正常行為

    但是,如此多的變量大致正態(tài)分布?它背后的邏輯是什么?

    這個(gè)想法圍繞著這樣的定理:當(dāng)你在大量隨機(jī)變量上重復(fù)實(shí)驗(yàn)很多次時(shí),它們的分布總和將非常接近正態(tài)性。

    由于人的身高是一個(gè)隨機(jī)變量,并且基于其他隨機(jī)變量,例如一個(gè)人消耗的營(yíng)養(yǎng)量,他們所處的環(huán)境,他們的遺傳等等,這些變量的分布總和最終是非常接近正常。

    這被稱為中心極限定理。


    這將我們帶到了文章的核心:

    我們從上面的部分可以理解,正態(tài)分布是許多隨機(jī)分布的總和。如果我們繪制正態(tài)分布密度函數(shù),它的曲線具有以下特征:

    上面的鐘形曲線有100個(gè)均值和1個(gè)標(biāo)準(zhǔn)差

    平均值是曲線的中心。這是曲線的最高點(diǎn),因?yàn)榇蠖鄶?shù)點(diǎn)都是平均值。
    曲線的每一側(cè)有相同數(shù)量的點(diǎn)。曲線的中心具有最多的點(diǎn)數(shù)。
    曲線下的總面積是變量可以采用的所有值的總概率。
    因此總曲線面積為100%

    所有點(diǎn)中約68.2%在-1至1標(biāo)準(zhǔn)偏差的范圍內(nèi)。
    所有點(diǎn)中約95.5%在-2至2個(gè)標(biāo)準(zhǔn)偏差的范圍內(nèi)。
    所有點(diǎn)中約99.7%在-3至3個(gè)標(biāo)準(zhǔn)偏差的范圍內(nèi)。

    這使我們可以輕松估計(jì)變量的易變性,并給出置信水平,它的可能值是多少。

    例如,在上面的灰色鐘形曲線中,變量值在66-99之間的可能性為68.2%。

    想象一下,在使用該信息做出未來(lái)決策時(shí),您現(xiàn)在可以擁有的信心!


    正態(tài)概率分布函數(shù)

    正態(tài)分布的概率密度函數(shù)是:


    概率密度函數(shù)基本上是連續(xù)隨機(jī)變量取值的概率。

     正態(tài)分布是鐘形曲線,其中mean = mode = median。

    如果使用其計(jì)算的概率密度函數(shù)繪制概率分布曲線,則給定范圍的曲線下面積給出目標(biāo)變量在該范圍內(nèi)的概率。


    該概率分布曲線基于概率分布函數(shù),該概率分布函數(shù)本身是根據(jù)諸如平均值或變量的標(biāo)準(zhǔn)偏差的多個(gè)參數(shù)計(jì)算的。


    我們可以使用這個(gè)概率分布函數(shù)來(lái)找出隨機(jī)變量取一個(gè)范圍內(nèi)的值的相對(duì)概率。作為一個(gè)例子,我們可以記錄股票的每日回報(bào),將它們分組到適當(dāng)?shù)耐爸校缓笳业焦善痹谖磥?lái)獲得20-40%收益的概率。

    標(biāo)準(zhǔn)偏差越大,樣品中的揮發(fā)性越大。


    如何在Python中查找功能分發(fā)?

    我遵循的最簡(jiǎn)單的方法是加載數(shù)據(jù)框中的所有功能,然后編寫此腳本:

    使用Python Pandas libarary:

    DataFrame.hist(bins = 10)#制作DataFrame的直方圖。

    它向我們展示了所有變量的概率分布。


    變量具有正態(tài)分布意味著什么?

    現(xiàn)在更令人著迷的是,一旦你添加了大量具有不同分布的隨機(jī)變量,你的新變量將最終具有正態(tài)分布。這基本上稱為中心極限定理。

    表現(xiàn)出正態(tài)分布的變量總是表現(xiàn)出正態(tài)分布。作為一個(gè)例子,如果A和B是兩個(gè)具有正態(tài)分布的變量,那么:

        A x B是正態(tài)分布的
        A + B通常是分布式的

    結(jié)果,由于眾所周知的概率分布函數(shù),預(yù)測(cè)變量并在一定范圍內(nèi)找到它的概率非常簡(jiǎn)單。


    如果樣品分布不正常怎么辦?


    您可以將要素的分布轉(zhuǎn)換為正態(tài)分布。

    我使用了許多技術(shù)來(lái)使功能正常分布:


    1.線性變換

    一旦我們收集變量的樣本,我們就可以通過(guò)使用上面的公式線性轉(zhuǎn)換樣本來(lái)計(jì)算Z得分:

    計(jì)算平均值
    計(jì)算標(biāo)準(zhǔn)偏差
    對(duì)于每個(gè)值x,使用以下方法計(jì)算Z:

    2.使用Boxcox轉(zhuǎn)換

    您可以使用SciPy Python包將數(shù)據(jù)轉(zhuǎn)換為正態(tài)分布:

    scipy.stats.boxcox(x ,lmbda =無(wú),alpha =無(wú))

    3.使用Y eo-Johnson轉(zhuǎn)換

    另外,可以使用電力變壓器yeo-johnson。Python的sci-kit learn提供了相應(yīng)的功能:

    sklearn.preprocessing.PowerTransformer(method ='yeo-johnson',standardize = True,copy = True)

    注意,建議了解何時(shí)使用每個(gè)電源變壓器。對(duì)Box-Cox和Yeo Johnson等電力變壓器及其用例的解釋超出了本文的范圍。


    常態(tài)問(wèn)題


    由于正態(tài)分布簡(jiǎn)單且易于理解,因此它也在預(yù)測(cè)項(xiàng)目中過(guò)度使用。假設(shè)正常有其自身的缺陷。作為一個(gè)例子,我們不能假設(shè)股票價(jià)格遵循正態(tài)分布,因?yàn)閮r(jià)格不能為負(fù)。因此,股票價(jià)格可能跟隨正態(tài)分布的對(duì)數(shù),以確保它永遠(yuǎn)不會(huì)低于零。

    我們知道回報(bào)可能是負(fù)數(shù),因此回報(bào)可以遵循正態(tài)分布。

    假設(shè)變量遵循正態(tài)分布而不進(jìn)行任何分析是不明智的。

    變量可以遵循Poisson,Student-t或Binomial分布作為實(shí)例,并錯(cuò)誤地假設(shè)變量遵循正態(tài)分布可能導(dǎo)致不準(zhǔn)確的結(jié)果。


    總結(jié)

    本文闡述了正態(tài)分布是什么以及為什么它如此重要,特別是對(duì)于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家。

    希望能幫助到你。

    需要學(xué)習(xí)AI或者Python請(qǐng)加微信號(hào):Aspencore6,將會(huì)定期邀請(qǐng)入群。


    總結(jié)

    本文闡述了正態(tài)分布是什么以及為什么它如此重要,特別是對(duì)于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家。

    希望能幫助到你。

    需要學(xué)習(xí)AI或者Python請(qǐng)加微信號(hào):Aspencore6,將會(huì)定期邀請(qǐng)入群。

    來(lái)源:https:///fintechexplained/ever-wondered-why-normal-distribution-is-so-important-110a482abee3

      本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評(píng)論

      發(fā)表

      請(qǐng)遵守用戶 評(píng)論公約

      類似文章 更多

      主站蜘蛛池模板: 久久综合亚洲鲁鲁九月天| 草草影院精品一区二区三区| 久久精品第九区免费观看| 少妇熟女久久综合网色欲| 国产精品视频亚洲二区| 久女女热精品视频在线观看| 国产尤物精品自在拍视频首页| 国产精品美女久久久久久麻豆 | 色婷婷婷亚洲综合丁香五月| 精品少妇人妻AV无码久久| 无码AV人片在线观看天堂| 老司机久久99久久精品播放免费| 日日摸夜夜添夜夜添高潮喷水| 无码精品人妻一区二区三区影院| 亚洲综合激情另类小说区 | 人妻 日韩 欧美 综合 制服| 一本一道av中文字幕无码| 国产中文字幕一区二区| 老色鬼在线精品视频| 国产AV激情久久无码天堂| AV老司机亚洲精品天堂| 二区三区亚洲精品国产| 老少配老妇老熟女中文普通话| 亚洲一区二区三区无码中文字幕| 伊人久久无码大香线蕉综合| 国产黑色丝袜在线播放| 国产福利高颜值在线观看| 熟妇人妻无码中文字幕| 精品一区二区三区不卡| 天天做日日做天天添天天欢公交车| 精品国精品自拍自在线| 国产成人精品A视频免费福利 | 精品无码一区在线观看| 亚洲国产精品一区二区第一页| 无码人妻丰满熟妇啪啪网不卡| 婷婷综合久久狠狠色成人网| 久久96热在精品国产高清| 无码精品久久久久久人妻中字| 国精品午夜福利视频| 亚洲色一色噜一噜噜噜| 久久国产加勒比精品无码|