通俗講解正態(tài)分布的形狀、特征以及使用

2024/6/16 3:13:56 人評(píng)論次瀏覽分類：技術(shù)方案文章地址：http://m.prosperiteweb.com/tech/5654.html

正態(tài)分布(Normal distribution)又名高斯分布(Gaussian distribution)，簡(jiǎn)單來(lái)說(shuō)，它描述的就是正常分布，比如身高、體重、一些社會(huì)中的財(cái)富等分布，多數(shù)人都會(huì)集中在某個(gè)區(qū)間。盡管在高斯之前，有些數(shù)學(xué)家已經(jīng)發(fā)現(xiàn)了這一規(guī)律，但高斯是將其更嚴(yán)格描述的人。

德幣10馬克印有高斯頭像，以及他的“代表作”高斯分布曲線

用時(shí)髦的話來(lái)講，正態(tài)分布是一個(gè)“高性價(jià)比”的思考工具，因?yàn)樗?jiǎn)單易學(xué)且應(yīng)用廣。正態(tài)分布廣泛存在于自然界、社會(huì)科學(xué)、人文科學(xué)等領(lǐng)域，比如動(dòng)物骨骼大小、考試成績(jī)、產(chǎn)品質(zhì)量指標(biāo)、農(nóng)作物產(chǎn)量等數(shù)據(jù)分布大多符合這一規(guī)律。在統(tǒng)計(jì)推斷中，它是最重要的一類概率分布，也是許多統(tǒng)計(jì)方法的理論基礎(chǔ)。

正態(tài)分布的知識(shí)關(guān)系圖

正態(tài)分布的背景知識(shí)
平均值、方差、標(biāo)準(zhǔn)差三個(gè)部分如同土壤，會(huì)很大程度影響正態(tài)分布這棵樹的生長(zhǎng)情況。因此，在介紹正態(tài)分布前，筆者需要簡(jiǎn)單介紹平均值、方差、標(biāo)準(zhǔn)差。

由于樣本量的不同，平均值、方差、標(biāo)準(zhǔn)差可以分“總體”和“樣本”兩類。為強(qiáng)化對(duì)比，在后文的介紹中，筆者會(huì)在它們前面加上限定詞，即“總體”或“樣本”。如果沒(méi)有限定詞，那么平均值、方差、標(biāo)準(zhǔn)差所指代的就是總體的平均值、方差、標(biāo)準(zhǔn)差。

1、平均值
平均值(平均數(shù))是的小學(xué)舊識(shí)。溫故知新，因?yàn)樗鼤?huì)在新情景下返場(chǎng)，用簡(jiǎn)潔、嚴(yán)謹(jǐn)、優(yōu)美的數(shù)學(xué)語(yǔ)言，一句話回顧平均值：平均值是一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個(gè)數(shù)，用于表示一組數(shù)據(jù)的集中趨勢(shì)。例：1和10的平均值是這樣計(jì)算的：(1+10)/2=5.5。

在正態(tài)分布中，由于樣本量不同，平均值又可以分為總體平均值(μ)和樣本平均值(

)兩類，兩者的計(jì)算方法是一樣的，只是符號(hào)有差異。

【小貼士】希臘字母“μ”，發(fā)音為mu，是代表總體平均值的符號(hào)；“

”這個(gè)符號(hào)念作“X bar”，用于代表樣本平均值。

2、方差
方差是衡量一組數(shù)據(jù)波動(dòng)大小的統(tǒng)計(jì)量。我們學(xué)習(xí)方差最重要的，不在于掌握繁雜的計(jì)算，而是能夠根據(jù)其結(jié)果，了解所有數(shù)據(jù)的狀態(tài)。

方差分為兩類：總體方差和樣本方差。兩者的基本思路一致，但最大的差別在于樣本量不同，前者是整體，后者是整體中的部分。

若X1，X2，X3......Xn的平均數(shù)為μ，則總體方差可表示為：

【小貼士】希臘字母“ ∑” 的小寫形式為“σ”，英譯音為Sigma，大小寫符號(hào)都念“西格瑪”。圖片表示從1到n的多項(xiàng)求和。

我們還是用上面的1和10兩個(gè)數(shù)字，總體平均值μ=5.5的簡(jiǎn)單例子，來(lái)看總體方差公式如何使用。(少量數(shù)據(jù)好計(jì)算，數(shù)據(jù)多的話，就讓計(jì)算機(jī)/器幫忙吧。)

回到總體方差和樣本方差區(qū)別的話題，這里舉個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明。假設(shè)我們想知道中國(guó)人身高的標(biāo)準(zhǔn)差，但因人、財(cái)、物力有限，我們不可能把所有人都量一遍，因此，只能退而求其次，采取抽樣策略，用樣本標(biāo)準(zhǔn)差來(lái)推測(cè)整體，這時(shí)，我們就會(huì)用到樣本方差。

樣本方差和總體方差計(jì)算上略有區(qū)別，主要體現(xiàn)在分母上。不同于總體方差的分母為n，樣本方差的分母為n-1。這里“-1”是為了修正樣本方差對(duì)總體方差的估計(jì)偏差，這種現(xiàn)象被稱為“貝塞爾校正”(Bessel's correction)。

這個(gè)減去的“1”，不特指任何一個(gè)數(shù)，它代表那個(gè)失去“獨(dú)立客觀”的維度(自由度)。

樣本方差的計(jì)算公式如下：

因此，在計(jì)算樣本標(biāo)準(zhǔn)差(S，即樣本方差開根號(hào))時(shí)，其分母也是n?1而不是n(即樣本大小減1)。這里在后文標(biāo)準(zhǔn)差的部分還會(huì)提到。

【小貼士】樣本標(biāo)準(zhǔn)差的分母為什么為n-1在數(shù)學(xué)領(lǐng)域已被證明，是較復(fù)雜的內(nèi)容，這里不做過(guò)多展開，有興趣的讀者可查閱相關(guān)資料。

在公式的應(yīng)用過(guò)程中，你或許會(huì)覺(jué)得計(jì)算很麻煩(事實(shí)也確實(shí)如此)。好消息是，計(jì)算在方差中并不是最重要的，我們要做的，是關(guān)注總體方差(σ2)的值，并由此了解方差想告訴我們的秘密：數(shù)據(jù)內(nèi)部的狀態(tài)如何。

在投資分析中，尤其是在股票投資中，方差是一個(gè)有用的統(tǒng)計(jì)工具，它可以幫助投資者了解投資組合的風(fēng)險(xiǎn)水平。同樣的回報(bào)率，方差越小，則風(fēng)險(xiǎn)越低。

方差越小，數(shù)的分布越集中；方差越大，數(shù)的分布越分散

3、標(biāo)準(zhǔn)差
標(biāo)準(zhǔn)差(Standard Deviation)是方差的算術(shù)平均數(shù)的平方根，也用于反映一個(gè)數(shù)據(jù)集的離散程度。標(biāo)準(zhǔn)差實(shí)際上就是方差開根。

整體標(biāo)準(zhǔn)差用σ表示，樣本標(biāo)準(zhǔn)差用S表示。兩者的公式如圖：

整體標(biāo)準(zhǔn)差計(jì)算公式

在本小節(jié)的末尾，我們來(lái)做個(gè)平均值、方差、標(biāo)準(zhǔn)差在“總體”和“樣本”符號(hào)系統(tǒng)區(qū)別上的總結(jié)。詳見下表：

平均值、方差、標(biāo)準(zhǔn)差在“總體”和“樣本”符號(hào)系統(tǒng)區(qū)別

當(dāng)我們談?wù)撘粋€(gè)正態(tài)分布時(shí)，通常是在談?wù)撘粋€(gè)總體的分布，而不是一個(gè)樣本的分布。因此，使用μ來(lái)表示正態(tài)分布的均值是合適的。

均值、方差、標(biāo)準(zhǔn)差的背景介紹已結(jié)束。別走開，下節(jié)更精彩，主角正態(tài)分布閃亮登場(chǎng)。

正態(tài)分布的主干知識(shí)
1、正態(tài)分布
正態(tài)分布一種常見的連續(xù)概率分布，它在自然科學(xué)和社會(huì)科學(xué)中常用于表示未知的隨機(jī)變量。若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、方差為σ2的正態(tài)分布，則記為N(μ，σ2)。

正態(tài)分布的曲線呈鐘型，因此人們又經(jīng)常稱之為“鐘形曲線”。正態(tài)分布雖有無(wú)數(shù)種形態(tài)，但仍由μ(平均值)和σ(標(biāo)準(zhǔn)差)兩個(gè)數(shù)值決定。其中，μ決定了正態(tài)分布的位置，σ決定了分布的幅度。理解了這一點(diǎn)，你就不需要單獨(dú)記憶每一個(gè)正態(tài)分布圖啦。

現(xiàn)在，讓我們一起來(lái)看一些有代表性的正態(tài)分布圖吧(下面的文字濃度有點(diǎn)高，值得多看幾遍)：

①當(dāng)μ=0，σ=1時(shí)，這個(gè)正態(tài)分布就是標(biāo)準(zhǔn)正態(tài)分布，(見下圖紅線)。
②以正態(tài)分布為參考標(biāo)準(zhǔn)，μ為負(fù)則圖形向左移動(dòng)(見下圖綠線)，反之，μ為正，則圖形向右移動(dòng)。
③μ不變，σ越小，則正態(tài)分布曲線越陡峭(見下圖藍(lán)線)，圖像越“高瘦”，反之則越平緩(見下圖黃線)，圖像越“矮胖”。

【小貼士】不知道你是否注意到，和各行業(yè)一樣，數(shù)學(xué)也有自己的業(yè)內(nèi)術(shù)語(yǔ)，比如正態(tài)分布定義里的“服從”和“期望”。

數(shù)學(xué)語(yǔ)言中的“服從”是指“符合”、“遵從”的意思，一般指事物符合數(shù)學(xué)中的發(fā)展規(guī)律。

另外，數(shù)學(xué)術(shù)語(yǔ)中，“期望”或“數(shù)學(xué)期望”是一個(gè)重要的概念，特別是在概率論和統(tǒng)計(jì)學(xué)中。它表示隨機(jī)變量的預(yù)期值或平均值。

除了上面的例子，正態(tài)分布其實(shí)還有數(shù)種形態(tài)，但它們的模型主要由μ(平均值)和σ(標(biāo)準(zhǔn)差)兩個(gè)數(shù)值決定。

介紹了決定正態(tài)分布曲線的關(guān)鍵參數(shù)后，我們?cè)賮?lái)看看關(guān)于曲線下方覆蓋面積呈現(xiàn)的規(guī)律。在距離平均值±1的標(biāo)準(zhǔn)差(即±σ)范圍內(nèi)，集中著約全體68.26%的數(shù)據(jù)；距離平均值±2的標(biāo)準(zhǔn)差(即±2σ)，集中著約95.45%的數(shù)據(jù)；距離平均值±3的標(biāo)準(zhǔn)差(即±3σ)，包含著99.73%的數(shù)據(jù)。曲線下方覆蓋的面積，在統(tǒng)計(jì)學(xué)上被稱“置信區(qū)間”。

正態(tài)分布圖

這張圖是不是有點(diǎn)抽象？舉幾個(gè)例子，讓置信區(qū)間中的數(shù)字走進(jìn)生活。

①有大約68%的可能性，動(dòng)態(tài)范圍不超過(guò)平均值±σ。在一個(gè)班上，一班的平均分為80分，如果標(biāo)準(zhǔn)差為5分，我們就有68%的置信度說(shuō)，考慮到隨機(jī)性的影響，這個(gè)班的平均成績(jī)應(yīng)落在75~85之間，而不是之外。

②有大約95%的可能性，動(dòng)態(tài)范圍不超過(guò)平均值±2σ，即兩個(gè)σ的置信度是95%。做科學(xué)試驗(yàn)時(shí)，通常需要有95%的置信度，才能得到大家認(rèn)可的結(jié)論；在產(chǎn)品質(zhì)檢中，可以通過(guò)抽樣檢測(cè)來(lái)估計(jì)產(chǎn)品的平均質(zhì)量水平，并利用95%置信區(qū)間來(lái)評(píng)估這個(gè)估計(jì)的可靠性。

③如果我們進(jìn)一步擴(kuò)大誤差范圍到±3σ，那么這個(gè)置信度就提高到99.7%。在要求極高的實(shí)驗(yàn)中，我們甚至?xí)筮_(dá)到99.7%的置信度，甚至更高；在招聘中，面試官可以使用3σ原則來(lái)確定錄取分?jǐn)?shù)線。通過(guò)計(jì)算應(yīng)聘者的平均分?jǐn)?shù)和標(biāo)準(zhǔn)差，可以確定一個(gè)合理的分?jǐn)?shù)線范圍，從而篩選出合格的應(yīng)聘者。

【小貼士】總體正態(tài)分布圖vs樣本正態(tài)分布圖(符號(hào)區(qū)別)

正態(tài)分布的標(biāo)準(zhǔn)化
在正態(tài)分布的主干知識(shí)中，我們介紹了影響正態(tài)分布形態(tài)的土壤(平均值、方差、標(biāo)準(zhǔn)差)，以及由此長(zhǎng)出的小樹(正態(tài)分布的圖像)。

1、標(biāo)準(zhǔn)化與查表求概率
雖然通過(guò)觀察圖也能把握大致情況，但計(jì)算數(shù)值后會(huì)更便于理解，也方便向他人展示。好消息是，Z轉(zhuǎn)換(標(biāo)準(zhǔn)化)可以實(shí)現(xiàn)統(tǒng)一尺度。
對(duì)于數(shù)據(jù)集中的每一個(gè)數(shù)值X，可使用以下公式進(jìn)行標(biāo)準(zhǔn)化：

在這個(gè)公式中，Z是轉(zhuǎn)換后的標(biāo)準(zhǔn)值，X 是原始數(shù)據(jù)點(diǎn)的值，μ是原始數(shù)據(jù)的平均值和σ是原始數(shù)據(jù)的標(biāo)準(zhǔn)差。

別被公式嚇到，放進(jìn)日常的簡(jiǎn)單應(yīng)用場(chǎng)景就豁然開朗了。

小A參加了小學(xué)模擬考試，數(shù)學(xué)得了73分，英語(yǔ)得了76分。數(shù)學(xué)平均分是60分，英語(yǔ)平均分是68分。那么，小A的數(shù)學(xué)成績(jī)和英文成績(jī)，哪一個(gè)相對(duì)來(lái)說(shuō)比較好呢？(得分均按照正態(tài)分布)實(shí)際上，僅這些條件是無(wú)法進(jìn)行判斷的，還需要能夠表示全體離散程度的標(biāo)準(zhǔn)差?，F(xiàn)在，我們假定數(shù)學(xué)是標(biāo)準(zhǔn)差為8分的正態(tài)分布，英語(yǔ)則是標(biāo)準(zhǔn)差為6分的正態(tài)分布。

用Z變換的公式可得：
數(shù)學(xué) : (得分-平均分)÷標(biāo)準(zhǔn)差=(73-60)÷8=1.625
英語(yǔ) : (得分-平均分)÷標(biāo)準(zhǔn)差=(76-68)÷6=1.333

也就是說(shuō)，當(dāng)標(biāo)準(zhǔn)差為1時(shí)，小A的數(shù)學(xué)、英語(yǔ)成績(jī)標(biāo)準(zhǔn)差分別是1.625、1.333。不同學(xué)科的成績(jī)轉(zhuǎn)化為標(biāo)準(zhǔn)得分后，變得可比較了。

另外，用“標(biāo)準(zhǔn)得分=1”進(jìn)行了標(biāo)準(zhǔn)化，“平均值”會(huì)變成什么樣呢？本來(lái)，平均分根據(jù)科目的不同而不同，但以標(biāo)準(zhǔn)得分進(jìn)行分布的時(shí)候，平均值為0。

因此，在對(duì)成績(jī)進(jìn)行“標(biāo)準(zhǔn)化”時(shí)，分布會(huì)變?yōu)槠骄?0、標(biāo)準(zhǔn)差=1的標(biāo)準(zhǔn)正態(tài)分布。需注意的是，標(biāo)準(zhǔn)化改變的只是圖的位置，比如向左或向右平移，但并不會(huì)改變“高矮胖瘦”。

完成Z變換，我們就通過(guò)可以利用z值表找到對(duì)應(yīng)的概率值啦。這里會(huì)用到“標(biāo)準(zhǔn)正態(tài)分布表”。

這個(gè)表是前人整理好的數(shù)據(jù)，用起來(lái)也很方便。首先，我們要看最左手列，去查閱Z至小數(shù)點(diǎn)后1位數(shù)，之后，我們?cè)俨樽钌弦恍校碯的第二位小數(shù)，左右交叉得到的數(shù)，就是我們需要找的數(shù)。

放到小A的例子中，數(shù)學(xué)的標(biāo)準(zhǔn)差為1.625、英語(yǔ)的標(biāo)準(zhǔn)差為1.333。我們來(lái)試試查這個(gè)表。以數(shù)學(xué)為例，先看最左列，Z至小數(shù)點(diǎn)后1位數(shù)為1.6，接著，再看最上行，Z的第2位小數(shù)我取0.02，交叉得到的數(shù)就是0.9474(藍(lán)色方框中的數(shù))。英語(yǔ)的查閱方式同理，取值為0.9082。

查表后，就是分析數(shù)據(jù)了。數(shù)學(xué)取值為0.9474，英語(yǔ)為0.9082，即數(shù)學(xué)約處于94.74%的水平，英語(yǔ)處于90.82%的水平。如果參加全國(guó)數(shù)學(xué)、英語(yǔ)模擬考試的人有1萬(wàn)人，小A數(shù)學(xué)大概處于526名的位置((1-0.9474)×10000=526名)，英語(yǔ)處于918名的位置。用圖表示更清晰，這里以數(shù)學(xué)為例：

總體正態(tài)分布

恭喜看到這的你，在20分鐘左右的時(shí)間，你已經(jīng)了解了正態(tài)分布最核心的知識(shí)！

最后，請(qǐng)讓我們?yōu)槟阕鰝€(gè)簡(jiǎn)要的總結(jié)：我們先一起回顧了平均值、方差和基本差的背景知識(shí)，并在此基礎(chǔ)上了解了正態(tài)分布的形狀、特征以及如何使用。

上一篇：防爆控制小屋在天然氣管線閥室中的應(yīng)用

下一篇：傅里葉級(jí)數(shù)的發(fā)現(xiàn)與應(yīng)用