正態分佈——沒有數學的直觀介紹

已發表: 2021-06-28

我會盡量讓這篇文章遠離方程式和滿口的行話。 但是,我需要你至少具備以下能力:

  • 能夠解釋簡單的圖表。
  • 概率的初級知識。 你至少明白,如果我拋硬幣,正面的概率是 50%。
  • 積分學和量子物理學(開玩笑!)

為什麼是正態分佈

理解某事的一種直觀方法是調查為什麼需要它。 讓我們為正態分佈(也稱為高斯分佈)做這件事。

假設你有一個有趣的習慣。 每天你擲硬幣 100 次。 預期你會得到 50 次正面(或接近 50 次)是“正常的”。 很少有好的日子——你可能會得到大約 55 次,很少超過 65 次。

現在,您想量化這種“稀有性”。 因此,您開始記錄每天獲得頭部的次數。

一年中每天的人頭數

下面是一年(365天)之後的數據——第一個是你第一天得到的正面數,最後一個是你最後一天得到的正面數。 您不需要檢查下面的所有數字,但很容易發現它們中的大多數都在 50 左右。

56, 47, 54, 50, 57, 51, 57, 48, 54, 62, 42, 51, 37, 42, 50, 37, 59, 48, 46, 51, 61, 47, 46, 48, 63, 55, 50, 50, 43, 46, 56, 49, 50, 54, 52, 47, 51, 59, 61, 53, 44, 53, 59, 58, 54, 54, 50, 49, 51, 46, 43, 51, 49, 54, 46, 44, 41, 51, 51, 49, 64, 46, 46, 46, 52, 48, 57, 49, 42, 46, 55, 50, 52, 51, 47, 53, 50, 48, 58, 43, 60, 49, 46, 42, 53, 45, 57, 48, 52, 47, 47, 47, 42, 57, 60, 49, 48, 50, 51, 47, 48, 52, 47, 45, 51, 55, 51, 45, 46, 46, 40, 52, 57, 48, 51, 48, 44, 46, 41, 59, 60, 46, 44, 36, 48, 52, 49, 49, 49, 51, 41, 49, 51, 51, 42, 51, 45, 54, 50, 48, 49, 43, 52, 53, 52, 53, 48, 37, 53, 54, 41, 48, 52, 46, 47, 57, 50, 49, 46, 57, 67, 50, 54, 48, 50, 60, 43, 49, 57, 57, 45, 55, 57, 52, 46, 48, 49, 51, 45, 48, 44, 48, 55, 51, 59, 52, 50, 55, 51, 46, 48, 51, 46, 50, 49, 50, 47, 51, 43, 46, 48, 56, 47, 57, 44, 54, 52, 55, 46, 49, 53, 40, 54, 54, 49, 50, 53, 41, 55, 50, 42, 58, 47, 53, 55, 45, 52, 61, 50, 49, 48, 51, 50, 56, 44, 47, 45, 48, 63, 43, 52, 55, 46, 48, 52, 49, 56, 62, 57, 54, 47, 51, 52, 43, 45, 57, 51, 46, 42, 52, 57, 54, 48, 54, 51, 49, 51, 42, 52, 50, 52, 61, 61, 44, 45, 48, 49, 48, 46, 47, 57, 44, 44, 47, 52, 47, 42, 48, 51, 58, 36, 57, 53, 49, 52, 50, 52, 56, 44, 56, 46, 42, 46, 43, 56, 49, 44, 38, 46, 52, 49, 58, 51, 49, 48, 52, 57, 43, 48, 40, 52, 54, 40, 54, 45, 49, 41, 57, 50, 52, 43, 54, 49, 45, 44, 53, 49, 43, 51, 50, 56, 45, 46, 47, 41, 52, 59, 52, 50, 48, 58, 52, 51, 55, 49, 41, 38, 57, 56, 41, 54, 44, 47, 60, 44

使用直方圖更好地可視化

讓我們根據上面的數據繪製一個直方圖:

一年中每日頭部結果的直方圖
一年中每日頭部結果的直方圖

啊哈! 當你在谷歌上搜索“正態分佈”時,它看起來不像你在互聯網上看到的圖像嗎? 我們就快到了!

因此,如果您不了解直方圖 - 我們剛剛在此處繪製了我們獲得特定頭部計數的天數。 例如,我們在一年中的 2 個特定日子裡獲得了 36 次正面(如果你不相信我,請查看上面的數據),這就是為什麼在 36 的水平點上有一個高度為 2 單位的條(紅色下圖中左側的矩形)。

距中心相似距離的條形相似
距中心相似距離的條形相似

觀察

  1. 非常明顯和意料之中——大多數時候出現了 50 個正面。
  2. 我們離中心(50)越遠,發生率大多在減少。
  3. 相同距離的條形具有相似的形狀。 例如,如果您將一個單位向左 (49) 或向右 (51) 移動 - 出現相似 - 分別為 30 和 31(綠色矩形)。 如果您向左 (36) 或向右 (64) 移動 14 個單位,出現的次數再次相似 — 分別為 2 和 1(紅色矩形)。

10年數據

現在讓我們快進一點——繪製 10 年的數據。

10年數據

1000年數據

好的——最後一個。 讓我們繪製 1000 年的數據。

1000年數據

觀察

  1. 我們實驗得越多,形狀就越平滑。
  2. 我們進行的實驗越多,條形圖遵循上述觀察的越多(即,相似距離的條形圖呈現更接近的形狀)。

該死的正態分佈在哪裡

好的——背景太多了——現在讓我們進入正題。

讓我們看看谷歌給出的答案:

正態分佈

這個定義中有幾件事:

隨機變量:簡單地說——隨機變量是隨機實驗的一組可能值,比如拋硬幣。 在我們的示例中,我們實驗的可能值是HeadTail

鐘形:您是否注意到我們的直方圖呈鐘形?

鐘形

對稱:相同距離的條形具有相似的形狀——不是對稱的嗎?

因此,正態分佈代表了拋硬幣等事件的結果分佈——分佈傾向於保持一些屬性,包括對稱性和鍾形。

除了拋硬幣,還有哪些現象服從正態分佈?

這裡有一些很酷的例子。

  • 人口身高——更多人屬於平均身高組。 極高或極矮的人很少見。 而且發現極高和極矮的機會幾乎相等。
  • 擲骰子
  • 鞋號
  • 智商
  • 還有很多其他……

這些現像是否嚴格服從正態分佈?

簡單回答是不。 雖然,正如我們在上面看到的——你實驗得越多,數據就越符合正態分佈特性。 但不能保證無論如何都不會發生一些不太可能發生的事件。

宇宙中的所有概率分佈都是正態分佈嗎?

不,有許多現像是由其他某種分佈決定的。

  • 給定數量的顧客到達、電話、事故、體育賽事和洪水的概率遵循泊松分佈
  • 對於企業銷售而言,一家公司 20% 的客戶負責 80% 的銷售額。 (帕累托分佈
  • 城市交通模式——指數分佈
  • 從一群女孩和男孩中隨機選擇一個團隊的成員——超幾何分佈

還有很多 …

我只是通過谷歌搜索“現實生活中的例子”和這裡列出的一些發行版來製作上面的列表——並不是說我理解所有這些。 😉

為什麼某些自然現象傾向於服從正態分佈是有原因的嗎

是的——引用我最喜歡的解釋:

通常的解釋是正態分佈的另一個名稱,即“誤差分佈”。 這個想法是錯誤通常是隨機的,因此它們朝一個方向發展的可能性與朝另一個方向發展的可能性一樣大。 例如,射手可能會向左射擊一點,向右射擊一點,或者高一點射擊低一點。 因此,射擊距離靶心多遠的圖表將反映這種隨機趨勢,並且圍繞平均值對稱。 同樣,對於身高和智力——許多基因(可能有數千個)促成了這些結果,許多環境因素也是如此,例如營養、疾病、低收入等等。

正態分佈參數

如果你對到目前為止的討論有直覺 - 你已經是贏家了。 任務完成。 文章的其餘部分是一個獎勵。

您看到的所有正態分佈圖的形狀都不同。 他們中的一些人比其他人更平坦。 他們中的一些人有很好的身高。 所有這些形狀僅由 2 個參數控制:

意思是

平均值由平均值定義。 它定義了鐘的高度。 對於擲硬幣的例子,平均值接近 50,這是圖中的頂部位置。

標準差

因為我保證這篇文章不會使用方程式,所以我不會在這裡給出它的數學表示。 但無論如何,這並不難。 標準差是表示數據多樣性的指標。

例如,托兒所的年齡標準差將低於足球俱樂部的年齡標準差,因為足球俱樂部中最年輕和最年長的群體之間的年齡差距應該大得多。

標準偏差決定了曲線的寬度。 較小的標準偏差會產生陡峭的曲線,而較大的標準偏差會產生更平坦的曲線。