Rozkład normalny — intuicyjne wprowadzenie bez matematyki

Opublikowany: 2021-06-28

Postaram się, aby ten artykuł był wolny od równań i pełnego żargonu — na ile to możliwe. Potrzebuję jednak, abyś miał przynajmniej następujące możliwości:

  • Potrafi interpretować proste wykresy.
  • Znajomość prawdopodobieństwa na poziomie podstawowym. Przynajmniej rozumiesz, że istnieje 50% prawdopodobieństwa dla głowy, jeśli rzucę monetą.
  • Rachunek całkowy i fizyka kwantowa (żart!)

Dlaczego normalna dystrybucja

Intuicyjnym sposobem na zrozumienie czegoś jest zbadanie, dlaczego jest to potrzebne. Zróbmy to dla rozkładu normalnego (zwanego też rozkładem Gaussa).

Powiedzmy, że masz śmieszny nawyk. Codziennie rzucasz monetą 100 razy. To „normalne” oczekiwać, że dostaniesz głowę 50 razy — lub prawie 50 razy przez większość dnia. Rzadko zdarzają się dobre dni na głowę — możesz uzyskać około 55 razy, a bardzo rzadko powyżej 65 razy.

Teraz chcesz określić ilościowo tę „rzadkość”. Więc zaczynasz śledzić, ile razy dostałeś głowę każdego dnia.

Ilość głów każdego dnia w roku

Poniżej dane po roku (365 dni) — pierwsza to liczba orłów, które dostałeś pierwszego dnia, a ostatnia to liczba orzełków, które dostałeś ostatniego dnia. Nie musisz sprawdzać wszystkich liczb poniżej, ale łatwo zauważyć, że większość z nich ma około 50.

56, 47, 54, 50, 57, 51, 57, 48, 54, 62, 42, 51, 37, 42, 50, 37, 59, 48, 46, 51, 61, 47, 46, 48, 63, 55, 50, 50, 43, 46, 56, 49, 50, 54, 52, 47, 51, 59, 61, 53, 44, 53, 59, 58, 54, 54, 50, 49, 51, 46, 43, 51, 49, 54, 46, 44, 41, 51, 51, 49, 64, 46, 46, 46, 52, 48, 57, 49, 42, 46, 55, 50, 52, 51, 47, 53, 50, 48, 58, 43, 60, 49, 46, 42, 53, 45, 57, 48, 52, 47, 47, 47, 42, 57, 60, 49, 48, 50, 51, 47, 48, 52, 47, 45, 51, 55, 51, 45, 46, 46, 40, 52, 57, 48, 51, 48, 44, 46, 41, 59, 60, 46, 44, 36, 48, 52, 49, 49, 49, 51, 41, 49, 51, 51, 42, 51, 45, 54, 50, 48, 49, 43, 52, 53, 52, 53, 48, 37, 53, 54, 41, 48, 52, 46, 47, 57, 50, 49, 46, 57, 67, 50, 54, 48, 50, 60, 43, 49, 57, 57, 45, 55, 57, 52, 46, 48, 49, 51, 45, 48, 44, 48, 55, 51, 59, 52, 50, 55, 51, 46, 48, 51, 46, 50, 49, 50, 47, 51, 43, 46, 48, 56, 47, 57, 44, 54, 52, 55, 46, 49, 53, 40, 54, 54, 49, 50, 53, 41, 55, 50, 42, 58, 47, 53, 55, 45, 52, 61, 50, 49, 48, 51, 50, 56, 44, 47, 45, 48, 63, 43, 52, 55, 46, 48, 52, 49, 56, 62, 57, 54, 47, 51, 52, 43, 45, 57, 51, 46, 42, 52, 57, 54, 48, 54, 51, 49, 51, 42, 52, 50, 52, 61, 61, 44, 45, 48, 49, 48, 46, 47, 57, 44, 44, 47, 52, 47, 42, 48, 51, 58, 36, 57, 53, 49, 52, 50, 52, 56, 44, 56, 46, 42, 46, 43, 56, 49, 44, 38, 46, 52, 49, 58, 51, 49, 48, 52, 57, 43, 48, 40, 52, 54, 40, 54, 45, 49, 41, 57, 50, 52, 43, 54, 49, 45, 44, 53, 49, 43, 51, 50, 56, 45, 46, 47, 41, 52, 59, 52, 50, 48, 58, 52, 51, 55, 49, 41, 38, 57, 56, 41, 54, 44, 47, 60, 44

Lepiej wizualizuj dzięki histogramowi

Na podstawie powyższych danych wykreślmy histogram:

Histogram dobowego wyniku głowy w ciągu roku
Histogram dobowego wyniku głowy w ciągu roku

Aha! Czy to nie wygląda już jak obraz, który widzieliście w Internecie, kiedy googlowaliście „Normalna dystrybucja”? Jesteśmy prawie na miejscu!

Tak więc, jeśli nie rozumiesz histogramów – właśnie tutaj wykreśliliśmy liczbę dni, w których uzyskaliśmy konkretną liczbę za głowę. Na przykład, dostaliśmy głowę 36 razy w 2 poszczególne dni w roku (sprawdź dane powyżej, jeśli mi nie wierzysz), dlatego w punkcie poziomym na 36 (czerwony prostokąt po lewej stronie na obrazku poniżej).

Słupki w podobnej odległości od centrum są podobne
Słupki w podobnej odległości od centrum są podobne

Obserwacje

  1. Dość oczywiste i oczekiwane — przez większość czasu padło 50 głów.
  2. W miarę oddalania się od centrum (50) częstość występowania maleje.
  3. Pręty w tej samej odległości przybierają podobne kształty. Na przykład, jeśli przesuniesz jedną jednostkę w lewo (49) lub w prawo (51) — wystąpienia są podobne — odpowiednio 30 i 31 (zielone prostokąty). Jeśli przesuniesz się o 14 jednostek w lewo (36) lub w prawo (64), wystąpienia są znowu podobne — odpowiednio 2 i 1 (czerwone prostokąty).

10 lat danych

Przejdźmy teraz trochę do przodu — i wykreślmy dane z 10 lat.

10 lat danych

1000 lat danych

Dobra — ostatnia. Wykreślmy dane z 1000 lat.

1000 lat danych

Obserwacje

  1. Im więcej eksperymentujemy, tym gładsze są kształty.
  2. Im więcej eksperymentujemy, tym bardziej słupki podążają za powyższymi obserwacjami (tj. słupki w podobnej odległości przybierają bardziej bliższe kształty).

Gdzie jest cholerny rozkład normalny?

Dobra — za dużo tła — teraz przejdźmy do sedna.

Zobaczmy odpowiedź sugerowaną przez Google:

Normalna dystrybucja

Kilka rzeczy w tej definicji:

Zmienna losowa: Mówiąc najprościej — zmienna losowa to zestaw możliwych wartości losowego eksperymentu, takiego jak rzut monetą. W naszym przykładzie możliwą wartością naszego eksperymentu jest Head lub Tail .

Bell-Shaped: Czy zauważyłeś, że nasz histogram przybiera kształt dzwonu?

kształt dzwonu

Symetryczny: Pręty w tej samej odległości mają podobne kształty — czy nie jest symetryczne?

Zatem rozkład normalny reprezentuje rozkład wyników wydarzeń takich jak rzut monetą — gdzie rozkład ma tendencję do utrzymywania kilku właściwości, w tym symetrii i kształtu dzwonu.

Jakie zjawiska poza rzutem monetą mają rozkład normalny?

Oto kilka fajnych przykładów.

  • Wzrost w populacji — więcej osób należy do grupy o średnim wzroście. Rzadko można znaleźć wyjątkowo wysokich lub wyjątkowo niskich ludzi. A szanse na znalezienie ekstremalnie wysokich i ekstremalnie niskich są prawie równe.
  • Rzucanie kostką
  • Rozmiar buta
  • ILORAZ INTELIGENCJI
  • I wiele innych…

Czy te zjawiska są ściśle zgodne z rozkładem normalnym?

Prostą odpowiedzią jest: nie. Chociaż, jak widzieliśmy powyżej — im więcej eksperymentujesz, tym bardziej dane będą zgodne z normalnymi właściwościami rozkładu. Ale nie ma pewności, że jakieś mało prawdopodobne wydarzenie i tak nie nastąpi.

Czy wszystkie rozkłady prawdopodobieństwa we wszechświecie są rozkładem normalnym?

Nie. Istnieje wiele zjawisk, które są determinowane przez inny rodzaj dystrybucji.

  • Prawdopodobieństwo przybycia określonej liczby klientów, telefonów, wypadków, wydarzeń sportowych i powodzi jest zgodne z rozkładem Poissona .
  • W przypadku sprzedaży biznesowej 20% klientów firmy odpowiada za 80% sprzedaży. ( Dystrybucja Pareto )
  • Wzorce ruchu w mieście — rozkład wykładniczy
  • Losowy wybór członków zespołu z populacji dziewcząt i chłopców — rozkład hipergeometryczny

I wiele więcej …

Stworzyłem powyższą listę, po prostu wyszukując „przykład z prawdziwego życia” z niektórymi dystrybucjami wymienionymi tutaj – nie, żebym je wszystkie rozumiał.

Czy istnieje powód, dla którego niektóre zjawiska naturalne mają tendencję do rozkładu normalnego?

Tak — cytuję moje ulubione wyjaśnienie:

Zwykłe wyjaśnienie podaje inna nazwa rozkładu normalnego, czyli „rozkład błędów”. Chodzi o to, że błędy są generalnie losowe, więc istnieje prawdopodobieństwo, że pójdą w jednym kierunku, co w drugim. Na przykład strzelec prawdopodobnie strzeli trochę w lewo, trochę w prawo lub trochę wysoko i trochę nisko. Tak więc wykres przedstawiający odległość strzałów od tarczy będzie odzwierciedlał tę losową tendencję i będzie symetryczny wokół średniej. Podobnie w przypadku wzrostu i inteligencji — wiele genów (być może tysiące) przyczynia się do tych wyników, podobnie jak wiele czynników środowiskowych, takich jak odżywianie, choroby, niskie dochody i tak dalej.

Parametry rozkładu normalnego

Jeśli do tej pory miałeś wyczucie dyskusji — już jesteś zwycięzcą. Misja zakończona. Reszta artykułu to bonus.

Wszystkie widoczne wykresy rozkładu normalnego mają inny kształt. Niektóre z nich są bardziej płaskie niż inne. Niektóre z nich mają dobre wysokości. Wszystkie te kształty są kontrolowane tylko przez 2 parametry:

Oznaczać

Średnia jest określona przez średnią. Określa wysokość dzwonka. W przykładzie rzutu monetą średnia jest bliska 50, co stanowi najwyższą pozycję na wykresie.

Odchylenie standardowe

Ponieważ obiecuję, że ten artykuł będzie wolny od równań, nie podaję tutaj jego matematycznej reprezentacji. Ale i tak nie jest to takie trudne. Odchylenie standardowe to miara reprezentująca różnorodność danych.

Na przykład odchylenie standardowe wieku w opiece nad dziećmi będzie niższe niż odchylenie standardowe wieku w fanklubie piłki nożnej, ponieważ różnica wieku między najmłodszą i najstarszą grupą powinna być znacznie wyższa w fanklubie piłki nożnej.

Odchylenie standardowe określa szerokość krzywej. Małe odchylenie standardowe daje stromą krzywą, a większe odchylenie standardowe daje bardziej płaską krzywą.