Distribuição normal - uma introdução intuitiva sem matemática

Publicados: 2021-06-28

Tentarei manter este artigo livre de equações e jargões – tanto quanto possível. Eu, no entanto, preciso que você tenha pelo menos os seguintes recursos:

  • Capaz de interpretar gráficos simples.
  • Conhecimento de nível elementar em probabilidade. Você pelo menos entende que há uma probabilidade de 50% de sair cara se eu jogar uma moeda.
  • Cálculo integral e física quântica (brincadeira!)

Por que distribuição normal

Uma maneira intuitiva de entender algo é investigar por que é necessário. Vamos fazer isso para distribuição normal (também chamada de Distribuição Gaussiana).

Digamos que você tenha um hábito engraçado. Todos os dias você joga uma moeda 100 vezes. É “normal” esperar que você tenha cabeça 50 vezes – ou cerca de 50 vezes na maior parte do dia. Raramente, há bons dias para a cabeça – você pode obter cerca de 55 vezes e muito raramente mais de 65 vezes.

Agora, você quer quantificar essa “raridade”. Então, você começa a acompanhar quantas vezes você pegou a cabeça todos os dias.

Número de cabeças todos os dias em um ano

Abaixo estão os dados após um ano (365 dias) - o primeiro é o número de caras que você obteve no primeiro dia e o último é o número de caras que você obteve no último dia. Você não precisa verificar todos os números abaixo, mas é fácil perceber que a maioria deles está em torno de 50.

56, 47, 54, 50, 57, 51, 57, 48, 54, 62, 42, 51, 37, 42, 50, 37, 59, 48, 46, 51, 61, 47, 46, 48, 63, 55, 50, 50, 43, 46, 56, 49, 50, 54, 52, 47, 51, 59, 61, 53, 44, 53, 59, 58, 54, 54, 50, 49, 51, 46, 43, 51, 49, 54, 46, 44, 41, 51, 51, 49, 64, 46, 46, 46, 52, 48, 57, 49, 42, 46, 55, 50, 52, 51, 47, 53, 50, 48, 58, 43, 60, 49, 46, 42, 53, 45, 57, 48, 52, 47, 47, 47, 42, 57, 60, 49, 48, 50, 51, 47, 48, 52, 47, 45, 51, 55, 51, 45, 46, 46, 40, 52, 57, 48, 51, 48, 44, 46, 41, 59, 60, 46, 44, 36, 48, 52, 49, 49, 49, 51, 41, 49, 51, 51, 42, 51, 45, 54, 50, 48, 49, 43, 52, 53, 52, 53, 48, 37, 53, 54, 41, 48, 52, 46, 47, 57, 50, 49, 46, 57, 67, 50, 54, 48, 50, 60, 43, 49, 57, 57, 45, 55, 57, 52, 46, 48, 49, 51, 45, 48, 44, 48, 55, 51, 59, 52, 50, 55, 51, 46, 48, 51, 46, 50, 49, 50, 47, 51, 43, 46, 48, 56, 47, 57, 44, 54, 52, 55, 46, 49, 53, 40, 54, 54, 49, 50, 53, 41, 55, 50, 42, 58, 47, 53, 55, 45, 52, 61, 50, 49, 48, 51, 50, 56, 44, 47, 45, 48, 63, 43, 52, 55, 46, 48, 52, 49, 56, 62, 57, 54, 47, 51, 52, 43, 45, 57, 51, 46, 42, 52, 57, 54, 48, 54, 51, 49, 51, 42, 52, 50, 52, 61, 61, 44, 45, 48, 49, 48, 46, 47, 57, 44, 44, 47, 52, 47, 42, 48, 51, 58, 36, 57, 53, 49, 52, 50, 52, 56, 44, 56, 46, 42, 46, 43, 56, 49, 44, 38, 46, 52, 49, 58, 51, 49, 48, 52, 57, 43, 48, 40, 52, 54, 40, 54, 45, 49, 41, 57, 50, 52, 43, 54, 49, 45, 44, 53, 49, 43, 51, 50, 56, 45, 46, 47, 41, 52, 59, 52, 50, 48, 58, 52, 51, 55, 49, 41, 38, 57, 56, 41, 54, 44, 47, 60, 44

Visualize melhor com histograma

Vamos traçar um histograma a partir dos dados acima:

Histograma do resultado diário da cabeça em um ano
Histograma do resultado diário da cabeça em um ano

Ah! Já não se parece com a imagem que você viu na internet quando estava pesquisando “Distribuição Normal” no Google? Estamos quase lá!

Então, se você não entende histogramas – acabamos de plotar aqui o número de dias em que temos uma contagem específica para cabeça. Por exemplo, temos cabeça 36 vezes em 2 dias específicos do ano (verifique os dados acima se você não acredita em mim), é por isso que há uma barra de altura 2 unidade no ponto horizontal em 36 (o vermelho retângulo à esquerda na imagem abaixo).

Barras a uma distância semelhante do centro são semelhantes
Barras a uma distância semelhante do centro são semelhantes

Observações

  1. Bastante óbvio e esperado - 50 cabeças ocorreram na maioria das vezes.
  2. Quanto mais nos afastamos do centro (50), a ocorrência é maioritariamente decrescente.
  3. Barras na mesma distância assumem formas semelhantes. Por exemplo, se você mover uma unidade para a esquerda (49) ou direita (51) — as ocorrências são semelhantes — 30 e 31 respectivamente (os retângulos verdes). Se você mover 14 unidades para a esquerda (36) ou para a direita (64), as ocorrências serão semelhantes novamente — 2 e 1 respectivamente (retângulos vermelhos).

dados de 10 anos

Agora vamos avançar um pouco — e traçar os dados de 10 anos.

dados de 10 anos

dados de 1000 anos

Ok - último. Vamos traçar dados de 1000 anos.

dados de 1000 anos

Observações

  1. Quanto mais experimentamos, mais suaves são as formas.
  2. Quanto mais experimentamos, mais as barras seguem as observações acima (ou seja, barras a uma distância semelhante estão tomando formas mais próximas).

Onde está a maldita distribuição normal

Ok - muito fundo - agora vamos ao que interessa.

Vejamos a resposta sugerida pelo Google:

Distribuição normal

Algumas coisas nesta definição:

Variável Aleatória: Simplificando — uma variável aleatória é um conjunto de valores possíveis de um experimento aleatório como um sorteio. Em nosso exemplo, o valor possível de nosso experimento é Head or Tail .

Em forma de sino: você notou que nosso histograma está tomando a forma de um sino?

Em forma de sino

Simétrico: Barras na mesma distância têm formas semelhantes - não é simétrica?

Assim, a distribuição normal representa a distribuição de resultados para eventos como o lançamento de uma moeda – onde a distribuição tende a manter algumas propriedades, incluindo a simetria e o formato do sino.

Que fenômenos além do lançamento da moeda seguem a distribuição normal?

Alguns exemplos legais aqui.

  • Altura na população – mais pessoas se enquadram no grupo de altura média. É raro encontrar pessoas extremamente altas ou extremamente baixas. E as chances de encontrar extremamente alto e extremamente baixo são quase iguais.
  • Rolando um dado
  • Tamanho de sapato
  • QI
  • E muitos outros…

Esses fenômenos seguem estritamente a distribuição normal?

A resposta simples é não. Embora, como vimos acima, quanto mais você experimentar, mais os dados seguirão as propriedades de distribuição normal. Mas não há garantia de que algum evento improvável não ocorrerá de qualquer maneira.

Todas as distribuições de probabilidade no universo são distribuição normal?

Não. Existem muitos fenômenos que são determinados por algum outro tipo de distribuição.

  • A probabilidade de um determinado número de clientes chegarem, ligações telefônicas, acidentes, eventos esportivos e inundações seguem a Distribuição de Poisson .
  • Para vendas de negócios, 20% dos clientes de uma empresa são responsáveis ​​por 80% das vendas. ( Distribuição de Pareto )
  • Padrões de tráfego em uma cidade — Distribuição Exponencial
  • Seleção aleatória de membros para uma equipe de uma população de meninas e meninos — Distribuição Hipergeométrica

E muitos mais …

Eu produzi a lista acima apenas pesquisando “exemplo da vida real” com algumas distribuições listadas aqui – não que eu entenda todas elas. 😉

Existe uma razão pela qual alguns fenômenos naturais tendem a seguir distribuição normal

Sim — citando minha explicação favorita:

A explicação usual é dada por outro nome para a distribuição normal, que é a “distribuição de erros”. A ideia é que os erros são geralmente aleatórios, de modo que são tão propensos a ir em uma direção quanto na outra. Por exemplo, o atirador tem a mesma probabilidade de atirar um pouco para a esquerda, um pouco para a direita, ou um pouco alto como um pouco baixo. Assim, um gráfico de quão longe os tiros estão do alvo refletirá essa tendência aleatória e será simétrico em torno da média. Da mesma forma, com altura e inteligência – muitos genes (talvez milhares) contribuem para esses resultados, assim como um grande número de fatores ambientais, como nutrição, doenças, baixa renda e assim por diante.

Parâmetros de distribuição normal

Se você teve uma intuição da discussão até agora - você já é o vencedor. Missão cumprida. O resto do artigo é um bônus.

Todos os gráficos de distribuição normal que você vê são diferentes em forma. Alguns deles são mais planos que outros. Alguns deles têm boas alturas. Todas essas formas são controladas por apenas 2 parâmetros:

Quer dizer

A média é definida pela média. Ele define a altura do sino. Para o exemplo do lançamento da moeda, a média é próxima de 50, que é a localização superior no gráfico.

Desvio padrão

Como prometo que este artigo estará livre de equações, não estou dando sua representação matemática aqui. Mas não é tão difícil assim. O desvio padrão é uma métrica para representar a diversidade dos dados.

Por exemplo, o desvio padrão da idade na creche será menor do que o desvio padrão da idade no clube de futebol, já que a diferença de idade entre o grupo mais novo e o mais velho deve ser muito maior no fã clube de futebol.

O desvio padrão determina a largura da curva. Um pequeno desvio padrão produz uma curva acentuada e um desvio padrão maior produz uma curva mais plana.