정규 분포 - 수학이 필요 없는 직관적인 소개
게시 됨: 2021-06-28나는 이 기사를 가능한 한 방정식과 입에서 나오는 전문용어로 사용하지 않으려고 노력할 것입니다. 그러나 최소한 다음과 같은 능력이 필요합니다.
- 간단한 그래프를 해석할 수 있습니다.
- 확률에 대한 초급 수준의 지식. 당신은 적어도 내가 동전을 던질 때 앞면이 나올 확률이 50%라는 것을 이해합니다.
- 적분 미적분과 양자 물리학 (농담!)
정규 분포를 사용하는 이유
무언가를 이해하는 직관적인 방법은 그것이 필요한 이유를 조사하는 것입니다. 정규 분포(가우스 분포라고도 함)에 대해 수행해 보겠습니다.
재미있는 습관이 있다고 말해보세요. 매일 동전을 100번 던집니다. 하루 중 대부분의 경우 50번 또는 거의 50번 가까이 머리를 감을 것으로 예상하는 것이 "정상"입니다. 드물게 머리에 좋은 날이 있습니다. 약 55배, 매우 드물게 65배 이상일 수 있습니다.
이제 이 "희귀성"을 수량화하고 싶습니다. 그래서, 당신은 당신이 매일 머리를 몇 번 얻었는지 추적하기 시작합니다.
1년의 매일 헤드 수
아래는 1년(365일) 후의 데이터입니다. 첫 번째는 첫날 얻은 헤드 수이고 마지막은 마지막 날 헤드 수입니다. 아래의 숫자를 모두 확인할 필요는 없지만 대부분이 50개 정도라는 것을 쉽게 알 수 있습니다.
56, 47, 54, 50, 57, 51, 57, 48, 54, 62, 42, 51, 37, 42, 50, 37, 59, 48, 46, 51, 61, 47, 46, 48, 55, 50, 50, 43, 46, 56, 49, 50, 54, 52, 47, 51, 59, 61, 53, 44, 53, 59, 58, 54, 54, 50, 49, 51, 43, 51, 49, 54, 46, 44, 41, 51, 51, 49, 64, 46, 46, 46, 52, 48, 57, 49, 42, 46, 55, 50, 54, 51, 53, 50, 48, 58, 43, 60, 49, 46, 42, 53, 45, 57, 48, 52, 47, 47, 47, 42, 57, 60, 49, 48, 54, 51, 48, 52, 47, 45, 51, 55, 51, 45, 46, 46, 40, 52, 57, 48, 51, 48, 44, 46, 41, 59, 60, 46, 44, 36, 52, 49, 49, 49, 51, 41, 49, 51, 51, 42, 51, 45, 54, 50, 48, 49, 43, 52, 53, 52, 53, 48, 35, 53, 48, 37, 53, 41, 48, 52, 46, 47, 57, 50, 49, 46, 57, 67, 50, 54, 48, 50, 60, 43, 49, 57, 57, 45, 55, 57, 45, 55, 54, 52, 48, 49, 51, 45, 48, 44, 48, 55, 51, 59, 52, 50, 55, 51, 46, 48, 51, 46, 50, 49, 50, 47, 54, 51, 43, 48, 56, 47, 57, 44, 54, 52, 55, 46, 49, 53, 40, 54, 54, 49, 50, 53, 41, 55, 50, 42, 58, 45, 53, 45, 52, 61, 50, 49, 48, 51, 50, 56, 44, 47, 45, 48, 63, 43, 52, 55, 46, 48, 52, 49, 56, 62, 57, 47, 51, 52, 43, 45, 57, 51, 46, 42, 52, 57, 54, 48, 54, 51, 49, 51, 42, 52, 50, 52, 61, 64, 44, 48, 49, 48, 46, 47, 57, 44, 44, 47, 52, 47, 42, 48, 51, 58, 36, 57, 53, 49, 52, 50, 52, 56, 44, 46, 42, 46, 43, 56, 49, 44, 38, 46, 52, 49, 58, 51, 49, 48, 52, 57, 43, 48, 40, 52, 54, 40, 54, 49, 41, 57, 50, 52, 43, 54, 49, 45, 44, 53, 49, 43, 51, 50, 56, 45, 46, 47, 41, 52, 59, 52, 50, 58, 52, 51, 55, 49, 41, 38, 57, 56, 41, 54, 44, 47, 60, 44
히스토그램으로 더 나은 시각화
위의 데이터에서 히스토그램을 그려 보겠습니다.
아하! 인터넷에서 '정규분포'를 검색하다가 이미 본 이미지와 같지 않나요? 거의 다 왔습니다!
따라서 히스토그램을 이해하지 못한다면 머리에 대한 특정 수를 얻은 일 수를 여기에 표시했습니다. 예를 들어, 우리는 1년 중 2개의 특정 날에 36번 헤드를 얻었습니다(당신이 나를 믿지 않는다면 위의 데이터를 확인하십시오). 그래서 36의 수평 지점에 높이 2 단위의 막대가 있는 이유(빨간색 아래 이미지의 왼쪽에 있는 사각형).
관찰
- 꽤 분명하고 예상된 일입니다. 대부분의 경우 50개의 헤드가 발생했습니다.
- 중심(50)에서 멀어질수록 발생은 대부분 감소합니다.
- 같은 거리에 있는 막대는 비슷한 모양을 취합니다. 예를 들어, 왼쪽(49) 또는 오른쪽(51)으로 한 단위 이동하는 경우 발생은 유사합니다(각각 30 및 31(녹색 직사각형)). 14단위를 왼쪽(36) 또는 오른쪽(64)으로 이동하면 발생은 다시 유사합니다(각각 2 및 1(빨간색 직사각형)).
10년 데이터
이제 조금 빨리 감아 10년 동안의 데이터를 플로팅해 보겠습니다.
1000년 데이터
좋아 - 마지막. 1000년의 데이터를 플롯해 보겠습니다.
관찰
- 더 많이 실험할수록 모양이 더 부드러워집니다.
- 우리가 더 많이 실험할수록 더 많은 막대가 위의 관찰을 따릅니다(즉, 비슷한 거리에 있는 막대가 더 가까운 모양을 취함).
빌어먹을 정규분포는 어디에
좋습니다. 배경이 너무 많습니다. 이제 요점으로 들어가겠습니다.
Google에서 제안한 답변을 살펴보겠습니다.
이 정의의 몇 가지 사항:
무작위 변수: 간단히 말해서, 무작위 변수는 동전 던지기와 같은 무작위 실험의 가능한 값 집합입니다. 이 예에서 실험의 가능한 값은 Head 또는 Tail 입니다.
종 모양: 히스토그램이 종 모양을 취하고 있다는 사실을 눈치채셨나요?
대칭: 같은 거리에 있는 막대는 모양이 비슷합니다. 대칭이 아닌가요?
따라서 정규 분포는 동전 던지기와 같은 이벤트의 결과 분포를 나타냅니다. 여기서 분포는 대칭 및 종 모양을 비롯한 몇 가지 속성을 유지하는 경향이 있습니다.
동전 던지기 이외의 어떤 현상이 정규 분포를 따르는가?
여기에 몇 가지 멋진 예가 있습니다.
- 인구의 키 — 더 많은 사람들이 평균 키 그룹에 속합니다. 극도로 키가 크거나 극도로 작은 사람을 찾는 것은 드뭅니다. 그리고 극도로 키가 큰 사람과 극도로 작은 사람이 나타날 확률은 거의 같습니다.
- 주사위 던지기
- 신발 사이즈
- IQ
- 그리고 다른 많은 …
이러한 현상은 정규 분포를 엄격히 따르나요?
간단한 대답은 아니오입니다. 위에서 보았듯이 — 실험을 많이 할수록 데이터는 정규 분포 속성을 더 많이 따를 것입니다. 그러나 어떤 가능성이 없는 사건이 어쨌든 발생하지 않을 것이라는 보장은 없습니다.
우주의 모든 확률 분포는 정규 분포입니까?
아닙니다. 다른 종류의 분포에 의해 결정되는 현상이 많이 있습니다.
- 주어진 수의 고객이 도착할 확률, 전화 통화, 사고, 스포츠 이벤트 및 홍수는 푸아송 분포 를 따릅니다.
- 비즈니스 판매의 경우 회사 고객의 20%가 매출의 80%를 책임집니다. ( 파레토 분포 )
- 도시의 교통 패턴 — 지수 분포
- 소녀와 소년 인구에서 팀 구성원의 무작위 선택 — 초기하 분포
그리고 더 많은 …
나는 여기에 나열된 일부 배포판으로 "실제 사례"를 인터넷 검색하여 위의 목록을 생성했습니다. 모든 배포판을 이해하는 것은 아닙니다. 😉
일부 자연 현상이 정규 분포를 따르는 경향이 있는 이유가 있습니까?
예 — 내가 가장 좋아하는 설명을 인용합니다.
일반적인 설명은 "오차 분포"인 정규 분포의 다른 이름으로 제공됩니다. 오류는 일반적으로 임의적이어서 다른 방향과 마찬가지로 한 방향으로 갈 가능성이 높다는 개념입니다. 예를 들어, 저격수는 약간 왼쪽으로, 약간 오른쪽으로, 또는 약간 높이에서 약간 낮게 쏠 가능성이 있습니다. 따라서 샷이 과녁에서 얼마나 멀리 떨어져 있는지에 대한 그래프는 이러한 무작위 경향을 반영하고 평균을 중심으로 대칭을 이룹니다. 유사하게, 키와 지능으로 — 많은 유전자(아마도 수천 개)가 영양, 질병, 저소득 등과 같은 수많은 환경 요인과 마찬가지로 이러한 결과에 기여합니다.
정규 분포의 모수
지금까지의 토론에 대한 직관력이 있었다면 이미 승자입니다. 임무 완수. 나머지 기사는 보너스입니다.
당신이 보는 모든 정규 분포 그래프는 모양이 다릅니다. 그들 중 일부는 다른 것보다 평평합니다. 그들 중 일부는 좋은 키를 가지고 있습니다. 이 모든 모양은 단 2개의 매개변수에 의해 제어됩니다.
평균
평균은 평균으로 정의됩니다. 벨의 높이를 정의합니다. 동전 던지기 예의 경우 평균은 그래프의 상단 위치인 50에 가깝습니다.
표준 편차
나는 이 기사가 방정식에서 자유로울 것이라고 약속하기 때문에 여기에서 수학적 표현을 제공하지 않습니다. 그러나 어쨌든 그렇게 어렵지는 않습니다. 표준편차는 데이터의 다양성을 나타내는 지표입니다.
예를 들어, 어린이집 연령의 표준편차는 축구팬클럽의 연령표준편차보다 작을 것이다. 왜냐하면 축구팬클럽에서 가장 어린 집단과 가장 나이가 많은 집단의 연령차가 훨씬 더 커야 하기 때문이다.
표준 편차는 곡선의 너비를 결정합니다. 표준 편차가 작으면 가파른 곡선이 생성되고 표준 편차가 클수록 더 평평한 곡선이 생성됩니다.