본문 바로가기
  • ㄹㅇ
데이터 분석의 모든 것/1. 기초통계

정규분포와 표준화

by 한강석 2024. 5. 31.

정규분포와 표준화

데이터 분석과 통계학에서 정규분포는 매우 중요한 개념입니다. 정규분포는 자연현상에서 많이 나타나기 때문에 다양한 분야에서 활용됩니다. 이번 글에서는 정규분포와 표준화에 대해 설명하고, 그래프와 이미지를 통해 이해를 돕겠습니다.


정규분포란?

정규분포는 데이터가 평균을 중심으로 대칭적으로 분포하는 확률 분포입니다. 정규분포는 종 모양의 곡선으로 나타나며, 곡선의 형태는 평균과 표준편차에 의해 결정됩니다.

 

  • 평균 (μ): 정규분포의 중심 값입니다.
  • 표준편차 (σ): 데이터가 평균에서 얼마나 흩어져 있는지를 나타내는 값입니다.

 

정규분포의 확률 밀도 함수는 다음과 같이 정의됩니다

 

정규분포 공식

정규분포 그래프

정규분포의 그래프는 종 모양으로, 평균을 중심으로 대칭적인 형태를 가집니다. 아래는 평균이 0, 표준편차가 1인 표준 정규분포의 그래프입니다.

정규분포 그래프

정규분포의 특징

  1. 대칭성: 평균을 중심으로 좌우 대칭입니다.
  2. 평균, 중앙값, 최빈값이 동일: 정규분포에서는 평균, 중앙값, 최빈값이 모두 동일합니다.
  3. 68-95-99.7 법칙: 평균 ±1σ 범위 내에 데이터의 약 68%, 평균 ±2σ 범위 내에 약 95%, 평균 ±3σ 범위 내에 약 99.7%의 데이터가 존재합니다.

표준화란?

표준화는 다른 단위를 가진 데이터를 비교하거나 분석하기 위해 데이터를 변환하는 과정입니다. 정규분포의 경우, 표준화를 통해 평균이 0, 표준편차가 1인 표준 정규분포로 변환할 수 있습니다.

표준화된 값 (z-점수)은 다음과 같이 계산됩니다

 

표준화 공식

여기서:

  • ( \x )는 원본 데이터 값
  • ( \mu )는 데이터의 평균
  • ( \sigma )는 데이터의 표준편차를 의미합니다. 

 

표준화 예시

예를 들어, 평균이 50, 표준편차가 10인 데이터에서 값이 70인 데이터를 표준화하면 다음과 같습니다

 

표준화 예시

 

이 표준화된 값 z는 원본 데이터 값이 평균에서 표준편차의 몇 배만큼 떨어져 있는지를 나타냅니다.

표준 정규분포 그래프

표준화된 정규분포는 평균이 0, 표준편차가 1인 형태로 나타납니다. 아래는 표준 정규분포의 그래프입니다.

표준 정규분포 그래프

표준화의 장점

  1. 비교 용이: 서로 다른 단위의 데이터를 비교할 수 있습니다.
  2. 이상값 감지: z-점수를 통해 이상값을 쉽게 식별할 수 있습니다.
  3. 데이터 분석 효율성: 통계적 분석에서 표준 정규분포를 이용하면 계산이 간편해집니다.

 

맺음말

정규분포와 표준화는 데이터 분석에서 매우 중요한 개념입니다. 정규분포를 이해하고 데이터를 표준화함으로써 더 정확하고 신뢰할 수 있는 분석을 할 수 있습니다. 이번 글이 정규분포와 표준화에 대한 이해를 높이는 데 도움이 되었길 바랍니다. 더 궁금한 점이 있으면 언제든지 댓글로 남겨주세요!