본문 바로가기
  • ㄹㅇ
데이터 분석의 모든 것/1. 기초통계

가설 검정과 유의확률

by 한강석 2024. 5. 31.

가설 검정

데이터 분석에서 가설 검정은 중요한 절차입니다. 가설 검정은 주어진 데이터로부터 특정 주장이나 이론을 검정하기 위한 방법론입니다. 이번 글에서는 가설 검정의 기본 개념과 주요 방법론에 대해 알아보겠습니다.


통계적 가설

귀무가설과 대립가설

가설 검정에서 가장 먼저 설정해야 할 것은 귀무가설(Null Hypothesis)과 대립가설(Alternative Hypothesis)입니다.

  • 귀무가설 (H₀): 연구자가 증명하고자 하는 주장과 반대되는 가설로, 보통 "효과가 없다" 또는 "차이가 없다"라는 진술입니다.
  • 대립가설 (H₁ 또는 Ha): 귀무가설에 반대되는 가설로, "효과가 있다" 또는 "차이가 있다"라는 진술입니다.

예를 들어, 새로운 약의 효과를 테스트할 때:

  • 귀무가설 (H₀): 새로운 약은 효과가 없다.
  • 대립가설 (H₁): 새로운 약은 효과가 있다.

유의확률 (p-value)

유의확률은 관찰된 데이터가 귀무가설 하에서 나타날 확률을 나타냅니다. p-value가 작을수록 귀무가설이 맞지 않을 가능성이 커집니다. 일반적으로 p-value가 0.05 이하이면 귀무가설을 기각하고 대립가설을 채택합니다.


가설 검정

t검정 (t-test)

t검정은 두 집단의 평균을 비교하여 차이가 있는지를 검정하는 방법입니다. t검정에는 크게 세 가지 유형이 있습니다:

  1. 독립 표본 t검정: 두 독립된 집단의 평균을 비교합니다.
  2. 대응 표본 t검정: 동일한 집단의 사전/사후 데이터를 비교합니다.
  3. 단일 표본 t검정: 한 집단의 평균을 특정 값과 비교합니다.

독립 표본 t검정

독립 표본 t검정은 두 개의 독립된 집단 간의 평균을 비교할 때 사용합니다. 예를 들어, 두 가지 다른 교육 방법이 학생들의 성적에 미치는 영향을 비교할 때 사용됩니다.

절차:

  1. 귀무가설과 대립가설을 설정합니다.
    • H₀: 두 집단의 평균은 같다.
    • H₁: 두 집단의 평균은 다르다.
  2. 두 집단의 평균과 표준편차를 계산합니다.
  3. t값을 계산합니다.

t검정 공식

  1. 자유도를 계산하고 t분포표를 참고하여 p-value를 구합니다.
  2. p-value와 유의수준을 비교하여 귀무가설을 기각할지 결정합니다.

대응 표본 t검정

대응 표본 t검정은 동일한 집단의 사전/사후 데이터를 비교할 때 사용합니다. 예를 들어, 특정 다이어트 프로그램 전후의 체중 변화를 비교할 때 사용됩니다.

절차:

  1. 귀무가설과 대립가설을 설정합니다.
    • H₀: 사전과 사후의 평균 차이가 없다.
    • H₁: 사전과 사후의 평균 차이가 있다.
  2. 각 쌍의 차이를 계산하고, 차이의 평균과 표준편차를 구합니다.
  3. t값을 계산합니다.

대응 표본 t검정 공식

  1. 자유도를 계산하고 t분포표를 참고하여 p-value를 구합니다.
  2. p-value와 유의수준을 비교하여 귀무가설을 기각할지 결정합니다.

단일 표본 t검정

단일 표본 t검정은 한 집단의 평균을 특정 값과 비교할 때 사용합니다. 예를 들어, 특정 지역 학생들의 평균 성적이 국가 평균과 다른지를 검정할 때 사용됩니다.

절차:

  1. 귀무가설과 대립가설을 설정합니다.
    • H₀: 집단의 평균은 특정 값과 같다.
    • H₁: 집단의 평균은 특정 값과 다르다.
  2. 집단의 평균과 표준편차를 계산합니다.
  3. t값을 계산합니다.

단일 표본 t검정 공식

  1. 자유도를 계산하고 t분포표를 참고하여 p-value를 구합니다.
  2. p-value와 유의수준을 비교하여 귀무가설을 기각할지 결정합니다.

분산분석의 기본 가정

ANOVA를 수행하기 전에 다음과 같은 기본 가정을 충족해야 합니다:

  1. 독립성: 각 집단의 표본은 서로 독립적이어야 합니다. 즉, 한 집단의 데이터가 다른 집단의 데이터에 영향을 미치지 않아야 합니다.
  2. 정규성: 각 집단의 데이터는 정규분포를 따라야 합니다. 이는 데이터의 분포가 종 모양의 곡선을 이루어야 함을 의미합니다.
  3. 등분산성: 각 집단의 분산이 동일해야 합니다. 즉, 데이터의 변동 정도가 집단 간에 크게 차이나지 않아야 합니다.

이 가정들을 충족하지 않으면 ANOVA의 결과가 신뢰할 수 없게 됩니다. 가정을 검정하기 위해 Q-Q 플롯, Shapiro-Wilk 테스트(정규성), Levene’s 테스트(등분산성) 등을 사용할 수 있습니다.

정규성 검정 예시 (Q-Q 플롯)

Q-Q 플롯은 데이터의 정규성을 시각적으로 확인하는 방법입니다. 아래는 정규성을 따르는 데이터의 Q-Q 플롯 예시입니다.

출처 : QQ plot 해석하기 (velog.io)

출처: QQ plot 해석하기 (velog.io)

등분산성 검정 예시 (Levene's 테스트)

Levene's 테스트는 집단 간 분산이 동일한지 검정하는 방법입니다. p-value가 0.05보다 크면 등분산성을 만족한다고 할 수 있습니다.


F-검정의 과정

F-검정은 ANOVA의 핵심 과정으로, 집단 간 평균의 차이가 통계적으로 유의미한지 검정합니다. F-검정의 절차는 다음과 같습니다:

  1. 귀무가설과 대립가설 설정:
    • H₀: 모든 집단의 평균이 같다.
    • H₁: 적어도 한 집단의 평균이 다르다.
  2. 분산 분석표 작성:
    • 총 변동 (Total Variation): 전체 데이터의 변동을 나타냅니다.
    • 집단 간 변동 (Between-group Variation): 집단 간 평균의 변동을 나타냅니다.
    • 집단 내 변동 (Within-group Variation): 동일한 집단 내 데이터의 변동을 나타냅니다.
  3. F값 계산:
    • 집단 간 변동의 평균 제곱(MS_between)과 집단 내 변동의 평균 제곱(MS_within)을 계산하여 F값을 구합니다.

F-검정 공식

  1. 자유도 계산:
    • 집단 간 자유도(df_between)와 집단 내 자유도(df_within)를 계산합니다.
    • df_between = k - 1 (k는 집단의 수)
    • df_within = N - k (N은 전체 관측값의 수)
  2. p-value 계산:
    • F분포표를 참고하여 계산된 F값에 대응하는 p-value를 찾습니다.
    • p-value가 유의수준(일반적으로 0.05)보다 작으면 귀무가설을 기각하고 대립가설을 채택합니다.

ANOVA 예시

세 가지 비료를 사용한 작물의 성장 차이를 비교하는 경우:

  1. 귀무가설 (H₀): 세 가지 비료의 효과에 차이가 없다.
  2. 대립가설 (H₁): 적어도 하나의 비료는 다른 비료와 효과가 다르다.

ANOVA 결과에서 p-value가 0.05보다 작으면, 귀무가설을 기각하고 대립가설을 채택합니다.

ANOVA 분산 분석표 예시

Source SS df MS F p-value
Between Groups 20.00 2 10.00 5.00 0.01
Within Groups 30.00 27 1.11    
Total 50.00 29      

여기서 F값은 5.00이며, p-value는 0.01로 유의수준 0.05보다 작으므로 귀무가설을 기각합니다. 즉, 세 가지 비료 간에 효과 차이가 있습니다.


가설검정의 결과와 오류

가설 검정 결과에는 두 가지 종류의 오류가 있을 수 있습니다:

  1. 제1종 오류 (Type I Error): 실제로는 귀무가설이 참인데, 이를 기각하는 오류입니다. 유의수준 (α)은 제1종 오류를 범할 확률을 나타냅니다.
  2. 제2종 오류 (Type II Error): 실제로는 대립가설이 참인데, 귀무가설을 기각하지 않는 오류입니다. β는 제2종 오류를 범할 확률을 나타냅니다.

통계적 검정에서 중요한 것은 제1종 오류와 제2종 오류의 균형을 맞추는 것입니다.


맺음말

가설 검정은 데이터 분석에서 필수적인 과정입니다. 귀무가설과 대립가설을 설정하고, 유의확률을 통해 결과를 해석하는 능력은 연구와 실무에서 중요한 역할을 합니다. 이번 글이 가설 검정의 기본 개념과 방법론에 대한 이해를 높이는 데 도움이 되었길 바랍니다. 더 궁금한 점이 있으면 언제든지 댓글로 남겨주세요!