기초 통계량과 확률
데이터 분석의 첫걸음은 기초 통계량과 확률 이론을 이해하는 것입니다. 통계학은 데이터를 효과적으로 요약하고 해석할 수 있는 방법을 제공하며, 이를 통해 더 나은 의사결정을 내릴 수 있도록 도와줍니다. 이번 글에서는 집중화 경향 대푯값, 분산도, 그리고 확률 이론에 대해 살펴보겠습니다. 각 개념을 예시와 함께 설명하고, 표와 그래프를 통해 시각적으로 이해를 돕겠습니다.
집중화 경향 대푯값
평균
평균은 데이터 집합의 모든 값을 더한 후, 값의 개수로 나눈 값입니다. 예를 들어, 데이터 집합이 [2, 4, 6, 8, 10]일 때, 평균은 다음과 같이 계산됩니다.
평균 = (2 + 4 + 6 + 8 + 10) / 5 = 6
중앙값
중앙값은 정렬된 데이터 집합에서 중앙에 위치한 값입니다. 데이터 집합이 [2, 4, 6, 8, 10]일 때, 중앙값은 6입니다. 데이터의 개수가 짝수일 경우, 중앙값은 중앙에 있는 두 값의 평균입니다.
중앙값 = (6 + 8) / 2 = 7
최빈값
최빈값은 데이터 집합에서 가장 자주 나타나는 값입니다. 예를 들어, 데이터 집합이 [2, 3, 4, 4, 5]일 때, 최빈값은 4입니다.
분산도
범위
범위는 데이터 집합에서 최대값과 최소값의 차이입니다. 예를 들어, 데이터 집합이 [2, 4, 6, 8, 10]일 때, 범위는 다음과 같이 계산됩니다.
범위 = 10 - 2 = 8
평균편차
평균편차는 각 데이터 값과 평균의 차이들의 절대값의 평균입니다. 예를 들어, 데이터 집합이 [2, 4, 6, 8, 10]일 때, 평균이 6이라면, 평균편차는 다음과 같이 계산됩니다.
평균편차 = (|2-6| + |4-6| + |6-6| + |8-6| + |10-6|) / 5 = 2.4
분산
분산은 각 데이터 값과 평균의 차이의 제곱의 평균입니다. 예를 들어, 데이터 집합이 [2, 4, 6, 8, 10]일 때, 분산은 다음과 같이 계산됩니다.
분산 = ((2-6)^2 + (4-6)^2 + (6-6)^2 + (8-6)^2 + (10-6)^2) / 5 = 8
표준편차
표준편차는 분산의 제곱근입니다. 예를 들어, 분산이 8이라면, 표준편차는 다음과 같이 계산됩니다.
표준편차 = √8 ≈ 2.83
확률이론
확률 개념
확률은 특정 사건이 발생할 가능성을 나타내는 척도입니다. 예를 들어, 동전 던지기에서 앞면이 나올 확률은 1/2입니다.
조건부 확률
조건부 확률은 어떤 사건이 발생한 후 다른 사건이 발생할 확률입니다. 예를 들어, A와 B 두 사건이 있을 때, B가 발생한 후 A가 발생할 확률은 다음과 같이 계산됩니다.
P(A|B) = P(A ∩ B) / P(B)
독립, 종속 사건
독립 사건은 하나의 사건이 발생해도 다른 사건에 영향을 미치지 않는 경우입니다. 예를 들어, 두 번의 동전 던지기는 독립 사건입니다. 반면에 종속 사건은 하나의 사건이 다른 사건에 영향을 미치는 경우입니다.
이산확률변수, 연속확률변수
이산확률변수는 셀 수 있는 값들을 가질 수 있는 확률변수입니다. 예를 들어, 주사위의 눈금은 이산확률변수입니다. 연속확률변수는 연속적인 값을 가질 수 있는 확률변수입니다. 예를 들어, 사람의 키는 연속확률변수입니다.
확률 분포와 확률 함수
확률 분포는 확률변수가 가질 수 있는 값과 그 확률을 나타내는 함수입니다. 이산확률분포의 예로는 이항분포, 포아송분포 등이 있고, 연속확률분포의 예로는 정규분포, 균등분포 등이 있습니다.
기대값
기대값은 확률변수의 평균값을 의미합니다. 이산확률변수의 경우, 각 값에 해당하는 확률을 곱한 후 모두 더한 값입니다. 예를 들어, 주사위의 기대값은 다음과 같이 계산됩니다.
E(X) = ∑x_i P(x_i) = 1 × 1/6 + 2 × 1/6 + 3 × 1/6 + 4 × 1/6 + 5 × 1/6 + 6 × 1/6 = 3.5
맺음말
이번 글에서는 기초 통계량과 확률 이론에 대해 살펴보았습니다. 집중화 경향 대푯값부터 분산도, 확률 이론까지 다양한 개념을 이해함으로써 데이터 분석의 기초를 다질 수 있습니다. 더 궁금한 점이 있으면 언제든지 댓글로 남겨주세요!
'데이터 분석의 모든 것 > 1. 기초통계' 카테고리의 다른 글
가설 검정과 유의확률 (0) | 2024.05.31 |
---|---|
정규분포와 표준화 (0) | 2024.05.31 |
모집단과 표본: 기초 통계학 및 표본 추출 방법 (0) | 2024.05.31 |