본문 바로가기
  • ㄹㅇ
데이터 분석의 모든 것/1. 기초통계

기초 통계량과 확률

by 한강석 2024. 5. 31.
기초 통계량과 확률

기초 통계량과 확률

데이터 분석의 첫걸음은 기초 통계량과 확률 이론을 이해하는 것입니다. 통계학은 데이터를 효과적으로 요약하고 해석할 수 있는 방법을 제공하며, 이를 통해 더 나은 의사결정을 내릴 수 있도록 도와줍니다. 이번 글에서는 집중화 경향 대푯값, 분산도, 그리고 확률 이론에 대해 살펴보겠습니다. 각 개념을 예시와 함께 설명하고, 표와 그래프를 통해 시각적으로 이해를 돕겠습니다.

집중화 경향 대푯값

평균

평균은 데이터 집합의 모든 값을 더한 후, 값의 개수로 나눈 값입니다. 예를 들어, 데이터 집합이 [2, 4, 6, 8, 10]일 때, 평균은 다음과 같이 계산됩니다.

평균 = (2 + 4 + 6 + 8 + 10) / 5 = 6

중앙값

중앙값은 정렬된 데이터 집합에서 중앙에 위치한 값입니다. 데이터 집합이 [2, 4, 6, 8, 10]일 때, 중앙값은 6입니다. 데이터의 개수가 짝수일 경우, 중앙값은 중앙에 있는 두 값의 평균입니다.

중앙값 = (6 + 8) / 2 = 7

최빈값

최빈값은 데이터 집합에서 가장 자주 나타나는 값입니다. 예를 들어, 데이터 집합이 [2, 3, 4, 4, 5]일 때, 최빈값은 4입니다.

분산도

범위

범위는 데이터 집합에서 최대값과 최소값의 차이입니다. 예를 들어, 데이터 집합이 [2, 4, 6, 8, 10]일 때, 범위는 다음과 같이 계산됩니다.

범위 = 10 - 2 = 8

평균편차

평균편차는 각 데이터 값과 평균의 차이들의 절대값의 평균입니다. 예를 들어, 데이터 집합이 [2, 4, 6, 8, 10]일 때, 평균이 6이라면, 평균편차는 다음과 같이 계산됩니다.

평균편차 = (|2-6| + |4-6| + |6-6| + |8-6| + |10-6|) / 5 = 2.4

분산

분산은 각 데이터 값과 평균의 차이의 제곱의 평균입니다. 예를 들어, 데이터 집합이 [2, 4, 6, 8, 10]일 때, 분산은 다음과 같이 계산됩니다.

분산 = ((2-6)^2 + (4-6)^2 + (6-6)^2 + (8-6)^2 + (10-6)^2) / 5 = 8

표준편차

표준편차는 분산의 제곱근입니다. 예를 들어, 분산이 8이라면, 표준편차는 다음과 같이 계산됩니다.

표준편차 = √8 ≈ 2.83

확률이론

확률 개념

확률은 특정 사건이 발생할 가능성을 나타내는 척도입니다. 예를 들어, 동전 던지기에서 앞면이 나올 확률은 1/2입니다.

조건부 확률

조건부 확률은 어떤 사건이 발생한 후 다른 사건이 발생할 확률입니다. 예를 들어, A와 B 두 사건이 있을 때, B가 발생한 후 A가 발생할 확률은 다음과 같이 계산됩니다.

P(A|B) = P(A ∩ B) / P(B)

독립, 종속 사건

독립 사건은 하나의 사건이 발생해도 다른 사건에 영향을 미치지 않는 경우입니다. 예를 들어, 두 번의 동전 던지기는 독립 사건입니다. 반면에 종속 사건은 하나의 사건이 다른 사건에 영향을 미치는 경우입니다.

이산확률변수, 연속확률변수

이산확률변수는 셀 수 있는 값들을 가질 수 있는 확률변수입니다. 예를 들어, 주사위의 눈금은 이산확률변수입니다. 연속확률변수는 연속적인 값을 가질 수 있는 확률변수입니다. 예를 들어, 사람의 키는 연속확률변수입니다.

확률 분포와 확률 함수

확률 분포는 확률변수가 가질 수 있는 값과 그 확률을 나타내는 함수입니다. 이산확률분포의 예로는 이항분포, 포아송분포 등이 있고, 연속확률분포의 예로는 정규분포, 균등분포 등이 있습니다.

기대값

기대값은 확률변수의 평균값을 의미합니다. 이산확률변수의 경우, 각 값에 해당하는 확률을 곱한 후 모두 더한 값입니다. 예를 들어, 주사위의 기대값은 다음과 같이 계산됩니다.

E(X) = ∑x_i P(x_i) = 1 × 1/6 + 2 × 1/6 + 3 × 1/6 + 4 × 1/6 + 5 × 1/6 + 6 × 1/6 = 3.5

맺음말

이번 글에서는 기초 통계량과 확률 이론에 대해 살펴보았습니다. 집중화 경향 대푯값부터 분산도, 확률 이론까지 다양한 개념을 이해함으로써 데이터 분석의 기초를 다질 수 있습니다. 더 궁금한 점이 있으면 언제든지 댓글로 남겨주세요!