본문 바로가기
  • ㄹㅇ
패스트캠퍼스

[패스트캠퍼스] 데이터 분석 부트캠프 13기 2주차

by 한강석 2024. 2. 29.

이번주 강의 내용

통계학에 대한 기초적인 지식 설명과 엑셀을 활용한 데이터 분석 강의를 들었다. 통계학에 대한 내용은 고등학교에서배웠던 확통 내용 + 상관계수, 회귀분석, 공분산 등의 통계학 기본 개념으로 이루어졌다. 사실 고등학교 내용은 너무 쉬워서 대충 흘려들었고 대학교에서 배웠던 통계학 내용은 기억 나지 않는 파트 위주로 가볍게 정리하며 들었다. 
이후로 엑셀의 데이터 분석 도구를 이용해 여러가지 분석을 해보는 실습 강의로 이어졌다. 실습 자체는 클릭 몇번이면 끝나는 간단한 작업이었지만 각각의 값이 무엇을 의미하는 지 확실히 알아야 해석할 수 있으므로 분석 결과값에 대한 개념 위주로 내용을 정리하였다. 

 

우선 데이터 분석 도구를 엑셀에 추가해야 한다. 

[옵션] - [추가기능] - [분석 도구] 에서 원하는 추가기능팩을 선택한 뒤 [관리]에서 Excel 추가기능으로 설정하고 [이동]을 클릭해 추가해준다. 이러면 데이터 탭에 맨 끝에 데이터 분석이라는 메뉴가 추가된다. 

 

 

1. 기술 통계

주어진 데이터에 대한 특성을 파악하기 위한 기초 분석이다. 데이터의 요약 정보와 기초 통계량을 한눈에 파악할 수 있으며 이후 가설을 설정하기 전에 데이터에 대한 대략적인 내용을 파악하기 위해 가장 먼저 수행하는 분석이다. 

  • 중심 경향성: 최빈값, 중앙값, 평균(산술, 가중, 기하)
  • 분산도 : 분산, 표준편차, 데이터 범위(최대, 최소), IQR(3사분위수 - 1사분위수)
  • 왜도 : ( - ) 은 평균에 비해 오른쪽으로 치우침. ( + )는 평균에 비해 왼쪽으로 치우침
  • 첨도 : 꼬리가 얼마나 두꺼운지로 양수로 클수록 꼬리가 얇고 음수로 작을수록 꼬리가 두껍다. (분산도와도 연결가능)

[데이터 분석 도구] - [기술 통계]

 

 

 

2. 추론 통계

데이터에 대한 적합한 가설을 세워 이를 귀무가설을 통해 증명하는 추론 방법이다. 

 

Ex) A학교 학생이 B학교 학생보다 키가 큰 것 같다는 가설을 증명하고자 할 때

H1(대립가설) : A > B 를 증명하는 것은 어렵다. 그렇기에 H0(귀무가설) : A= B이 참이라는 가정 하에서 주어진 데이터가 나올 수 있는 확률(P value)을 구한다. 이 확률이 유의수준(검정에 대한 신뢰도)보다 작다면 귀무가설을 기각할 수 있고 이에 대립가설이 참이라는 결론을 내릴 수 있다. 

 

가설을 검정하는 경우는 여러가지가 있는데 예시처럼 2가지 집단의 데이터를 비교하는 경우에는 두 집단의 분산이 같은지 다른지를 검정하는 과정이 한 번 더 필요하다. 

 

H0: 두 집단의 분산이 같다. 

H1: 두 집단의 분산이 다르다. 를 가설로 놓고 F 검정을 실시한다. 

만약 F value가 유의수준보다 작다면 귀무가설(H0)를 기각하여 두 집단의 분산이 다르다는 이분산 가정을

유의수준보다 크다면 귀무가설을 기각할 수 없어 두 집단의 분산이 같다는 등분산 가정을 하에 진행한다. 

 

이후 등분산, 이분산 가정에 따라 T - test 를 진행해 최초 가설에 대한 검정을 진행한다. 

 

 

 

상관분석

두 변수가 어떤 선형적 관계가 있는지 분석하는 방법으로 상관 계수를 이용해 나타낸다. 상관계수의 절대값이 1에 가까울수록 두 변수가 선형관계를 갖는다고 볼 수 있고 양수면 양의 상관관계, 음수면 음의 상관관계를 나타낸다. 이를 표 형식으로 나타내 여러 변수들의 상관계수를 한 눈에 파악할 수 있다.

 

인과 관계를 가지고 있는 두 변수는 항상 강한 상관 관계를 가지고 있지만, 강한 상관 관계를 가지고 있다고 해서 두 변수가

반드시 인과 관계를 가지는 것은 아니기에 주의해야 한다. 

 

[데이터 분석] - [상관분석] ; 이 때 첫째 행을 포함해 범위를 지정한 뒤 이름표 사용을 체크해야 결과를 보기 좋다. 

 

 

 

회귀분석

종속변수에 대해 각각의 독립 변수가 미치는 영향을 분석하는 방법이다. 하나의 독립변수를 분석할 경우 단순회귀분석, 2개 이상의 독립변수를 분석할 경우 다중회귀분석을 진행한다.  

 

종속변수(y)를 독립변수(x1,x2,x3...) 에 대한 일차식으로 표현하여 선형 관계를 파악하는 분석이다. 

 

 

실제 데이터 분석을 할 때에는

  1. 우선 상관분석으로 상관관계가 높은 변수들을 추출하고
  2. 모든 변수를 포함한 다중선형회귀분석으로 유의미한 변수들로 걸러낸다. (p value가 유의수준보다 낮은 변수들)
  3. 유의미한 변수들을 가지고 다시 다중 선형 회귀분석을 진행하고
  4. 각각의 독립변수에 대한 단순선형회귀분석을 진행

하는 방법으로 관계를 파악한다. 

 

 

 

시계열 데이터 분석 

시간 순서대로 정렬된 데이터를 분석하는 방법이다. 대부분 과거 데이터를 분석해 미래 데이터를 예측하는 식으로 활용한다. 시계열 데이터에는 다양한 추세와 계절성이 존재하게 되는데 이를 분해하여 분석 목적에 적합한 데이터로 만드는 과정이 필요합니다. 이를 시계열 분석이라고 하며 수행하는 여러 모델이 있습니다. 

  • 정상성 시계열 데이터: 추세나 계절성이 없는 시간에 무관한 데이터
  • 비정상 시계열 데이터: 추세나 계절성이 존재하는 데이터

엑셀에서 지수 평활법을 사용해 미래의 값을 예측하는 FORECAST.ETS 함수가 있어 이를 활용해 간단히 시계열 분석을 진행했습니다. 지수 평활법은 현재 시점에 가까울수록 높은 가중치를 주어 데이터를 분석하는 방법입니다. 

 

 = FORECAST.ETS ( 예측할시계열,  값범위, 타임라인, [계절성], [누락데이터처리], [중복시계열처리]) 

  • 예측할 시계열 : 예측할 날짜 
  • 값 범위 : 축적된 데이터가 입력된 범위(숫자)
  • 타임라인 : 기존 날짜가 입력된 범위(날짜)
  • 계절성 : 얼마의 주기를 갖고 데이터를 예측할 지 설정, 생략시 자동으로 값을 넣어 예측
  • 누락데이터처리: 1은 주변 데이터의 평균값으로 계산, 0은 누락 데이터를 0으로 간주해 계산
  • 중복 시계열 처리: 평균, COUNT, COUNTA, 최대, 중앙, 최소값 등 중복 시계열을 처리하는 방  

 

 

 데이터 시각화

숫자로 써있는 데이터를 차트나 대쉬보드로 시각화하여 숨겨진 패턴을 직관적으로 파악할 수 있게 하는 방법입니다. 

다양한 차트를 활용할 수 있고 주어진 데이터나 설명할 내용에 따라 적합한 형식을 이용해야 합니다. 

 

익숙한 막대형 차트 외에도 콤보형(2가지 이상을 합쳐놓은 차트), 거품형, 폭포형 차트들을 그리는 방법을 배웠다. 

  • 원형 차트: 각 항목이 전체 항목에서 차지하는 비율을 비교할 때 (항목이 너무 많지 않아야 함)
  • 막대형 차트: 항목 간 크기를 비교할 때
  • 선형 차트: 시계열 데이터의 추세를 나타낼 때 
  • 폭포형 차트: 값이 추가되거나 감소된 양을 나타내며 합계를 보여준다. 주로 순이익, 매출 등을 표시
  • 거품형 차트 : 하나의 차트에 3가지 정보를 표시할 수 있다. x,y 축과 거품의 크기(z). 각 대상의 중요도와 우선 순위를 시각적으로 파악하기 좋다.   

 

 

대시보드

  1. 우선 어떤 데이터를 요약할 지 정한 뒤 피벗 테이블로 나타낸다. 
  2. 슬라이서와 피벗 차트를 이용해 원하는 항목에 대한 차트를 차례차례 나타낼 수 있다. 

슬라이서는 [보고서 연결] 메뉴로 원하는 피벗 테이블과 자유롭게 연결할 수 있으므로 하나의 슬라이서로 전체 대시보드의 피벗 차트들을 한 번에 바꾸는 것도 가능하다. 강의에서는 월, 년도 슬라이서를 따로 만들어 마스터 슬라이서로 사용하였고 각각의 피벗 테이블을 연결시켜 보고서를 작성하는 실습을 하였다.