Excel을 이용한 데이터 분석 - 통계 분석

2022. 3. 17. 21:23Excel

상관 분석

  • 정의 : 두 변수 간에 어떤 선형적 또는 비선형적 관계를 갖고 있는지를 분석하는 방법
  • 상관 관계 : 한쪽이 증가하면 다른 쪽도 증가하거나 반대로 감소되는 경향을 인정하는 두 양 사이의 통계적 관계 -> 두 변수가 선형 관계에 있는지 비선형 관계에 있는지 파악
  • 상관 계수 : 두 변수 사이의 상관성을 나타내며 일반적으로 피어슨 상관계수를 사용 (일반적으로 ±0.7 이상이면 강한 상관관계)

상관계수가 ±1에 가까울 수록 두 변수 간의 관계가 강하다는 뜻이지만, 두 변수 간의 인과관계(어느 변수가 원인이고 결과인지)는 알 수 없음.

분산 분석

  • 정의 : 두 개 이상 다수의 집단을 비교해 평균의 차이가 있는지를 검정
  • 방법 : 집단의 개수에 따라 집단이 2개일 때 T-test / 집단이 3개 이상일 때 ANOVA
  • F-검정 : 두 집단의 등분산성(분산이 같은지 여부)을 검정

F-검정은 두 집단의 등분산성을 검정해 각 상황에 맞는 t-test 방법을 선정하기 위해 사용! : P-value 가 0.05보다 크면 두 집단의 분산은 같고, 0.05보다 작으면 두 집단의 분산은 다름

--H0(귀무 가설) : 두 집단의 분산은 같다 (일반적으로 인정되는 사실) --H1(대립 가설) : 두 집단의 분산은 다르다 (우리가 주장하는 가설)

  • T-test : 두 집단의 평균이 유의미한 차이가 있는지 검정 --- 등분산 가정 두집단 : Student's t-test / 이분산 가정 두집단 : Welch's t-test

T-test의 P값이 0.05보다 작으면 , 집단2에 시행한 처리나 발생한 사건이 두 집단 평균 차이에 유의미한 영향을 미쳤다고 해석!

회귀 분석

  • 정의 : 두 개 이상의 연속형 변수인 종속 변수와 독립 변수 간의 관계를 파악하는 분석
  • 목적 : 두 변수 간의 관계 파악 , 미래 값 예측
  • 종류 : 독립 변수(x)의 개수에 따라 단순 회귀 분석(변수가 1개)과 다중 회귀 분석(변수가 2개 잇상)으로 구분
  • 최소 제곱법(LSE)

시계열 분석

  • 시계열 데이터란? : 일정 기간에 대해 시간의 함수로 표현되는 데이터
  • 목표 : 과거 시계열 데이터 특성 파악 및 미래 데이터 예측 업무
  • 지수 평활법 : 현재의 실제 값과 현재의 예측 값을 합산하여 미래의 예측 값을 구하는 방법
  • 단순 지수 평활법을 활용한 예측치 계산 방법 -- 미래의 예측 값 = 과거의 실제 값 * a + 과거의 예측 값 * (1-a) --a : 실제값 가중치 (0<= a <= 1)*
  • ETS(Error,Trend,Seasonality) : 오차, 추세, 계절성을 반영해 시계열 데이터 분석
  • FORECAST.ETS : 지수 평활법과 ETS 방법을 통해 특정 시점의 미래 값을 예측
  • =FORECAST.ETS(target_date, values, timeline)
  • ( 예측할 날짜, 알고 있는 실제 값들 (과거 매출 등) , 과거의 날짜들 )

'Excel' 카테고리의 다른 글

Excel을 이용한 데이터 분석  (0) 2022.03.20