통계 공부

2022. 6. 7. 16:59카테고리 없음

p_value 

상관관계 vs 인과관계

공분산 : 두 확률 변수의 상관정도를 나타내는 값

 

공분산

공분산은 확률변수 X의 편차(평균으로부터 얼마나 떨어져 있는지)와 확률변수 Y의 편차를 곱한 것의 평균값이다. 

공분산이 0보다 크면 X가 증가할 때 Y도 증가한다는 뜻이다.

공분산이 0보다 작으면 X가 증가할 때 Y는 감소한다. 공분산이 0이면 두 변수 간에는 아무런 상관 관계가 없다.

이처럼 공분산을 통해 우리는 X의 증가에 따라 Y가 증가하는지 감소하는지에 대해서 알 수 있다. 다른 말로, 

공분산은 두 변수 간에 양의 상관관계가 있는지, 음의 상관관계가 있는지 정도 알려준다. 하지만 상관관계가 얼마나 큰지는 제대로 반영하지 못한다. 

공분산의 문제는 확률변수의 단위 크기에 영향을 많이 받는다는 것이다. 이를 보완할 수 있는 것이 바로 상관계수다. 

 

상관계수 : 공분산을 분산의 크기로 나눠 공분산의 문제점을 해결

상관계수는 확률변수의 절대적 크기에 영향을 받지 않도록 공분산을 단위화시킨 것이다. 즉, 공분산에 각 확률변수의 분산을 나눠주었다.

상관계수는 양의 상관관계가 있는지 음의 상관관계가 있는지 알려줄 뿐만 아니라, 그 상관성이 얼마나 큰지도 알려준다. 1 또는 -1에 가까울 수록 상관성이 큰 것이고, 0에 가까울 수록 상관성이 작은 것이다. 

 

 

피어슨 상관계수 : 두 변수간에 선형성이 얼마나 강한지 측정하기 위해 사용 

스피어만 상관계수 : 두 변수간의 단조성 파악

켄달 상관계수 : 두 변수간의 단조성 파악

단조성이 좋다는 것은 한 변수의 값의 크기가 커지면(또는 작아지면) 다른 변수의 크기도 커진다(또는 작아진다)는 뜻입니다.

 

 

 

 

t-test : 두 집단의 평균을 구하는 검정 방법

ANOBA : 두 집단 이상(예 세집단) 의 평균을 구하는 검정방법

중심극한정리 : 표본의 크기가 증가함에 따라 표본확률분포가 정규분포에 근접해 지는 것을 의미

평균(mean) : 모든값을 더한후 값의 크기로 나는 값

중앙값(median) : 데이터를 크기대로 정렬했을 때 가운데 있는 값

최빈값(mode) : 가장 많이 발생한 값

왜도 : 치우친 정도, 0일경우 정규분포와 일치, 2보다 크면 한쪽을 치우쳐진 상태를 의미, 양수이면 우측 꼬리 형태, 왼쪽에 자료가 더 많고 이상치는 큰 값이 많다는 것을 의미함

첨도 : 그래프의 뽀족한 정도, 0 이면 정규분포의 높이와 동일, 값이 클수록 중심에 자료가 많이 몰려 있다는 의미