두 데이터를 비교하는데, 보통은 평균을 많이 이용한다.
t-test는 평균과 더불어, 데이터가 얼마나 넓게 혹은 얼마나 좁게 분포하는지 보고, 평균값과 함께 이 분산정보를 데이터 비교에 이용한다.
두 데이터의 평균과 그 두 데이터의 차이에서 만들어지는 표준편차 값을 이용해서 평균값을 보정한 t-score 를 계산하고,
이 t-score 와 데이터 수에 상응하는 자유도 값을 이용하여 p-value 를 구한 후,
두 데이터가 유사하다는 귀무가설이 기각되어야 하는지 아닌지 판단하는 것.
FOR WHAT
* 두 데이터 비교
* 독립성이 없는 두 데이터 비교 ( 실험 전/후 ) : 두 데이터의 차이 값의 평균이 0이다 (귀무) / 아니다 ( 대응표본 t-test )
* 독립성이 있는 두 데이터 비교 ( 다른 두 class의 시험성적 ): 두 데이터의 평균에 차이가 없다 (귀무) / 있다 ( 독립표본 t-test )
* 한 숫자와 한 데이터 비교
* 한 데이터의 평균이 그 숫자와 같다 ( 귀무 ) / 아니다 ( 단일표본 t-test )
REQUIREMENTS
* 두 데이터가 정규분포를 가져야 한다. ( 정규분포 테스트 -> if n < 30, use "Shapiro-Wilk normality test" )
* If yes,
* 두 데이터의 독립성 여부 확인
* if 독립 ->
* 두 데이터의 분산이 같은지 확인 ( 등분산성 )
* if yes -> 독립표본 t test
* 귀무가설: 두 데이터에는 평균 차이가 없다.
* if not, 자유도를 수정하는 Welch t-test
* if not 독립 -> 대응표본 t test
* 귀무가설 : 두 데이터의 차이의 평균은 0 이다.
* If not,
* 두 데이터의 독립성 여부 확인
* if 독립 -> 독립표본 ( 다른 두 class의 시험성적 ) -> "Mann-Whitney test" or "Wilcoxon rank sum test"
* if not, -> 대응표본 ( 실험 전/후 ) -> "Wilcoxon signed rank test"
HOW
( 대응표본 t test )
* 두 데이터의 차이 계산 -> 이 차이값을 토대로 표준편차 계산 :
Standard deviation of the differences between 1st data and 2nd data (S)
* 두 데이터의 평균을 각각 계산 ->
Mean of 1st data set (M1), Mean of 2nd data set (M2)
* t score = (( M1 - M2 ) * rooted 자유도) / S
* t score 와 자유도를 이용하여 p value 추론
REFERENCEs
blog.naver.com/PostView.nhn?blogId=vnf3751&logNo=220838283162