본문 바로가기

Learning/Statistics & Data analysis

t-test

두 데이터를 비교하는데, 보통은 평균을 많이 이용한다. 

t-test는 평균과 더불어, 데이터가 얼마나 넓게 혹은 얼마나 좁게 분포하는지 보고, 평균값과 함께 이 분산정보를 데이터 비교에 이용한다. 

 

두 데이터의 평균과 그 두 데이터의 차이에서 만들어지는 표준편차 값을 이용해서 평균값을 보정한 t-score 를 계산하고,

이 t-score 와 데이터 수에 상응하는 자유도 값을 이용하여 p-value 를 구한 후, 

두 데이터가 유사하다는 귀무가설이 기각되어야 하는지 아닌지 판단하는 것.

 

FOR WHAT 

* 두 데이터 비교 

         * 독립성이 없는 두 데이터 비교 ( 실험 전/후 ) :  두 데이터의 차이 값의 평균이 0이다 (귀무) / 아니다 ( 대응표본 t-test )

         * 독립성이 있는 두 데이터 비교 ( 다른 두 class의 시험성적 ):  두 데이터의 평균에 차이가 없다 (귀무) / 있다 ( 독립표본 t-test )

* 한 숫자와 한 데이터 비교 

          * 한 데이터의 평균이 그 숫자와 같다 ( 귀무 ) / 아니다 ( 단일표본 t-test ) 

 

REQUIREMENTS 

* 두 데이터가 정규분포를 가져야 한다. ( 정규분포 테스트 -> if n < 30, use "Shapiro-Wilk normality test" )

           * If yes, 

                     * 두 데이터의 독립성 여부 확인

                               *  if 독립 -> 

                                        * 두 데이터의 분산이 같은지 확인 ( 등분산성 )

                                                * if yes -> 독립표본 t test

                                                         * 귀무가설: 두 데이터에는 평균 차이가 없다. 

                                                * if not, 자유도를 수정하는 Welch t-test 

                              *  if not 독립 -> 대응표본 t test

                                                * 귀무가설 : 두 데이터의 차이의 평균은 0 이다. 

           

           * If not,

                     * 두 데이터의 독립성 여부 확인

                                  * if 독립 -> 독립표본 ( 다른 두 class의 시험성적 ) -> "Mann-Whitney test" or "Wilcoxon rank sum test"  

                                   * if not, -> 대응표본 ( 실험 전/후 ) ->  "Wilcoxon signed rank test" 

 

 

HOW 

( 대응표본 t test ) 

* 두 데이터의 차이 계산 -> 이 차이값을 토대로 표준편차 계산 :

   Standard deviation of the differences between 1st data and 2nd data (S)

* 두 데이터의 평균을 각각 계산 ->

   Mean of 1st data set (M1), Mean of 2nd data set (M2)

* t score = (( M1 - M2 ) * rooted 자유도) / S

* t score 와 자유도를 이용하여 p value 추론 

 

REFERENCEs

nittaku.tistory.com/459

blog.naver.com/PostView.nhn?blogId=vnf3751&logNo=220838283162

sosal.kr/843