다시 이음

데이터 통계 -1 (샘플링과 가설 검정) 본문

AI 일별 공부 정리

데이터 통계 -1 (샘플링과 가설 검정)

Taeho(Damon) 2021. 7. 15. 19:09

샘플링의 종류

1. Simple Random Sampling

모집단에서 sampling을 무작위로 하는 방법

2. Systematic Sampling

모집단에서 sampling을 할 때 규칙을 가지고 추출하는 방법입니다. ex) 1, 6, 11, 16, ... 번째의 데이터를 선택

3. Stratified Random Sampling

모집단을 미리 여러 그룹으로 나누고, 그 그룹별로 무작위 추출을 수행하는 방법입니다. ex) 여론 조사를 위해 사람을 나이대 별로 나누고, 해당 그룹안에서 무작위 추출.

4. Cluster Sampling

모집단을 미리 여러 그룹으로 나누고, 이후 특정 그룹을 무작위로 선택하는 방법입니다.

 

가설 검정

가설을 표본 통계량에 입각하여 주장이나 가설의 진위 여부를 판단, 증명, 검정하는 통계적 추론방식

 

-귀무가설 (null hypothesis) : 직접 검정의 대상이 되는 가설 = H0

-대립가설 (alternative hypothesis) : 귀무가설에 대립하는 가설 = H1

 

귀무가설이 채택될지 기각될지에 대한 '기준' : 임계값(critical value)

 

-유의수준(level of significance) : 귀무가설이 실제 옳음에도 기각할 오류 = 귀무가설을 기각할 때 따르는 위험부담

 

-가설 검증에서 발생하는 오류 2가지

 

1. 1종 오류 - 귀무가설이 참임에도 이를 기각하는 오류 = 유의수준 = 알파

2. 2종 오류 - 귀무가설이 거짓임에도 이를 채택하는 오류 =베타

 

1종오류와 2종오류를 모두 줄인다면 검사의 신뢰도가 상승하겠으나 동일한 표본크기에서는 둘을 동시에 줄일 수 없다.

 

그러나, 표본 수를 늘리게 되면 1종 오류와 2종 오류를 모두 줄일 수 있다.

 

결국 표본의 수가 더욱 많아질수록, 추측은 더 정확해지고 (평균) 높은 신뢰도를 바탕으로 모집단에 대해 예측 할 수 있도록 함

 

 

가설 검증하는 방법(t-test)

t-test는

1) one sample t-test

2) two sample t-test로 나뉘어 있다.

 

 

1. one sample t-test

 

1개의 sample 값들의 평균이 특정값과 동일한지 비교하는 test

 

실행코드

from scipy import stats
result = stats.ttest_1samp(샘플, 예측값)
result
result.pvalue

 

p-value

대부분의 분석 모델에서는 가설이 부정 의미로 사용되어, p-value가 작을수록 결과가 의미있다고 해석

*귀무가설이 부정당해야 의미있는 모델이 됨으로 위의 말이 성립이 된다.

이유는 p-value가 0.05가 넘어도 이 수치는 귀무가설이 옳다라는 뜻이 아닌 틀리지는 않았다 라는 증명이 된다.

즉, 귀무가설이 기각되어야 한 가지의 선택지를 버림으로써 통계적으로 유의미하다는 뜻 

 

1) 기본적으로 0.05(유의 수준)보다 작은 수치일 때, 귀무가설은 틀렸다.

    1-1) p-value < 0.01 : 귀무가설이 옳을 확률이 1%이하 -> 틀렸다 (깐깐한 기준)

    1-2) p-value < 0.05 (5%) : 귀무가설이 옳을 확률이 5%이하 -> 틀렸다 (일반적인 기준)

 

2) 0.05 ~ p-value ~ 0.1 사이인 경우: (애매함)

  • 실험을 다시한다.
  • 데이터를 다시 뽑는다.
  • 샘플링을 다시한다
  • 기존의 경험 / 인사이트를 바탕으로 가설에 대한 결론을 내린다.

3) p-value > 0.1 (10%) : 귀무가설이 옳을 확률이 10%이상인데 -> 귀무가설이 맞다 ~ 틀리지 않았을것이다

 

 

2.two sample t-test

 

2개의 sample 값들의 평균이 서로 동일한지 비교.

 

-귀무가설 : 두 확률은 같다 (차이가 없다).

-대안가설 : 같지 않다

 

stats.ttest_ind(데이터샘플1, 데이터샘플2)
#p-value가 0.05를 넘으면 두 샘플의 평균값이 같다는 가설이 틀리지는 않았다라고 한다.

 

 

1) one tailed t-test (단측 검정)

 

1개의 샘플이 다른 샘플보다 크다. 혹은 작다.라고 가정하고 실시하는 검정.

 

샘플1이 샘플2보다 크다. 라고 가정하였을 경우, p-value(⍺)가 0.05보다 작다면 샘플2가 샘플1보다 같거나 큰 것으로 대립가설이 채택되며 유의미하다고 한다.

 

result = stats.ttest_ind(샘플1, 샘플2, alternative = 'less' or 'greater')
# 1. alternative가 less 일 경우 대안가설이 샘플1이 샘플2보다 작다라고 가정된다.
# -> 귀무가설이 샘플1은 샘플2보다 크다로 설정.
# 2. alternative가 greater 일 경우 대안가설이 샘플1이 샘플2보다 크다고 가정된다.
#-> 귀무가설이 샘플1은 샘플2보다 작다로 설정.

예 ) 만약 1번의 경우 p-value값이 0.05이상이면 귀무가설이 채택.

 

 

2) two tailed t-test (양측 검정)

 

-귀무가설 : 두 확률은 같다 (차이가 없다).

-대안가설 : 같지 않다

 

추가 설명 : 같지 않다라는 것은 하나의 값이 크거나 작아야 한다는 뜻으로 두가지의 유의수준을 모두 고려해야함.

그렇기에 한쪽으로 몰려있는 유의수준을 반으로 나누어 양쪽에 동일하게 분배한다.

 

그렇기에 양측검정의 p-value은 단측검정의 2분의1 수준이다.

 

 

참고 scipy https://docs.scipy.org/doc/scipy/reference/index.html