다시 이음

알.쓸.데.상(알아두면 쓸데 있는 데이터 상식) -2 (AI 면접 질문-1) 본문

알.쓸.데.상

알.쓸.데.상(알아두면 쓸데 있는 데이터 상식) -2 (AI 면접 질문-1)

Taeho(Damon) 2021. 8. 5. 10:29

안녕하세요.

 

일주일 간 프로젝트 발표 준비를 하기 위해서 잠시 블로그 활동을 멈췄습니다.

 

오늘로 발표가 끝나고 피드백도 받았기에 널널한 마음으로 다시 블로그 업데이트를 할거에요.

 

오늘은 따로 배운 게 없기 때문에 제가 배웠던 부분에서 다시 상기해볼 수도 혹은 좀더 심화된 지식을 포스팅 해보려고 합니다.

 

바로 AI 대학원 면접 예상 질문!!!

 

 

Statistic 통계 /  Probability 확률

 

 

1) Central Limit Theorem(중심 극한 정리)이란 무엇인가?

 

 

 Sample 데이터의 수가 많아질 수록, sample의 평균은 정규분포에 근사한 형태로 나타난다. 라고 이전 포스트에서 아주 축약해서 올린 적이 있는데요.

 

오늘은 심화과정이니 더 알아보도록 하겠습니다.

 

정의 : 동일한 확률분포를 가진 독립* 확률변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리 

*한 사건이 일어날 확률이 다른 사건이 일어날 확률에 영향을 미치지 않는다.

 

그렇다면 왜 중심극한정리가 중요할까요?

 

그 이유는 모집단이 어떤 분포를 가지고 있던 간에 ( 모집단 분포의 모양에 상관없이 ) 표본의 수가 많다면 표본평균들의 분포가 모집단의 모수를 기반으로한 정규분포를 이룬다는 점을 이용하여, 특정 사건(본인이 수집한 표본의 평균)이 일어날 확률값을 계산 할 수 있게 됩니다.

 

즉, 표본 평균들이 이루는 표본 분포와 모집단 간의 관계를 증명함으로써, 수집한 표본의 통계량을 이용해 모집단의 모수(모집단의 여러 특성,데이터)를 추정할 수 있는 수학적(확률적)근거를 마련해줍니다.

참고 ) https://drhongdatanote.tistory.com/57

 

 

2)Central Limit Theorem은 어디에 쓸 수 있는가?

 

 

 중심극한정리의 예시를 들어보도록 할게요.

 

예시에 앞서 모집단의 분포와 상관없이 표본의 수가 30개 이상일 때에는 정규분포에 근사하게 나타난다고 하니 참고하세요.

 

예시1)

어느 회사의 평균 연봉이 62,000 달러이고, 표준 편차는 32,000 달러라고 하자. 만약에 한 명의 직원이 랜덤으로 선택되었다면, 해당 직원의 연봉이 66,000 달러를 넘을 확률은 무엇인가? 여기서 위와 같이 P( X > 66,000 )가 되는 확률을 구하는 것이 최종 목표일 것이다. 그런데 이걸 구하려다 보니, Z-score를 계산해서 표준화 시켜 버린다. 그런데 지금의 문제는 모집단에서 일어난다. 하나의 샘플에 대해서 모집단에 대한 정보가 있는 상태에서 구하려고 하니 위와 같은 수식으로 Z-score가 계산되며, 결국 Z값이 0.25보다 큰 확률을 구해야 한다. 하지만  여기서는 Z가 표준 정규 분포를 따른다고 볼 수 없다. 이유는 우리의 랜덤 변수인 연봉이 정규 분포를 따른다는 말이 없기 때문에 X는 다른 어떠한 분포도 될 수 있는데, 그렇다면 Z값 역시 표준 정규 분포를 따른다고 볼 수 없기 때문에 우리가 구하고자 하는 확률을 구할 수 없게 되는 것이다.

 

모집단에 대한 정보는 동일하게 두고, 이번에는 샘플링을 하나만 하는 것이 아니라, 100개를 뽑게 된다. 즉, 100명의 직원들을 랜덤으로 뽑고,(물론 뽑는 Pool은 당연히 위에서 설명한 모집단에서 뽑아야함;) 그들의 평균 연봉이 66,000 달러를 넘을 확률을 구하는 문제를 생각해보자.

여기서는 랜덤 변수가 X가 아니라 X bar가 된다. 즉, 샘플 평균이 되고, 이것에 대해서 Z-score를 계산하면 위와 같이 된다. 여기서는 1.25 보다 높은 Z가 될 확률을 구하면 되는데, 이번에는 X bar가 샘플 사이즈가 30이상인 100이니깐(30보다 크면 된다는 대략적인 충고를 적용한다면) 중심극한정리(CLT) 덕분에 정규 분포를 따른다고 말할 수 있다. 따라서, 자연스럽게 Z-score도 정규분포를 다르게 되는데, 게다가 Z-socre의 형태적인 특징 때문에 표준 정규 분포가 되어 버린다. 표준 정규 분포란 평균이 '0'이고 분산이 '1'인 분포의 모든 파라미터를 아는 분포이므로, 확률 밀도 함수를 완전히 아는 것이므로, 그 속에 포함된 확률을 모두 구할 수 있다는 이야기가 된다. 테이블이 몇몇 경우에 따라 정리된 것을 바탕으로 1.25보다 큰 구간에 대해서는 0.106 라는 값의 적분값이 있다는걸 알 수 있다. 즉, 최종적으로 우리는 100명의 평균 연봉이 66,000 달러 이상일 확률은 10프로 정도라고 말 할 수 있게 되는 것이다. 우리가 모집단이 어떻게 분포되는지는 아예 모른다고 해도 이러한 말을 할 수 있는건 모두 CLT 덕분이다. 이러한 파워풀한 개념 때문에 중심극한정리는 통계학에서 중요한 위치에 있다.

 

- 즉 표본을 통해서는 주어진 평균 연봉,표준 편차, 구하고자하는 연봉예측치를 활용하여 z-score*(Z-score에서는 관측치 즉, 샘플에서 샘플의 평균을 빼주고 그것을 해당 샘플의 분산으로 나누어줌)을 구한 뒤 해당 값을 적분하여 해당하는 비율을 알 수 있다.

* z-score : 표준값 z는 원수치인 x가 평균에서 얼마나 떨어져 있는지를 나타낸다.

 

참고)https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=sw4r&logNo=221162629991

 

 

3)큰 수의 법칙이란?

 

 

 큰 수의 법칙에 대해서도 이전 포스트에서 sample 데이터의 수가 커질 수록, sample의 통계치는 점점 모집단의 모수와 같아진다.라고 짧게 소개 하고 지나갔는데 좀더 깊게 들어가볼게요.

 

확률적 수렴에 관한 정리 중 하나이며, 시행이 많아질수록 통계적 확률은 수학적 확률에 가까워진다.

설명을 위해서 공식을 먼저 가져왔습니다.

n을 어떤 사건A의 실행 횟수, X는 n회 독립 시행에서 사건A가 발생한 횟수, p는 사건 A가 발생할 수학적 확률, h는 임의의 양수 입니다.

 

즉, X/n은 사건 A의 통계적확률이고 괄호 안의 내용은 사건 A의 통계적확률에서 수학적확률을 뺐을 때 임의의 양수 h보다 작을 확률을 나타냅니다.

 

그 확률이 1에 가까워진다는 것은 통계적 확률이 n이 무한해질 수록 수학적 확률과 비슷해져간다. 라고 볼 수 있습니다.

 

4)확률이랑 통계랑 다른 점은?

 

확률적 계산 → 알려진 모집단에서 주어진 표본이 얻어질 확률 계산
통계적 추론 → 주어진 표본을 가지고 모집단에 대해 예측

 

확률은 주어진 모델을 통해서 데이터를 예측하는 것

통계는 주어진 데이터를 통해서 모델을 예측하는 것이라고 봐도 좋을 것 같다.