다시 이음

확률 본문

채우기/밑바닥부터 시작하는 데이터 과학

확률

Taeho(Damon) 2022. 9. 11. 19:38

 

이 포스트는 밑바닥부터 시작하는 데이터 과학 이라는 오렐리 도서와 추가적인 정보를 정리한 내용입니다.

 

2. 확률

 

어떠한 사건의 공간에서 특정 사건이 선택될 때 발생하는 불확실성을 수치적으로 나타내는 것입니다.

 

2-1. 종속성과 독립성

 

사건 A,B가 서로 발생여부에 관여한다면 종속 사건, 아니라면 독립 사건입니다.

 

예를들어

동전을 두번 던져서 첫번째 시도에 앞면이 나왔다고 해도 두번째 시도에 어떤 면이 나올지 알 수 없기에 독립사건입니다.

하지만 모두 뒷면이 나올 확률의 경우, 첫번째 시도에 동전에서 앞면이 나오면 확률이 0이 되기때문에 두 사건은 종속사건입니다.

 

2-2. 조건부확률

 

만약 두 사건이 독립사건이라면

 

P(A∩B) = P(A)*P(B)가 성립합니다.

예를 들어 P(A)가 주사위를 던져 2의 배수가 나올 확률, P(B)가 주사위를 던져 3의 배수가 나올 확률이라면



P(A) = (2,4,6) / (1,2,3,4,5,6) = 1/2

P(B) = (3,6) / (1,2,3,4,5,6) = 1/3

P(A∩B) = (6) / (1,2,3,4,5,6) = 1/6



결론적으로 P(A∩B) = P(A)*P(B)가 성립하게 됩니다.

 

위의 식을 활용하여

두 사건이 반드시 독립사건이라는 보장이 없고 사건 A의 확률이 0이 아닌 경우, 사건A가 일어난 뒤에 사건 B가 일어날 확률(P(B|A)) = 조건부확률 을 구할 수 있습니다.

 

조건부 확률이란 사건 A가 일어난 공간안에서 사건 B가 또 일어나는 확률로 표본공간이 전체 사건에서 A사건이 일어난 표본공간으로 줄어드는 것으로 볼 수 있습니다.

 

 

2-3. 베이즈 정리

 

조건부 확률을 반대로 뒤집는 베이즈 정리는 확률 P(A|B)를 알고 있을 때 관계가 그 반대인 P(B|A)를 계산(원인과 결과 형태의 문제에서 결과에 대한 원인을 분석)할 때 사용합니다.

 

베이즈 정리

베이즈 정리는 위의 공식을 가지고 있으며 아래와 같이 설명할 수 있습니다.

P(A) : A의 사전 확률 - 현재의 증거

P(B) : B의 사전 확률 - 과거의 경험

P(A|B) : 사건 B가 주어졌을 때 A의 조건부확률(likelihood) - 알려진 결과에 기초한 어떤 가설에 대한 가능성

P(B|A) : 사건 A라는 증거에 대한 사후 확률(posterior probability) - 사건 A가 일어났다는 것을 알고 그것이 B로 부터 일어난 것이라고 생각되는 조건부 확률

 

여기서 사건 B를  '사건 B와 사건 A가 모두 발생하는 경우' 와 '사건 B는 발생하지만 사건 A는 발생하지 않는 경우' 두 상호 베타적인 사건으로 나눌 수 있습니다.

 

# '사건 B는 발생하지만 사건 A는 발생하지 않는 경우'
P(B) = P(B∩A) + P(B∩A여집합)
# 조건부 확률 변형
P(B|A)P(A) = P(AB)

# 베이즈 정리와 조건부 확률을 사용하면 위 식과 합치면

P(A|B) = P(B|A)P(A) / [ P(B|A)P(A) + P(B|A여집합)P(A여집합) ]

 

 

예를 들어

 

10,000명 중에 1명(P(D))이 걸리는 질병이 있다고 할 때

이 질병을 판단하는 검사가 99%(P(T|D))의 경우에 정확한 판단을 내린다고 가정합니다.

 

여기서 사건 T는 양성 판정을 받을 확률, 사건 D는 질병에 걸린 확률이라고 가정합니다.

 

- 양성 판정인 경우, 실제로 병에 걸렸을 확률

P(T|D) = 0.99

P(D) = 0.0001

P(T|D여집합) = 질병이 없는 사람이 양성 판정을 받는 경우  = 0.01

P(D여집합) = 0.9999

 

대입을 하면 

 

0.99 * 0.0001 / (0.99 * 0.0001) + (0.01*0.9999) = 0.98% = 양성 판정을 받은 사람 중 실제로 질병에 걸린 사람의 확률

 

 

2-4. 확률 변수

 

확률 변수는 특정 확률분포와 연관되어 있는 변수를 의미합니다.

무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수라고도 할 수 있습니다.

 

확률 변수의 종류로는 이산 확률 변수 / 연속 확률 변수 가 있습니다.

 

이산 확률 변수는 확률 변수 X가 어느 구간의 실수값을 택하지 않고 0,1,2와 같은 고립된 값만을 택하는 변수를 말합니다.(구분되는 변수)

연속 확률 변수는 확률 변수가 취하는 값이 연속된 구간을 나타나는 확률 변수를 말합니다.(연속적으로 이어진 변수)

연속 확률 변수의 값은 실수(real number) 집합처럼 연속적이고 무한개의 경우의 수를 가집니다.

2-5. 연속 분포

 

각각의 결과에 확률을 계산해주는 이산형 분포와 다르게 대부분의 경우, 연속된 결과에 대한 분포를 나타내어 연속 분포입니다.

 

균등 분포는 0과1사이에 모든 값에 동등한 비중을 준 분포입니다.

 

0과 1사이에는 무한히 많은 숫자가 존재하기 때문에 밀도함수를 특정 구간에서 적분한 값으로 확률을 나타내는 확률 밀도함수(Probability Density Function)로 연속 분포를 표현합니다.

 

확률 변수의 값이 특정 값보다 작거나 클 확률을 나타내는 누적분포함수(Cumulative Distribution Function)가 있습니다.

 

이런 확률 함수들은 확률 변수에 의해 정의된 실수를 확률(0과 1사이)로 대응 시키는 역할을 합니다.

 

왜 확률 밀도 함수를 사용하는가?

연속확률변수는 변수가 연속되어있어서 실수가 무한개의 경우를 가지고 하나의 실수값에 대한 확률을 구하려고 해도 무한개의 경우의 수를 가지기 때문에 개별 확률을 구할 수가 없습니다. 이 확률을 계산하고자 A<x<B와 같이 구간을 정하여 확률을 설명하게 되는데 이 범위를 지정하는데 2개의 실수가 필요하고 하나의 실수로 범위를 지정하기 위해 하나의 실수는 범위가 시작하는 실수를 가장 작은 실수로 고정하는 방법인 누적분포함수(CDF)입니다.
범위의 시작은 일반적으로 음의 무한대(negative infinity, -∞)값을 사용합니다.

누적분포함수의 단점 중의 하나는 어떤 값이 더 자주 나오든가 혹은 더 가능성이 높은지에 대한 정보를 알기 힘들다는 점입니다.

이를 알기 위해 전체 구간을 작은 폭을 가지는 구간으로 나누고 각 구간의 확률을 살펴봐야 합니다. 이 구간의 폭을 설정할 때 미분을 사용하여 각 구간의 변화의 정도인 기울기를 구합니다.

이 누적분포함수(CDF)를 미분한 함수를 확률밀도함수(PDF)라고 합니다.

 

 

2-6. 정규 분포

 

정규분포(Normal Distribution)은 일반적으로 보이는 좌우대칭의 종 모양으로 생긴 분포이며 평균인 μ(뮤) 와 표준편차 σ(시그마)의 두 파라미터로 정의됩니다.

 

평균은 종의 중심이 어디인지를 표준편차는 종의 폭이 얼마나 되는지를 나타냅니다.

 

여러 데이터들은 주로 정규분포를 이루지만 각 집단의 평균과 표준편차가 달라 서로의 데이터를 비교하기 어려운 문제가 생깁니다.

 

이러한 문제를 해결하기 위해 정규분포를 표준화(평균을 0, 표준편차를 1로 변환) 하여 표준 정규 분포를 만듭니다.

 

표준화 방법은 개별 데이터에서 집단 전체의 평균을 빼고 표준 편차로 나누어주는 것입니다.

 

이렇게 개별 데이터를 표준화 하면 Z-score라고 부릅니다.

Z-score는 표준 정규 분포의 확률변수(확률밀도함수의 x축) 이 됩니다.

 

Z-score는 평균값에서 표준편차의 몇 배정도 떨어져있는지 확인 가능합니다.

  1. 표준편차 +- 1배 범위내에 약 68% 데이터 위치
  2. 표준편차 +- 2배 범위내에 약 95% 데이터 위치
  3. 표준편차 +- 3배 범위내에 약 99% 데이터 위치

즉 Z값이 3이상 나온다면 이상치라고 확인 할 수 있겠습니다.

 

출처 : 필로홍의 데이터 노트

 

2-7. 중심극한정리

 

중심 극한 정리(中心 極限 定理, 영어central limit theorem, 약자 CLT)는 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다. - 위키백과

 

그 이유는 모집단이 어떤 분포를 가지고 있던 간에 ( 모집단 분포의 모양에 상관없이 ) 표본의 수가 많다면 표본평균들의 분포가 모집단의 모수를 기반으로한 정규분포를 이룬다는 점을 이용하여, 특정 사건(본인이 수집한 표본의 평균)이 일어날 확률값을 계산 할 수 있게 됩니다.

 

예를 들어 어떤 회사에 고용된 인원들의 연봉을 알고 있을 때, 무작위로 100명을 뽑아 평균 보다 높은 연봉을 받는 사람의 확률을 구하려고합니다.

 

여기서 평균과 표준편차를 알고 있다고 할때 구하고자하는 높은 연봉을 평균에서 몇퍼센트에 위치하는지를 구하고 평균과 표준편차를 사용하여 Z-score를 구하면 적분 표를 통해 정한 값보다 연봉이 높은 확률을 구할 수 있게 됩니다.