다시 이음

통계 본문

채우기/밑바닥부터 시작하는 데이터 과학

통계

Taeho(Damon) 2022. 9. 12. 15:59

이 포스트는 밑바닥부터 시작하는 데이터 과학 이라는 오렐리 도서와 추가적인 정보를 정리한 내용입니다.

 

3. 통계

 

3-1. 중심 경향성

 

중심 경향성은 데이터의 중심이 어디에 있는지를 파악하는 지표입니다.

 

댜부분은 데이터의 값의 합을 포인트 개수로 나눈 평균을 사용합니다.

평균은 이상치에 민감한 특성을 가집니다.

 

이런 부분을 피하가고자 중앙값을 사용하기도 하는데 중앙값은 데이터 전체에서 가장 중앙에 있는 데이터를 의미합니다.

을 찾기 위해서는 데이터를 정렬해야합니다.

 

3-2. 산포도

 

산포도는 데이터가 얼마나 퍼져있는지를 나타냅니다.

 

산포도를 측정하기 위해 max() - min()을 통해 산포도를 나타낼 수도 있고 아래와 같이 분산,표준편차를 확인할 수 있습니다.

 

분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구합니다. 즉, 차이값의 제곱의 평균입니다.

 

표준편차는 분산 대신에 원래 단위와 같은 단위를 가지기 위해 분산을 루트로 취한 값입니다.

 

 

3-3. 상관관계

 

각 특성간의 연관성이 있는 것을 파악하기 위한 지표는 상관관계입니다.

 

 

공분산(Covariance)

 

첫번째로 분산과 비슷한 개념인 공분산이 있습니다.

 

분산은 하나의 변수가 변수의 평균에서 얼마나 멀리 떨어져 있는지를 계산한다면, 공분산은 두 변수가 각자의 평균에서 얼마나 멀리 떨어져있는지를 계산합니다.

 

공분산 식

x의 평균과 기댓값을 뺀 값과 y의 평균과 기댓값을 뺀 값을 곱하여 합해준(내적) 뒤 n으로 나누어준다.

 

여기서 x,y가 모두 평균보다 같이 작거나 크면 양수, 각각 평균보다 크고 작으면 음수로 표현됩니다.

 

그렇기 때문에 공분산이 음수이면 둘의 관계가 음의 관계, 양수이면 둘의 관계가 양의 관계, 0일 경우 관계가 존재하지 않는다고 볼 수 있습니다.

 

하지만, 공분산은 입력 변수의 단위들을 곱해서 계산되어 이해하기가 어렵습니다. 또한 공분산의 수치가 얼마나 커야 얼만큼 영향이 있는지도 알 수 없습니다.

 

이렇기 때문에 공분산에서 각각의 표준편차를 나눠준 상관계수를 더 자주 살펴봅니다.

 

상관계수(correlation coefficient)

 

상관계수는 단위가 없고 항상 -1 ~ 1 사이의 값을 가집니다.

상관계수의 값은 두 특성 사이의 영향이 얼마나 큰지도 확인 할 수 있습니다.

 

1) 피어슨 상관계수

 

피어슨 상관 계수(Pearson Correlation Coefficient ,PCC)란 두 변수 X 와 Y 간의 선형 상관 관계를 계량화한 수치다. 피어슨 상관 계수는 코시-슈바르츠 부등식에 의해 +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관 관계, 0은 선형 상관 관계 없음, -1은 완벽한 음의 선형 상관 관계를 의미한다. 일반적으로 상관관계는 피어슨 상관관계를 의미하는 상관계수이다. - 위키백과

주의할 점은 피어슨 상관계수가 0이라는 것은 선형 상관관계가 없음을 의미하는 것이지 기타 비선형 관계는 존재할 수도 있음을 의미합니다. 0이라고 해서 상관관계가 없는 것이 아니라는 점입니다.

 

- 피어슨 상관계수의 가정

 

1. 두 변수는 연속형 변수이다.

2. 두 변수는 정규분포를 따른다.
    (간혹 한 변수만 정규분포를 따라도 된다고는 하지만, 이론적으로는 두 변수 모두 정규분포를 따라야합니다.)

3. 두 변수는 선형 관계를 가진다.

 

 

2) 스피어만 상관계수

 

스피어만 상관계수는 두 변수의 순위 사이의 통계적 의존성을 측정하는 비모수적 척도(데이터가 정규분포가 아니거나 모를때)입니다. 원시데이터가 아닌, 각 변수에 대해 순위를 매긴 값을 기반으로 상관관계를 측정합니다. 순위를 이용하기 때문에 연속형 변수가 아닌 순서형 변수인 경우에도 용 가능합니다.

 

피어슨 상관계수와 마찬가지로 -1 ~ 1사이의 값을 가지며 단순 관계만 측정합니다. 순위로 변환해서 상관관계를 측정하기 때문에 선형 외에 비선형 관계도 나타낼 수 있습니다.

 

- 스피어만 상관계수의 가정

 

1. 두 변수는 적어도 순서형 변수이다.

2. 두 변수는 단조 관계를 가진다.

 

상관관계는 인과관계를 의미하지 않는다.

 

데이터 x,y 가 강한 상관관계를 보일때 x가 y를 발생시켰을 수도, y가 x를 발생시켰을 수도, 서로를 동시에 발생시킬 수도, 아무런 인과관계가 없을 수도 있습니다.

 

 

4. 가설과 추론

 

 

4-1. 통계적 가설 검정

 

가설(hypothesis)이란, 하나의 주장입니다.

이러한 가정들이 다양한 가정하에서 확률변수의 관측치로 이해될 수 있고 그런 가정들이 얼마나 타당한지 알수 있게 해줍니다.

 

가설은 기본적인 가설인 귀무가설(H0)과 비교하고 싶은 대립가설(H1)로 구성되어있습니다.

우리는 통계를 사용하여 H0 귀무가설을 기각할지를 결정합니다.

 

- 유의 수준(significance)

 

유의수준은 제1종 오류(귀무가설이 참이지만 기각하는 오류)를 얼마나 허용해줄 것인지를 의미합니다.

 

제2종 오류는 귀무가설이 거짓이지만 기각하지 않는 오류로 이를 범하지 않을 확률을 구하면 검정력을 확인할 수 있습니다.

 

4-2. P- value(유의확률)

 

유의확률이란, 귀무가설이 옳다는 가정아래에 실제로 관측된 값보다 더 극단적인 값이 나올 확률을 뜻합니다.

 

만약 유의 확률이 0.02라면 귀무가설을 기각했을때 이 기각 결정이 잘못될 확률이 2%라는 것이고 기각 결정이 잘못될 확률이 너무 작기 때문에 과감하게 기각해도 된다고 해석이 가능해집니다.

 

즉, p-value가 작을 수록 좋다는 것입니다.

 

이 확률과 같이 사용되는 것이 위에서의 유의수준입니다.

 

p-value > 유의수준 이면  귀무가설을 기각할 수 없으면서 대립가설을 지지할 수도 없습니다.

반대로 p-value < 유의수준 이면 귀무가설을 기각하고 대립가설을 지지할 수 있습니다.

 

4-3. 신뢰구간

 

신뢰 구간이란, 특정한 확률분포의 가정 하에서 일정한 오차 범위 내에서 어떤 미지의 모수에 대한 추정치를 포함하는 구간 입니다.

다른 말로는 추정량의 분포를 이용하여 표본으로부터 모수값을 포함하리라고 예상되는 구간을 제시 하는 것이라고 볼 수 있습니다.

 

'추출한 표본 평균이 모평균으로부터 2* 표준오차(SEM) 범위 안에 95% 확률로 들어온다.' 라고 도 말합니다.

표준오차는 '추정값인 표본평균들과 참값인 모평균과의 표준적인 차이'로 오차(추정값-참값)의 제곱의 평균에 루트를 씌운 것 입니다.

표준오차(SE) 식

 

4-4. 베이지안 추론

 

베이즈 추론(Bayesian inference)은 통계적 추론의 한 방법으로, 추론 대상의 사전 확률과 추가적인 정보를 통해 해당 대상의 사후 확률을 추론하는 방법이다. 베이즈 추론은 베이즈 확률론을 기반으로 하며, 이는 추론하는 대상을 확률변수로 보아 그 변수의 확률분포를 추정하는 것을 의미한다. - 위키