다시 이음

시계열 데이터 예측에 대하여(Forecasting: Principles and Practice)-(3) 본문

AI 일별 공부 정리

시계열 데이터 예측에 대하여(Forecasting: Principles and Practice)-(3)

Taeho(Damon) 2022. 1. 4. 11:16

안녕하세요.

 

오늘은 시계열 데이터 예측에 대해서 사용할 수 있는 기법에 대해서 알아보도록 하겠습니다.

 

해당 글은 Hyndman, R.J., & Athanasopoulos, G. (2018) Forecasting: principles and practice, 2nd edition, OTexts: Melbourne, Australia. 온라인 교재의 내용을 요약,정리한 글이며 제가 주로 사용하는 파이썬이 아닌 R로 설명되어 있어 이해함에 부족함이 있을 수 도 있다는 점을 알려드립니다.

 

예측가의 도구 상자

 

1. 평균 기법

 

2. 단순 기법

 

모든 예측값을 단순하게 마지막 값으로 두는 것입니다.

 

데이터가 확률보행 패턴을 따를 때에 최적입니다.

 

3. 계절성 단순 기법

 

계절성이 뚜렷한 데이터를 다룰 때 유용합니다.

 

각 예측값을 연도의 같은 계절의 마지막 관측값으로 둡니다.

 

4. 표류 기법

 

단순 기법에서 시간에 따라 예측값이 증가하거나 감소하게 만든 기법입니다.

 

시간에 따른 변화량을 과거 데이터에 나타나는 평균 변화량으로 정합니다.

 

 

변환과 조정

 

위의 방법들은 대부분 벤치마크 역할을 하는 용도로 사용됩니다.

 

이러한 기법을 사용할 시에 과거 데이터를 조정하면 예측작업이 쉬워지기도 합니다.

 

변동의 알려진 원인을 제거하거나 전체 데이터 모음에 걸친 패턴을 더 일관성 있게 만들어서 과거 데이터에 나타나는 패턴을 단순하게 만드는 것입니다.

 

1) 달력 조절 : 월별 데이터에 대해 각 월마다 길이(29일,30일,31일과 같이)가 달라서 생기는 생산량의 변동을 일별 평균으로 본다면 패턴을 단순한 패턴으로 만들 수 있습니다.

 

2) 인구 조정 : 전체 데이터 대신에 한명, 10명, 100명 등과 같이 부분을 고려하는 것입니다. 

 

3) 인플레이션 조정 : 돈의 가치에 영향을 받는 데이터는 가격지수를 조정함으로써 조정합니다.

 

4) 수학적 변환 : 로그 변환이 대표적으로 사용됩니다. 상대적으로 비례하게 변환하는 것으로 의미를 해석하기 좋고, 예측치를 양수값으로 변환할 수 있습니다. 

 

위에서 로그 변환을 사용하였을 때, 원래 눈금에 대한 예측치를 위해 역변환을 할 필요가 있습니다.

 

이러한 역변환 과정에서 일반적인 역변환 과정과 편향조정 역변환(bias-adjustment)이 있습니다.

편향 조정을 하는가 하지 않는가에 따라 큰 차이를 만들 수 있기 때문에 충분히 고려하여야 합니다.

 

 

잔차 진단

 

대부분에 경우에  잔차(residual)는 관측값과 대응되는 적합값(fitted value)과 관측값의 차이와 같습니다.

 

잔차(residual)는 어떤 모델이 데이터의 정보를 적절하게 잡아냈는지 여부를 확인할 때 유용합니다.

 

좋은 예측 기법은 다음과 같은 특징을 갖는 잔차(residual)를 낼 것입니다.

  1. 잔차(residual)에 상관 관계가 없습니다. 잔차 사이에 상관관계(correlation)가 있다면, 잔차에 예측값을 계산할 때 사용해야하는 정보가 남아 있는 것입니다.
  2. 잔차의 평균이 0입니다. 잔차의 평균이 0이 아니라면, 예측값이 편향(bias)될 것입니다.
  3. 잔차의 분산이 상수입니다.
  4. 잔차가 정규분포를 따릅니다.

 

예측 정확도 평가

 

예측 오차(forecast error)를 통해 우리는 예측 정확도를 평가하곤 합니다.

 

예측 오차란, 관측값과 관측값의 예측치의 차이입니다. 여기서 오차란, 관측값에서 예측할 수 없는 부분을 이야기 하는 것입니다.

 

1) 눈금에 의존하는 오차

 

절대 오차(absolute error) 또는 제곱 오차(squared error)를 고려하는 가장 흔하게 사용하는 두 가지 눈금 의존 측정값(scale-dependent measure)은 다음과 같습니다:

 

 

MAE를 최소화하는 예측 기법은 예측값의 중앙값(median)을 내는데, RMSE를 최소화하는 예측 기법은 예측치의 평균을 냅니다.

 

2) 백분율 오차

 

백분율 오차(percentage error)는 단위와 관련 없다(unit-free)는 장점이 있어서 데이터 모음 사이의 예측 성능을 비교할 때 자주 사용됩니다. 

 

(Mean absolute percentage error): MAPE=(|pt|).

 

관심 있는 기간 안에서 어떤 에 대해 이면 무한대가 되거나 정의되지 않는 단점과, 가 0에 가까울 수록 극한값을 갖는 단점이 있습니다.

 

3) 눈금 조정된 오차

 

단위가 다른 시계열에 대해 예측 정확도를 비교할 때 백분율 오차 대신 MAE에 기초하여 오차의 눈금을 조정하는 방법으로 MASE가 있습니다.

 

 

예측 구간(prediction interval)

 

예측 구간(prediction interval)은 특정한 확률로 예측값이 들어갈 구간을 의미합니다. 

 

주로 80%,95% 구간을 계산하며 이러한 값은 예측값의 불확실성을 나타내줍니다.

 

점예측값(point forecast)일 때, 예측구간을 함께 사용한다면 각 예측값이 얼마나 불확실성(uncertainty)과 관련있는지 알 수 있게됩니다.