다시 이음

시계열 데이터 예측에 대하여(Forecasting: Principles and Practice)-(2) 본문

AI 일별 공부 정리

시계열 데이터 예측에 대하여(Forecasting: Principles and Practice)-(2)

Taeho(Damon) 2021. 12. 30. 16:03

안녕하세요.

 

오늘은 시계열 시각화에 대해서 알아보도록 하겠습니다.

 

해당 글은 Hyndman, R.J., & Athanasopoulos, G. (2018) Forecasting: principles and practice, 2nd edition, OTexts: Melbourne, Australia. 온라인 교재의 내용을 요약,정리한 글이며 제가 주로 사용하는 파이썬이 아닌 R로 설명되어 있어 이해함에 부족함이 있을 수 도 있다는 점을 알려드립니다.

 

시계열 시각화

 

데이터 분석 작업에서 가장 먼저 해야하는 것은 데이터를 그래프으로 나타내는 것입니다. 그래프는 패턴, 특이한 관측값, 시간에 따른 변화, 변수 사이의 관계 등의 데이터의 많은 특징을 눈으로 볼 수 있게 해줍니다.

 

시계열의 빈도

 

빈도의 값은 일별 혹은 시간별 과 같이 빈도 기준에 따라 달라집니다.

 

1. 시간 그래프

 

 시계열 데이터에서 가장 먼저 그려야 할 것은 시간 그래프(time plot) 입니다.

 

해당 시간 그래프에서 표현되는 계절성 패턴이나 변화의 추세가 예측치 안에 나타나야 합니다.

 

 

2. 시계열 패턴

 

 우리는 시계열을 이해하기 위해 아래 단어에 대한 내용을 좀더 자세히 볼 필요가 있습니다.

 

(1) 추세 (Trend)

 : 데이터가 장기적으로 증가하거나 감소할 때, 추세(trend)가 존재합니다. 추세가 선형적일 필요는 없습니다. 때때로 어떤 추세가 증가에서 감소로 변화하는 경우에, 그것을 추세의 “방향이 변화했다”라고 언급할 것입니다.

 

(2) 계절성 (Seasonality)

 : 해마다 어떤 특정한 때나 1주일마다 특정 요일에 나타나는 것 같은 계절성 요인이 시계열에 영향을 줄 때 계절성(seasonality) 패턴이 나타납니다. 계절성은 빈도의 형태로 나타나는데, 그 빈도는 항상 일정하며 알려져 있습니다.

 

(3) 주기성 (Cycle)

 : 고정된 빈도가 아닌 형태로 증가나 감소하는 모습을 보일 때 주기(cycle)가 나타납니다. 보통 이러한 요동은 경제 상황 때문에 일어나고, 흔히 “경기 순환(business cycle)”과 관련 있습니다. 보통 이러한 요동의 지속기간은 적어도 2년 이상입니다. 

 

쉽게 말하면 시간 그래프에서 같은 파동의 그래프가 계속해서 일정하게 이어진다면 이것을 계절성으로 볼 수 있고, 하향곡선 혹은 상승곡선을 전체적으로 보여줄 때에 추세를 볼 수 있으며, 계절성 패턴보다 길이가 길고 크기또한 큰것을 주기라고 봅니다.

 

 

3. 계절성 그래프

 

시간 그래프와 크게 다르진 않지만, 각 계절별로 나누어 시각화 하는 차이가 있습니다.

 

시간 그래프가 1980년에서 1990년까지의 데이터를 하나의 선(y축 = 매출, x축 = 년도)으로 보여줬다면, 계절성 그래프는 년도 별로 선을 하나씩 나타내어(y축 = 매출, x축 = 월) 월별로 보여줄 수 있을 것입니다.

 

혹은, 월별로 나타내어진 그래프의 평균을 확인함으로써 계절성 패턴을 좀더 명확하게 찾아볼 수 도 있습니다.

 

 

4. 산점도

 

시계열 사이의 특성들의 관계를 살필 때에 유용합니다.

 

상관계수(correlation coefficient)

 

 두 변수 사이의 관계의 강도를 측정할 때 주로 사용됩니다.

 

좀더 자세한 설명은 이전 포스트에 업로드 한 적이 있어서 포스트를 확인해주세요.

2021.07.23 - [AI일별 정리] - 선형대수 - 2 (공분산과 상관계수)

 

 

5. 자기 상관(autocorrelation)

 

상관값이 두 변수 사이의 선형 관계의 크기를 측정하는 것처럼, 자기상관(autocorrelation)은 시계열의 시차 값(lagged values) 사이의 선형 관계를 측정합니다.

 

쉽게 말하자면, 시계열 데이터는 현재의 상태가 과거, 미래와 밀접한 관련이 있기 때문에 시간의 흐름에 독립적이지 않음으로 자기상관관계를 갖는다고 합니다.

 

시차가 나는 k 시간대와 t시간대의 공분산(자기공분산)을 정의하고 그를 통하여 자기상관계수(AutoCorrelation Function)  또한 정의할 수 있습니다.

자기 상관 계수 식

 

데이터에 추세가 존재할 때, 작은 크기의 시차에 대한 자기상관은 큰 양의 값을 갖는 경향이 있는데, 왜냐하면 시간적으로 가까운 관측치들이 관측값의 크기에 있어서도 비슷하기 때문입니다.

 

그래서 추세가 있는 시계열의 ACF는 양의 값을 갖는 경향이 보이며, 이러한 ACF의 값은 시차가 증가함에 따라 서서히 감소합니다.

 

데이터에 계절성이 존재할 때의 자기상관은 다른 시차의 경우보다 계절성 시차(계절성 빈도의 배수로 나타나는)의 경우에 더 크게 나타날 것입니다.

 

추세와 계절성을 모두를 나타내는 데이터의 경우에는 이들의 조합된 효과를 확인할 수 있습니다. 

 

ACF 그래프 예시

물결 모양은 계절성에 의한 것이며, 하향 곡선을 그리는 것은 추세 때문입니다.

 

 

6. 백색 잡음

 

위의 자기상관계수를 통하여 그래프를 시각화 했을 때, 자기상관값이 거의 0이면 자기상관이 없는 백색잡음이라고 합니다.

 

 

 

다음 시간에는 예측 기법에 대하여 알아보도록 하겠습니다.