IE가 어른이 되기까지

[Time Series] 시계열 데이터란 ? 본문

STUDY/Temporal Data Science

[Time Series] 시계열 데이터란 ?

기모랑의 초코 2024. 8. 28. 17:41

 

 

 

 

 

 

 

 

이번 글에서는 시계열 데이터가 무엇이고

어떠한 특징을 가지고 있는지 알아보겠습니다.

 

 

 

1. 시계열 데이터

 

 

 

 

 

보통 우리가 다루는 비시계열 데이터란 위처럼 한 시점에 여러 변수에 대해 수집된 자료를 뜻합니다.

 

 

 

 

반면, 시계열 데이터시간의 흐름에 따라 수집된 데이터를 뜻하는데

 

 

 

 

 

 

이때 수집된 데이터의 변수의 개수에 따라 단변량 시계열 데이터와 다변량 시계열 데이터로 나뉩니다.

 

 

단변량 시계열 데이터의 경우 동일한 간격의 사간 증가에 대해 순차적으로 기록되며

한 개의 변수 관측치로 구성된 데이터를 뜻합니다.

 

 

다변량 시계열 데이터도 마찬가지로 동일한 간격의 시간 증가에 대해 순차적으로 기록되지만

두 개 이상의 변수 관측치로 구성된 데이터를 뜻합니다.

 

 

 

 

 


 

 

 

 

2. 시계열 데이터의 특징

 

 

 

시계열 데이터는 계절성, 추세성, 순환성, 반복성이라는 특징이 존재합니다.

 

 

먼저, 계절성(Seasonality)이란 규칙적인 시간(월, 년 등) 동안에 동일한 패턴이 나타나는 것을 의미합니다.

 

예를 들어 여름철에는 아이스크림 판매가 증가하고 겨울철에는 난방용품 판매가 증가하듯

특정 시점마다 패턴이 일관되게 나타나는 특징을 뜻합니다.

 

 

추세성(Trend)이란 데이터가 장기적으로 보여주는 전반적인 방향성을 의미합니다.

 

주로 시간에 따라 데이터가 꾸준히 증가하거나 감소하는 경향을 보일 때 나타나는데,

예를 들어 회사의 경제 성장처럼 전반적으로 우상향을 나타내는 경우를 뜻합니다.

 

 

순환성(Cyclicity)이란 장기적으로 나타나는 불규칙한 주기성을 가진 패턴을 의미합니다.

 

계절성처럼 상승과 하락의 주기가 반복되지만 계절성과 달리 그 주기가 일정하진 않습니다.

 

 

마지막으로 반복성(Periodicity)이란 일정한 간격으로 반복되는 특성을 의미합니다.

 

때문에 계절성과 순환성을 포함하며 이들이 조합되어 시계열 데이터에서 특징 패턴이 반복적으로 나타납니다.

 

 

 

 

 


 

 

 

 

 

 

3. 시계열 데이터의 형태

 

 

시계열 데이터는 계절 변동, 추세 변동, 계절적 추세 변동, 순환 변동 등 다양한 변동 패턴들이 포함되어 있습니다.

 

 

1) 계절 변동 (Seasonal Variation : S)

 

 

 

계절 변동이란 시계열 데이터에서 주기적인 패턴을 갖고 반복적으로 나타나는 주기변동으로

분기별 혹은 월별 자료에서 주로 나타납니다.

 

즉, 년, 월, 분기 등의 고정된 주기를 갖는 것이 특징입니다.

 

 

 

2) 추세 변동 (Trend Variation : T)

 

추세변동이란 시계열이 장기간에 걸쳐 점진적으로 상향하거나 하향하는 변화상태를 의미합니다.

 

 

 

 

 

이러한 추세변동의 형태는 시간변화에 따라 직선으로 증가하거나 감소하는 선형 추세가 존재하고

 

일정한 성장률로 성장하는 과정을 나타내는 지수 곡선 추세,

성장한계를 갖고 있는 성장과정을 나타내는 추세인 로지스틱 추세

 

상승 추세 후 일시적 상승 추세의 급락으로 인해 상승 추세의 평균 회귀 성장과정을 나타내는 역추세가 존재합니다.

 

 

 

 

 

3) 계절적 추세 변동 (Seasonal Trend Variation)

 

 

 

 

계절적 추세 변동은 앞서 설명드렸던 계절성과 순환성이 결합된 변동을 의미합니다.

 

데이터가 시간에 따라 일정한 방향(추세, Trend)을 가지면서 그 방향성 내에서도

계절적인 패턴(계절성, Seasonality)이 반복되는 경우를 나타냅니다.

 

예를 들어 한 회사의 매출이 해마다 증가하고 있는데 이 증가 추세 내에서

여름철마다의 매출이 급격히 상승한다면 해당 데이터는 계절적 추세 변동을 가지고 있다고 할 수 있습니다.

 

 

 

 

4) 순환 변동 (Cyclical Variation : C)

 

 

 

순환 변동이란 수년간의 간격을 두고 상승과 하락의 형태를 보이는 것을 의미합니다.

 

순환 변동을 계절 변동으로 혼동할 수 있는데, 보통 순환 변동은

계절 변동으로 설명되지 않는 장기적인 변동을 뜻합니다.

 

주기 자체가 계절 변동의 주기보다 클 뿐만 아니라 주기 자체가 시간의 흐름에 따라 변화합니다.

 

 

 

 


 

 

 

 

 

4. 시계열 데이터와 우연 변동

 

우연 변동을 보통 백색잡음(White Noise)이라고 하는데,

위 그림처럼 데이터에 패턴이 전혀 없는 무작위적인 변동을 의미합니다.

 

보통 시계열 데이터를 다루는 데에 있어서 우리는 우연 변동이 되게끔 시계열 데이터를 처리해주어야 합니다.

 

그 이유는 무엇일까요 ?

 

 

 

시계열 데이터를 활용해 미래를 예측할 시 데이터에 남아있는 패턴(ex. 추세성, 계절성 등)이 있으면

모델이 해당 데이터에 치중된 학습을 하게 되어 Bias나 과적합이 발생할 수 있습니다.

 

이런 경우 예측 오류가 발생하기 때문에 전처리 과정이 필요합니다.

 

 

 

다양한 전처리를 통해 데이터에 추세성이나 계절성 등이 사라진다면 백색잡음에 가까워지는데

이를 검증하는 것이 잔차진단이며 다음 세 가지 속성을 모두 만족해야 백색잡음이라고 정의할 수 있습니다.

 

 

 

 

 

잔차 진단

 

 

잔차진단모델을 통해 예측하고 남은 잔차가 무작위적인지 확인하는 과정입니다.

 

잔차는 표본(Sample)으로 추정한 식과 실제 관측값 간의 차이를 말하기 때문에

잔차는 모델이 얼마나 데이터를 잘 설명하고 있는지를 평가하는 데 중요한 역할을 합니다.

 

이러한 잔차가 무작위적이라는 것은 모델이 데이터의 중요한 패턴(추세성, 계절성 등)을 잘 포착했음을 의미합니다.

 

반면, 잔차에 주기적으로 상승하거나 하락하는 패턴이 존재한다면

모델은 해당 패턴을 놓쳤다는 의미이기 때문에 결과에 대한 신뢰성이 떨어집니다.

 

 

 

 

1. 정상성 (Stationarity)

 

 

 

 

 

정상성이란 시간에 관계없이 데이터가 일정한 상태를 유지하는 것을 의미합니다.

쉽게 말해 데이터의 평균과 분산이 시간이 지나도 변하지 않는 것을 말합니다.

 

따라서 잔차가 정상성을 만족해야만 모델이 안정적인 예측을 할 수 있습니다.

 

 

 

2. 등분산성 (Homoscedasticity)

 

 

 

등분산성이란 데이터의 분산이 시간이 지나도 일정한지를 확인하는 겁니다.

쉽게 말해 데이터가 시간에 따라 퍼지는 정도가 변하지 않아야 합니다.

 

만약 분산이 시간에 따라 변하면 모델의 예측 잔차가 특정 구간에서 커질 수 있기 때문에 등분산성을 유지해야 합니다.

 

 

 

3. 자기 상관성 (AutoCorrelation)

 

 

자기 상관성이란 시간에 따라 데이터들끼리 상관관계가 있는지를 보는 것입니다.

쉽게 말해 오늘의 데이터가 어제의 데이터에 영향을 주는지 아닌지를 확인하는 것입니다.

 

만약 자기 상관성이 없으면 데이터가 완전히 무작위적이라는 의미이기 때문에

예측 모델이 더 이상 과거 데이터에 의존하지 않은 채로 예측이 가능해진다는 의미입니다.

 

만약 이러한 자기상관성이 존재하면 잔차가 무작위적이지 않기 때문에 모델의 예측이 부정확해질 수 있습니다.

 

 

 

 

 


 

 

 

 

 

 

정리하자면 시계열 데이터에 남아있는 모든 주요 패턴을 제거하는

전처리 과정을 거쳐야 우연 변동, 즉 백색 잡음이 되고 

 

이런 경우에서만 모델이 패턴이 의존하지 않은채

무작위적인 변동만을 예측하게 되어 신뢰성 높은 결과를 얻을 수 있습니다.

 

그럼 시계열 데이터를 백색 소음이 되게끔 만들어주는 다양한 방법에 대해 다음 글에서부터 알아보도록 하겠습니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Comments