[Time Series] 시계열 분석 개요 - 용어 정의 / 예시

시계열 데이터 분석의 기본 개념, 가정, 관련 용어 정의를 정리합니다.

시계열

Time series : A set of values measured sequentially in time, empirical observation of time varying phenomena

시계열은 시간에 따라 순차적으로 측정된 값이다. 보통은 동일한 시간 간격의 측정치 $X_1, X_2,...$ 이다. (but not always) 따라서, 시계열은 ordering 순서가 중요한 관측치로, 시간에 대한 dependency 종속성으로 인해 순서를 변경하면 데이터의 의미가 바뀔 수 있다.

시계열 데이터 유형과 예시

시계열 데이터는 Continuous 연속형 값이거나, Discrete or symbolic (words) 이산형 혹은 기호/단어이다.

  1. 주가 (dayhour, minute, tick, etc...)
  2. 기온과 같은 날씨관련 측정치 (day, minutesecond, etc...)
  3. 환자 수 (week, month, etc...)
  4. GDP (quarter, year, etc...)

시계열 분석 목적

Time Series Analysis & Forecasting

  1. 시계열 특성 추세, 계절성을 요약하고, 시간에 따른 패턴 자기상관 을 분석한다.
  2. 1의 결과를 바탕으로 구축한 시계열 모형으로 미래 값을 예측한다.

Fitting Time-series Model (statsmodel)

$x_{t+1}=f\left(x_{t}, x_{t-1}, \cdots\right)$ ⇒ $f\left(x_{t}, x_{t-1}, \cdots\right)$
시간이 변하는 현상에 따른 실증적 관측치를 분석해 (자기자신의) 과거 패턴을 기반으로 미래의 값을 예측한다. 즉, 시계열 분석은 과거의 값과 현재의 값의 관계/모델/함수를 찾는 과정이라 할 수 있다.

시계열 모형을 찾는 과정을 요약하면 다음과 같다.

  1. Visualize Time Series
  2. Stationarize Time
  3. Series Plot of ACF/PACF
  4. Build ARIMA Model
  5. Forecast

시계열 성분과 관련 용어

1. 시계열값과 시차

  • $x_t$ : $t$시점의 시계열 값
  • $x_{t-l}$ Lagged values : 시차 $l$인 시계열 값
    일반적으로 $l$ time-steps 이전의 시계열 값을 의미한다.
  • $x_{t-7},x_{t},x_{t+7}$ $t$시점의 시계열 값과 시차 7인(이전/이후) 시계열 값을 나타낸 그래프는 다음과 같다.

2. 주기/윈도우

$w$ window : 시계열 값의 running metrics를 계산할 주기/간격

  • Windowing
    1. window 사이즈 설정 : sliding window of width 6 on a series of length 11
      전체 길이가 11인 시계열이 있고, $w=6$ 으로 지정하면 sliding window 데이터가 오른쪽과 같이 구성된다.
    2. (행 기준) sliding window세트마다 이동평균(running merics)을 계산한다.

3. 이동평균

Running Values/Metrics를 사용하는 경우 $w$ window 크기 만큼의 데이터(point)가 줄어든다.

  • $\mu_{t}^{w}$ Moving Average 이동평균 지정된 window 내의 평균 값
    • detrend : 시계열에서 추세를 제거하는 데 사용한다.
    • 이동평균 그래프
  • Other metrics : $\sigma_{t}^{w}$ 분산, 최대값, 최소값

4. 정상성

Stationarity 정상성은 시계열 데이터의 평균, 분산이 일정하고 특정한 추세가 존재하지 않는 성질을 의미한다. 즉, 시계열이 시간$t$과 독립적인(무관) 경우이다.

$x_t$가 stationary 정상시계열인 경우 다음을 3가지 성질을 만족한다.
  1. 임의의 $t$에 대해 일정한 평균 $E(x_t)=\mu$
  2. 임의의 $t$에 대해 일정한 분산 $Var(x_t)= \sigma^2_w(1+\theta^2_1)$
  3. 임의의 $t, h$에 대해 $Cov(X_{t+h}, X_{t} )=γ(h)$ 공분산이 $t$에 의존하지 않고 $h$에만 의존한다. ($γ(h)$: 자기공분산 함수)

정상 시계열은 어떤 시점에서의 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 지닌다.

정상 시계열 그래프의 특징

  • 정상 시계열은 항상 그 평균값으로 회귀하려는 경향이 있다.
  • 평균 값 주변에서의 변동은 대체로 일정한 폭을 가지게 된다.
  • 정상 시계열이 아닌 경우, 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화할 수 없다. (↔ 시계열 분석의 기본 가정 - 이전의 값이 현재의 값을 결정한다)

시계열 모형과 그래프

예시 모형i,ⅱ의 그래프를 통해서 앞서 언급한 특징들을 확인해보자.
i. $y_t =0.5+0.5 y_{t-1} + e_t, e_t ∼iid N(0,1)$
ⅱ. $y_t =0.5+0.9 y_{t-1}$
정상시계열 (ⅰ-left) & 정상시계열이 아닌 (ⅱ-right) 시계열 그래프는 다음과 같다.
i-left 정상시계열 그래프의 경우 일정한 평균값으로 회귀하려는 경향이 뚜렷하고 ⅱ-right 보다 주변의 변동이 일정하다.

시계열 모형의 수식 표현 연산자

Notational Conventions

시계열 모형에는 lagged terms 시차항, differenced data 차분된 데이터 등을 포함할 수 있다. 관련 notation을 간단히 정리해보자.

Backshift Operator

  • $Bx_t = x_{t-1}$
    backshift 후방이동 연산자 B는 시계열 $x_t$ 혹은 오차항 $w_t$ 앞에 쓰인다. 이는 한 시점 뒤로 옮기는 것을 의미한다. move that element back one time
  • $B^k x_t = x_{t-k}$
    B의 급수$k$는 급수 기간의 수 $k$만큼 뒤로 이동하기 위해 후방이동 연산자를 반복적으로 적용하는 것을 의미한다.
  • $B\theta_1=\theta_1$
    단 후방이동연산자 $B$는 고정된 값인 계수에는 적용되지 않는다.

AR Models and the AR Polynomial

AR 자기회귀 모델은 계수 $\theta$, 후방이동 연산자$B$를 포함하는 AR 다항식으로 표현할 수 있다.

  • AR Polynomial 자기회귀다항식
    $\Phi(B) = 1-\phi_1B- \dots - \phi_p B^p$
    $p$ : AR자기회귀항 최대차수(lag)
  • AR Model (AR 다항식을 사용해 표현한 AR모델)
    $\Phi(B)x_t = \delta + w_t$

MA Models and the MA Polynomial

MA 이동평균 모델도 계수 $\theta$, 후방이동 연산자$B$를 포함하는 MA 다항식으로 표현할 수 있다.

  • Polynomial 이동평균 다항식
    $\Theta(B) = (1+\theta_1B+\dots +\theta_qB^q)$
    $q$ : MA이동평균항 최대차수(lag)
    • MA(1) : $\Theta(B)=1+\theta_1B$
  • MA Model (MA 다항식을 사용해 표현한 MA모델)
    MA(q) : $x_t =\mu + (1+\theta_1B+\theta_2B^2+...+\theta_qB^q)w_t$
    • MA(1) : $x_t = \mu + w_t + \theta_1 w_{t-1} = \mu + (1+\theta_1B)w_t$
    • MA(2) : $x_t = \mu + w_t + \theta_1 w_{t-1} + \theta_2 w_{t-2}= \mu + (1+\theta_1B+\theta_2B^2)w_t$

Models with Both AR and MA Terms

AR, MA항 모두 포함하는 모델

  • $\Phi(B)(x_t-\mu) = \Theta(B)w_t$
  • $(x_t-\mu) = \dfrac{\Theta(B)}{\Phi(B)}w_t$

Reference&Source
data4science| | stationary ts graph