[Time Series] 정상성 검정/단위근 검정(ADF Test)과 확률적 보행

시계열 분석에 있어 정상성 검정의 필요성과 관련 개념들을 정리하고, 단위근 검정 (정상성 검정) 방법을 정리합니다.

정상성 검정

정상성

시계열이 어떤 시점에서의 평균과 분산이 일정하고, 특정한 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 지닌다면, 정상 시계열이라고 한다.
💁🏻‍♀️ 시계열 개요 포스트 참고

강정상성과 약정상성

정상성도 Strongly/Weakly Stationary 강정상성/약정상성으로 나눌 수 있다.

1. 강정상성 (Strong Stationarity)

  • ${Y_{t}, t \geq 1}$ 에 대해서 $\left(Y_{1}, \ldots, Y_{m}\right)$ & $\left(Y_{1+k}, \ldots, Y_{m+k}\right)$ 두 시계열이 동일한 결합확률분포를 가진다.
  • 기대치/평균과 분산이 일정하다. (시간과 독립적이다.)
  • 자기공분산/자기상관계수가 time lag 시간 간격에만 의존한다.

2. 약정상성 (Weak Stationarity)

  • 기대치/평균과 분산이 일정하다. (시간과 독립적이다.)
  • 자기공분산/자기상관계수가 time lag 시간 간격에만 의존한다.
  • 만약 ${Y_{t}, t \geq 1}$ 에 대해서 $\left(Y_{1}, \ldots, Y_{m}\right)$ & $\left(Y_{1+k}, \ldots, Y_{m+k}\right)$ 두 시계열의 결합확률분포가 다변량정규분포를 따르면, 강정상성과 약정상성은 일치한다.

정상성 검정의 필요성

특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화하기 위해서는 정상 시계열이어야 하고, 대부분의 시계열 분석 알고리즘은 시계열이 정상성(약정상성)을 띈다고 가정한다.

따라서, 시계열 분석의 첫 번째 단계는 시계열 정상성 검정(판단) & 정상 시계열로 변환하는 것이다.

정상성 검정 방법

Test for stationarity 시계열의 정상성을 판단하기 위해서는 대표적으로 3가지 방법이 있다.

  1. 시계열 그래프를 통해 패턴(평균회귀, 변동폭 등) 파악
  2. ACF 자기상관함수 그래프 감소 패턴 파악
  3. 단위근 검정 : 시계열의 단위근 포함 여부를 가설 검정

단위근

Unit root = feature of some stochastic processes
단위은 시계열의 비정상성을 야기하는 확률적 프로세스의 feature를 의미한다.

단위근 검정

단위근 검정은 시계열이 "단위근을 포함하는지=비정상 시계열 인지" 판단한다. 단위근 검정에서 귀무가설은 $H_0 = \alpha=1$ 로 설정하는데, 귀무가설의 의미를 이해하기 위해서 필요한 개념인 확률적 과정에 대해서 정리해보자.

확률적 과정 (임의 과정)

단위근 검정 귀무 가설 도출 과정을 이해하기 위해 stochastic or random process 확률적/임의 과정 그리고 정상성과의 관계를 이해해야한다. 백색잡음과정, 확률적보행과정을 간단히 살펴보자.

백색잡음과정

White noise process WNP 백색 잡음 과정 $\epsilon_t$

  1. $E\left(Y_{t}\right)=0$
  2. $\quad \operatorname{var}\left(Y_{t}\right)=\sigma^{2}$ 분산이 일정하다.
  3. $\quad \operatorname{cov}\left(Y_{t}, Y_{t+s}\right)=\operatorname{cov}\left(Y_{t}Y_{t-s}\right)=0$ 모든 시차에서 자기공분산이 0이다.

모든 주파수에서 동일한 진폭을 가지는 신호, 동전던지기와 같이 자기상관이 없는 시퀀스이며, 어떠한 정보나 상관관계를 포함하고 있지 않기 때문에 noise라고 한다. 이러한 특징은 그래프를 통해 확인 할 수 있다.

  • 시계열 그래프
  • 자기상관함수 그래프 : 유의미한 자기상관이 존재하지 않는다.

확률적 보행

Random walk 확률적 보행은 단위근을 갖는 비정상 시계열이다.
$Y_{t}= \alpha Y_{t-1}+ \beta +\epsilon_t, \epsilon_t \sim WNP$ (백색잡음)

대부분의 비정상 경제 시계열은 확률적보행과정 혹은 확률적보행과정에 Deterministic trend 확정적 추세가 혼합된 시계열이다. 확률적 보행 과정은 다음 2가지 유형으로 나눌 수 있다.

  1. Random walk without a drift 상수항 또는 추세 없는 순수 확률적 보행과정
    $\alpha=1, \beta=0$
    $Y_{t}= Y_{t-1} +\epsilon_t$ ⇒ $Y_{t}=Y_{t-n}+$$\sum\epsilon_{t-i}a^i$

  2. Random walk with a drift 상수항 또는 (확률적)추세를 갖는 확률적 보행 과정
    $\alpha= 1 \ \text{or} \ \beta \neq 0$

    • $\alpha = 1, \beta = 0$
      $Y_{t}= \alpha Y_{t-1}+\epsilon_{t}$ ⇒ $Y_{t} = a^nY_{t-n}+$$\sum\epsilon_{t-i}a^i$

    • $\alpha = 1, \beta \neq 0$
      $Y_{t}= \alpha Y_{t-1}+ \beta+\epsilon_{t}$ ⇒ $Y_{t} = n \beta+Y_{t-n}+$$\sum\epsilon_{t-i}a^i$

$\alpha = 1$ 이면, 1,2 Random walk 모두 시간이 지남에 따라 분산이 커진다 ⇒ 즉, 비정상 시계열이 된다.

단위근 검정

Unit root tests 단위근 검정은 시계열의 presence of unit root 단위근 포함 여부에 대한 가설 검정이다.

단위근 검정에는 대표적으로 사용되는 것은 ADF(Aaugmented Dickey-Fuller) 검정으로, AR(1)모형에 대해 제안된 단위근 검정인 Dickey-Fuller(DF) 검정을 ARMA 모형으로 확장한 것이다.

검정 가설 도출 과정

Tendency to return to a constant mean 정상 시계열은 평균으로 돌아가는 경향이 있다. 이는 큰 값 뒤에는 작은 값 (negative changes = 음수의 $\Delta$변화량)이 따르고, 작은 값 뒤에는 더 큰 값(positive changes = 양수의 $\Delta$변화량)이 오는 경향이 있음을 의미한다.

따라서 정상 시계열의 current level은 다음 기간의 변화량에 대해 중요한 예측 변수가 되고, negative coefficient 음의 계수를 가질 것이다. 반면, (정상성을 가지지 않는) 확률적 변수/시계열의 경우 current level에 의존하지 않는 확률로 변화한다.

확률적 보행에서 요약한 내용을 풀어서 설명하면 다음과 같다.

$\alpha=1$ 이면 예측값 = 과거의 값 + 오차항들의 합과 같아지고, 시간이 지남에 따라 분산이 증가해 비정상 시계열이 된다 (정상 시계열의 경우, 모든 $n$에 대해서 $(y_t, .. y_{t-n})$의 분포가 시간과는 무관하다.)

ADF Test (Augmented Dickey-Fuller test)

지금까지 ADF 검정에서 귀무가설이 $\alpha =1$인 이유를 정리했다. 드디어(!) ADF 검정을 정리해보자.

귀무가설 단위근을 포함한다 = 정상시계열이 아니다를 기각하지 못하면, 해당 시계열은 비정상 시계열이다.

  • $H_0$: 시계열은 단위근을 포함한다. = $\alpha = 1$ = nonstationary 정상 시계열이 아니다.
  • $H_1$: 시계열은 단위근을 포함하지 않는다 = Stationary 정상 시계열이다.

ADF 메소드 & 결과


⇒ 유의수준 0.05 보다 p-value가 작으므로 귀무가설 기각reject null hypothesis, 정상 시계열이다.


Source&Reference