시계열 데이터 분석의 기본 개념, 가정, 관련 용어 정의를 정리합니다.
시계열
Time series : A set of values measured sequentially in time, empirical observation of time varying phenomena
시계열은 시간에 따라 순차적으로 측정된 값이다. 보통은 동일한 시간 간격의 측정치 $X_1, X_2,...$ 이다. (but not always) 따라서, 시계열은 ordering
순서가 중요한 관측치로, 시간에 대한 dependency 종속성으로 인해 순서를 변경하면 데이터의 의미가 바뀔 수 있다.
시계열 데이터 유형과 예시
시계열 데이터는 Continuous
연속형 값이거나, Discrete or symbolic (words)
이산형 혹은 기호/단어이다.
- 주가 (dayhour, minute, tick, etc...)
- 기온과 같은 날씨관련 측정치 (day, minutesecond, etc...)
- 환자 수 (week, month, etc...)
- GDP (quarter, year, etc...)
시계열 분석 목적
Time Series Analysis & Forecasting
- 시계열 특성
추세, 계절성
을 요약하고, 시간에 따른 패턴자기상관
을 분석한다. 1
의 결과를 바탕으로 구축한 시계열 모형으로 미래 값을 예측한다.
Fitting Time-series Model (statsmodel)
$x_{t+1}=f\left(x_{t}, x_{t-1}, \cdots\right)$ ⇒ $f\left(x_{t}, x_{t-1}, \cdots\right)$
시간이 변하는 현상에 따른 실증적 관측치를 분석해 (자기자신의) 과거 패턴을 기반으로 미래의 값을 예측한다. 즉, 시계열 분석은 과거의 값과 현재의 값의 관계/모델/함수를 찾는 과정이라 할 수 있다.
시계열 모형을 찾는 과정을 요약하면 다음과 같다.
- Visualize Time Series
- Stationarize Time
- Series Plot of ACF/PACF
- Build ARIMA Model
- Forecast
시계열 성분과 관련 용어
1. 시계열값과 시차
- $x_t$ : $t$시점의 시계열 값
- $x_{t-l}$
Lagged values
: 시차 $l$인 시계열 값
일반적으로 $l$ time-steps 이전의 시계열 값을 의미한다. - $x_{t-7},x_{t},x_{t+7}$ $t$시점의 시계열 값과 시차 7인(이전/이후) 시계열 값을 나타낸 그래프는 다음과 같다.
2. 주기/윈도우
$w$ window
: 시계열 값의 running metrics를 계산할 주기/간격
- Windowing
- window 사이즈 설정 :
sliding window of width 6 on a series of length 11
전체 길이가 11인 시계열이 있고, $w=6$ 으로 지정하면 sliding window 데이터가 오른쪽과 같이 구성된다. - (행 기준) sliding window세트마다 이동평균(running merics)을 계산한다.
- window 사이즈 설정 :
3. 이동평균
Running Values/Metrics
를 사용하는 경우 $w$ window 크기 만큼의 데이터(point)가 줄어든다.
- $\mu_{t}^{w}$
Moving Average
이동평균 지정된 window 내의 평균 값detrend
: 시계열에서 추세를 제거하는 데 사용한다.- 이동평균 그래프
- Other metrics : $\sigma_{t}^{w}$ 분산, 최대값, 최소값
4. 정상성
Stationarity
정상성은 시계열 데이터의 평균, 분산이 일정하고 특정한 추세가 존재하지 않는 성질을 의미한다. 즉, 시계열이 시간$t$과 독립적인(무관) 경우이다.
$x_t$가
stationary
정상시계열인 경우 다음을 3가지 성질을 만족한다.
- 임의의 $t$에 대해 일정한 평균 $E(x_t)=\mu$
- 임의의 $t$에 대해 일정한 분산 $Var(x_t)= \sigma^2_w(1+\theta^2_1)$
- 임의의 $t, h$에 대해 $Cov(X_{t+h}, X_{t} )=γ(h)$ 공분산이 $t$에 의존하지 않고 $h$에만 의존한다. ($γ(h)$: 자기공분산 함수)
⇒ 정상 시계열은 어떤 시점에서의 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 지닌다.
정상 시계열 그래프의 특징
- 정상 시계열은 항상 그 평균값으로 회귀하려는 경향이 있다.
- 평균 값 주변에서의 변동은 대체로 일정한 폭을 가지게 된다.
- 정상 시계열이 아닌 경우, 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화할 수 없다. (↔ 시계열 분석의 기본 가정 -
이전의 값이 현재의 값을 결정한다
)
시계열 모형과 그래프
예시 모형i,ⅱ
의 그래프를 통해서 앞서 언급한 특징들을 확인해보자.
i. $y_t =0.5+0.5 y_{t-1} + e_t, e_t ∼iid N(0,1)$
ⅱ. $y_t =0.5+0.9 y_{t-1}$
정상시계열 (ⅰ-left) & 정상시계열이 아닌 (ⅱ-right) 시계열 그래프는 다음과 같다.
⇒ i-left
정상시계열 그래프의 경우 일정한 평균값으로 회귀하려는 경향이 뚜렷하고 ⅱ-right
보다 주변의 변동이 일정하다.
시계열 모형의 수식 표현 연산자
Notational Conventions
시계열 모형에는 lagged terms
시차항, differenced data
차분된 데이터 등을 포함할 수 있다. 관련 notation을 간단히 정리해보자.
Backshift Operator
- $Bx_t = x_{t-1}$
backshift
후방이동 연산자 B는 시계열 $x_t$ 혹은 오차항 $w_t$ 앞에 쓰인다. 이는 한 시점 뒤로 옮기는 것을 의미한다.move that element back one time
- $B^k x_t = x_{t-k}$
B의 급수$k$는 급수 기간의 수 $k$만큼 뒤로 이동하기 위해 후방이동 연산자를 반복적으로 적용하는 것을 의미한다. - $B\theta_1=\theta_1$
단 후방이동연산자 $B$는 고정된 값인 계수에는 적용되지 않는다.
AR Models and the AR Polynomial
AR 자기회귀 모델은 계수 $\theta$, 후방이동 연산자$B$를 포함하는 AR 다항식으로 표현할 수 있다.
- AR Polynomial 자기회귀다항식
$\Phi(B) = 1-\phi_1B- \dots - \phi_p B^p$
$p$ : AR자기회귀항 최대차수(lag) - AR Model (AR 다항식을 사용해 표현한 AR모델)
$\Phi(B)x_t = \delta + w_t$
MA Models and the MA Polynomial
MA 이동평균 모델도 계수 $\theta$, 후방이동 연산자$B$를 포함하는 MA 다항식으로 표현할 수 있다.
- Polynomial 이동평균 다항식
$\Theta(B) = (1+\theta_1B+\dots +\theta_qB^q)$
$q$ : MA이동평균항 최대차수(lag)- MA(1) : $\Theta(B)=1+\theta_1B$
- MA Model (MA 다항식을 사용해 표현한 MA모델)
MA(q) : $x_t =\mu + (1+\theta_1B+\theta_2B^2+...+\theta_qB^q)w_t$- MA(1) : $x_t = \mu + w_t + \theta_1 w_{t-1} = \mu + (1+\theta_1B)w_t$
- MA(2) : $x_t = \mu + w_t + \theta_1 w_{t-1} + \theta_2 w_{t-2}= \mu + (1+\theta_1B+\theta_2B^2)w_t$
Models with Both AR and MA Terms
AR, MA항 모두 포함하는 모델
- $\Phi(B)(x_t-\mu) = \Theta(B)w_t$
- $(x_t-\mu) = \dfrac{\Theta(B)}{\Phi(B)}w_t$
Reference&Source
data4science| | stationary ts graph
'Statistics > Timeseries' 카테고리의 다른 글
Smoothing and Decomposition 평활법과 분해법 (0) | 2021.10.28 |
---|---|
[Time Series] ACF/PACF 자기상관/부분자기상관함수 (0) | 2021.10.19 |
[Time Series] 정상성 검정/단위근 검정(ADF Test)과 확률적 보행 (1) | 2021.07.10 |