Sample selection모형은 selection모형 또는 self-selection모형이라고 부르기도 하는데 sample에 어떤 selection을 한 경우만 포함되어 있다는 의미입니다. 이런 selection을 고려하지 않으면 biased된 결과를 가져오게 됩니다. selection모형의 대표적인 예(example)로 Heckman selection모형이 있는데, 예를들어 교육수준과 income과의 관계를 파악할 때 단순히 회귀분석을 하게 되면 어떤 특정한 상황에 있는 individual이 교육을 적게 받거나 또는 많이 받게 된다는 것을 고려하지 않는 것입니다.
따라서, 이를 고려해야 하는데 Heckman selection모형은 단계를 1단계와 2단계로 나누어 모형추정을 하는 방법입니다. 우선, 1단계에서 Binary probit모형으로 selection을 고려하고 2단계에서는 회귀분석을 합니다. 이 때 2단계에서 회귀분석을 할 때는 소위 IMR(Invers Mill's Ratio)이라는 오류보정항(error correction term)을 포함하는데 1단계에서 response가 1인 경우에 대해 모형화하는 경우에는 2단계 회귀분석에서 pdf(z) / cdf(z)를 IMR로 사용해 통제변수(control variable)로 모형에 포함시킵니다.
이는 전통적인 Heckman selection모형인데 1단계와 2단계를 구분해서 추정하면 특히 2단계에서 efficiency가 좋지 않은 경향이 있습니다. 즉, 2단계 파라미터의 표준오차가 1단계와 2단계를 한꺼번에 FIML(Full Information Maximum Likelihood)추정을 하는 경우보다 표준오차가 큰 경향이 있는데 표준오차는 소위 정확도와 관련되어 있습니다. 1단계와 2단계를 two-stage로 추정하는 경우와 FIML추정을 하는 경우의 beta에도 약간의 차이가 발생할 수 있습니다.
헤크만의 2단계 추정법은 종속변수가 질적변수일 때 활용하는 probit 모형등을 모형 추정에 이용한다고 해서 Heckit모형이라고 부르기도 합니다. 종속변수가 양적변수이지만 일정 구간에서는 관측이 불가능한 경우 즉, 자료가 censored 또는 truncated된 경우에는 Tobit모형을 이용하는데, Tobit이란 이 모형을 처음 개발한 Tobin의 이름과 probit모형을 조합해서 만는 것이지요 (Tobin's Probit).
No comments