0:13
Одним их возможных решений проблемы
эндогенности является использование так называемых инструментальных переменных.
Итак, мы хотим оценить состоятельно коэффициент β2 в модели,
представленной в следующей форме: yi = β1 + β2xi + β3di + εi.
И у нас нарушена одна из предпосылок, а именно: есть эндогенность,
то есть есть ковариация ну, скажем, между xi и ошибкой εi.
Соответственно, один из возможных выходов состоит в нахождении
специальной новой так называемой «инструментальной» переменной zi.
Это новая «инструментальная» переменная zi,
— она должна обладать двумя принципиальными свойствами: во-первых,
она не должна быть коррелирована с ошибкой εi и, во-вторых,
она должна быть связана, то есть коррелирвана с проблемным регрессором,
который связан с ошибкой, то есть Cov(zi, xi),
наоборот, нулю равняться не должна.
Соответственно, как использовать эти самые инструментальные переменные?
Их использование не просто подмена и регрессия y
на z и d вместо регрессии y на x и d, — использование чуть-чуть сложнее.
Итак, у нас есть модель: yi = β1 + β2xi + β3di
+ случайная ошибка εi, и эта случайная ошибка коррелирована с x.
Соответственно, мы построим не одну регрессию,
мы построим две вспомогательных регрессии.
Метод называется: двухшаговый метод наименьших квадратов,
или метод инструментальных переменных.
На первом шаге мы построим регрессию проблемного регрессора,
— в нашем случае x, — на инструментальную переменную,
то есть мы построим регрессию xi на zi.
И из этой регрессии мы получим спрогнозированные значения x,
— xi с крышечкой.
Это обычные прогнозы, полученные обычным методом наименьших квадратов.
И на втором шаге мы оценим ещё одну модель,
а именно: мы оценим исходную модель, в которой вместо регрессора xi мы будем
использовать прогнозы из регрессии предыдущего шага, то есть xi с крышечкой.
То есть в данном конкретном примере мы построим регрессию yi
= β1 + β2xi с крышечкой + β3di (если di не был проблемным регрессором,
не был коррелирован с εi, то ничего с ним менять не надо) плюс,
соответственно, новая ошибка ui.
И мы тут получим новые оценки коэффициентов.
Естественно, эти оценки коэффициентов, — они, поскольку получены двухшаговым
методом, — они не совпадают просто с оценками метода наименьших квадратов,
и эти новые оценки называются оценками инструментальных переменных,
то есть мы получим новые β1 с крышечкой, β2 с крышечкой, β3 с крышечкой.
Соответственно, мы используем слова «метод инструментальных
переменных» или «двухшаговый метод наименьших квадратов» как синонимы,
и оценки иногда называют β с крышкой 2OLS, ordinary least squares,
либо их называют β с крышкой instrumental variables, то есть метод,
оценки метода инструментальных переменных: это для нас абсолютные синонимы.
Давайте на примере посмотрим,
что произойдёт в случае применения оценок метода инструментальных переменных,
или оценок метода двухшагового наименьших квадратов,
к задаче парной регрессии, а именно: оказывается, что в этом случае,
если у нас модель имеет вид yi = β1 + β2xi + εi,
то метод наименьших квадратов, его формулу мы помним, — это β2 с крышкой равняется
выборочная ковариация между x и y делить на выборочную дисперсию x.
А можно доказать, что оценки метода инструментальных переменных
в этом простом случае будут иметь довольно простой вид, а именно: β2 с крышкой,
полученное методом инструментальных переменных, равняется выборочная
ковариация между z и y делить на выборочную ковариацию между z и x.
Давайте на простом примере посмотрим,
как оценки метода инструментальных переменных спасут ситуацию,
то есть дадут состоятельные оценки в случае пропущенного регрессора.
Посмотрим, как наличие инструментальной переменной может помочь исправить проблему
пропущенного регрессора.
Итак, я хочу оценить модель в форме β1
+ β2xi + β3di + εi,
но di — регрессор не наблюдается,
у нас нет данных по di.
Соответственно, я могу представить эту модель в эквивалентной форме,
объявив вот эту составляющую новой ошибкой и сказав,
что yi = β1 + β2xi + ui.
И мы предположим какие-нибудь
конкретные значения дисперсий и ковариаций, то есть мы предполагаем,
что Var(xi) = Var(di)
= 9; Var(εi) = 1;
Cov(xi, di) = ‒ 6.
И мы предполагаем, что в исходной форме эндогенности не было,
то есть xi и di не были коррелированы с ε.
То есть мы предполагаем, что Cov(εi,
di) = 0 и Cov(εi,
xi) = 0.
Как мы видели, если я буду просто
использовать оценки метода наименьших квадратов в этой модели,
то мы получим несостоятельные оценки и смещённые оценки.
Давайте посмотрим, что произойдёт,
если мы будем использовать оценки метода инструментальных переменных.
Предположим, что нам нашлось каким-то чудесным образом найти zi,
инструментальную переменную,
при этом эта самая zi как инструментальная переменная
коррелирована с xi, и пусть эта корреляция равна 1.
Однако эта инструментальная переменная zi некоррелирована с ошибкой,
то есть с ui, — эта корреляция равна 0.
Ну давайте посмотрим.
β2 с крышкой метода инструментальных переменных
выглядит как выборочная ковариация между z и
y делить на выборочную
ковариацию между z и x.
В силу уже применявшегося закона больших чисел,
закон больших чисел утверждает,
что это стремится к ковариации zi и yi делить
на ковариацию между инструментальной переменной и xi.
Подставим yi и получим, что это есть ковариация
между zi и β1 + β2xi
+ β3di + εi
делить на ковариацию
zi и xi.
И смотрим: наша инструментальная переменная zi
некоррелирована c ui, по условию.
Вот это есть не что иное, как ui.
И константа β1 тоже никак не влияет на ковариацию.
У нас в числителе, таким образом, остаётся
β2 помножить на ковариацию zi с xi
и в знаменателе у нас находится ковариация zi с xi.
И мы видим, что, собственно, вне зависимости от этих показателей,
чему равнялась дисперсия, чему равнялась конкретно дисперсия ε,
какая конкретно была ковариация, главное, чтобы она не была нулевая,
мы получим, что результат в пределе равен β2.
То есть с введением и использованием инструментальной переменной
мы получили способ
состоятельно оценить неизвестный коэффициент β2.