Дамми-переменные – это переменные самого простого типа. Если объясняющая переменная принимает значение 1 или 0, то она называется дамми-переменной, это очень просто. Ну, например, если в данных надо закодировать пол респондента, то можно, например, мужчинам поставить 1, женщинам – 0, и соответственно получить, что вот у нас дамми-переменная male i-тая, она обозначает пол индивида, попавшего в опрос. Это может быть все, что угодно, стало ли, например, предприятие банкротом или не стало. Примеров дамми-переменных можно привести много, но по сути своей дамми-переменная – это всего лишь переменная, которая принимает всего 2 значения: либо 0, либо 1, другие значения исключены. С помощью дамми-переменных очень легко, оказывается, можно описывать разные модели в виде одной модели, расписывать разные модели, соотносящиеся для разных частей выборки. Давайте разберем простой пример, чтобы это понять. К примеру, у нас есть некая базовая модель. Мы смотрим, как зарплата зависит от опыта работы и уровня образования. Зарплата равна β₁ плюс β₂ на опыт работы (exper_i), плюс β_3 на количество лет обучения, плюс случайная непрогнозируемая составляющая. В этой модели пол никак не учитывается, то есть мы предполагаем, что при равном опыте и при равном образовании зарплата определяется вот этой случайной составляющей ε, и то есть в среднем при равном опыте и при равном образовании зарплаты равны. Это у нас будет базовая модель. А теперь что произойдет, если мы рассмотрим немножко другой пример регрессии, куда мы включим в качестве объясняющих переменных переменную male i-тое, которая равна 1 для мужчины, 0 – для женщины, для определенности. Соответственно, что произойдет? Это одно уравнение для всей выборки, но его можно упростить для мужчин, поскольку для мужчин male равно 1, переменная, и для женщин, для женщин переменная male будет равна 0. Соответственно, для мужчин мы получаем, что заработная плата i-того индивида – это (β₁ + β_4), потому что β_4 умножилось на 1, плюс β₂ на exper_i, плюс β_3 на educ_i, плюс случайная составляющая, а для женщин получается другое уравнение, а именно wage_i = β₁ + β₂ exper_i + β_3 educ_i + ε_i. Это означает, что смысл коэффициента β_4 состоит в том, на сколько при одинаковом уровне обучения и стажа работы отличается зарплата у мужчин и женщин. Если β_4 отрицательно, значит при прочих равных зарплата у женщин выше, если β_4 положительно, то при прочих равных зарплата у мужчин выше. То есть, таким образом, что мы получили? С помощью одного уравнения с дамми-переменной мы фактически описали две разных модели, одна из которых относится к подвыборке мужчин нашей выборки и вторая модель относится к подвыборке женщин. В предыдущем примере зависимость, тем не менее, влияния опыта работы на зарплату у мужчин и женщин было одинаковое. С помощью дамми-переменных легко реализовать ситуацию, где мы предполагаем, что опыт работы по-разному влияет на заработную плату у мужчин и заработную плату у женщин. А именно, если в наше уравнение модели, помимо, собственно, переменной male, включить переменную male помножить на experience, то что мы получим? Мы получим, что для мужчин, у них male равно 1, для них уравнение превратится в зарплата wage_i = (β₁ + β_4) + (β₂ + β_5)exper_i + β_3 educ_i + ε_i wage_i = (β₁ + β_4) + (β₂ + β_5)exper_i + β_3 educ_i + ε_i а для женщин аналогичное уравнение будет иметь базовый вид: wage_i = β₁ + β₂ exper_i + β_3 educ_i + ε_i. Соответственно, каков смысл вот этих коэффициентов, β_4 и β_5? β_5 показывает, на сколько год дополнительного опыта работы у мужчин вносит другой вклад, нежели год дополнительной работы у женщин. β_4 показывает, соответственно, свободную составляющую, то есть свободный член, насколько отличается составляющая, коэффициент не при experience и не при education. Таким образом, мы с помощью дамми-переменных можем посмотреть, а правда ли, что стаж у мужчин и женщин по-разному влияет на заработную плату. Для этого, например, достаточно проверить гипотезу о том, что коэффициент β_5 равно 0. Рассмотрим еще один пример, как включить дамми-переменную. Если я поставлю дамми-переменную β_4 male_i + β_5 male_i educ_i + ε_i, то что это означает? Это означает, что для мужчин модель имеет вид wage_i = (β₁ + β_4) + β₂ exper_i + (β_3 + β_5) educ_i + ε_i, а для женщин модель имеет вид wage_i = β₁ + β₂experi + β_3 educ_i + ε_i. Это означает, что β_5 показывает, насколько год, дополнительный год обучения, по-разному влияет у мужчин и женщин. Например, если β_5 меньше 0, это означает, что дополнительный год обучения для женщин больше увеличивает заработную плату, чем для мужчин. Если β_5 положительно, то, соответственно, дополнительный год обучения сильнее увеличивает заработную плату мужчин, нежели заработную плату женщин. И, наконец, можно скомбинировать два предыдущих примера в один, включить еще больше переменных в нашу модель, то есть включить β_3 educ_i + β_4 male_i + β_5 male_i educ_i + β_6 male_i exper_i + ε_i, и тогда мы предполагаем, что модели для мужчин и женщин фактически могут отличаться произвольным образом. Свой свободный коэффициент β₁ у женщин, который у мужчин – β₁ + β_4, свой коэффициент при experience, у женщин это β₂, у мужчин – β₂ + β_6. Соответственно, β6 показывает, насколько по-разному опыт работы влияет, и, наконец, точно также коэффициент при education у женщин – β_3, у мужчин другой – β_3 + β_5. β_5 показывает, насколько отличается. Таким образом, мы видим, что с помощью дамми-переменных мы можем фактически построить по-разному отличающиеся модели для двух частей выборки. Мы можем предположить, что модели на двух частях выборки отличаются только свободными коэффициентами, коэффициентами при какой-нибудь переменной, всеми возможными коэффициентами. Все это можно реализовать легко с помощью дамми-переменных. Бывает так, что какая-нибудь факторная, качественная переменная принимает не два значения, мужчина/ женщина или предприятие банкрот/ не банкрот, а принимает много значений. Например, если вы исследуете что-то во времени, то у вас может быть важен сезон, а сезон может принимать 4 значения: зима, весна, лето и осень. Как это реализовать с помощью циферок? С помощью цифр это реализуется следующим образом. Выбирается один сезон за базовый. Вот сейчас у нас зима, поэтому будем считать, что базовый сезон – это зима. И, соответственно, мы вводим 3 дамми-переменных, каждая дамми-переменная по-прежнему принимает значение 1 или 0. Мы вводим переменную «весна», которая равна 1, если весна соответствует наблюдению, и 0 иначе; переменная «лето», которая принимает значение 1, если это наблюдений летнее, и 0 иначе; и переменная «осень», которая равна 1, если наблюдение осеннее, и 0 иначе. То есть у нас каждая переменная, мы каждому наблюдению сопоставим 3 новых переменных: весна, лето и осень. Если наблюдение зимнее, то все 3 переменные новые будут равны нулю, если переменная, если, вернее, наблюдение осеннее, то весна равна 1, остальные две дамми-переменные – 0. Ну, например, если летнее наблюдение, то летнее дамми – 1, остальные дамми-переменные две по нулям, ну, и, соответственно, для осени то же самое. Если наблюдение осеннее, то дамми-переменная осень равна 1, а остальные две дамми-переменные равны нулю. При таком способе введения дамми-переменных можно понять, что означает каждый коэффициент, и это легко сделать на примере. К примеру, исследователь интересуется объемом спроса на мороженое в зависимости от цены средней в киоске и сезона, в котором, значит, к которому относится наблюдение. Ну вот, в такой простой модели величина спроса на мороженое равна β₁ + β₂ price_i + β_3 vesna_i + β_4 leto_i + β_5 osen_i + ε_i. Соответственно, если наблюдение относится к зиме, то модель для этой части выборки, для зимних наблюдений превращается в совсем простую: icecream_i = β₁ + β₂ price_i + ε_i. Для весны соответствующее уравнение упрощается до (β₁ + β_3) + β₂ price_i + ε_i. Соответственно, в чем смысл коэффициента β_3? β_3 показывает разницу в спросе на мороженое между весной и зимой. Мы, наверное, ожидаем, что β_3 будет больше 0, и, соответственно, хотя вдруг, каким-то странным образом может оказаться меньше, но тем не менее, мы ожидаем, что β_3 будет больше, и, соответственно, по смыслу β_3 – это насколько спрос на мороженое весной больше, чем спрос на мороженое зимой при той же самой цене, при фиксированной переменной price. Аналогично для лета уравнение упростится до icecream_i = (β₁ + β_4) + β₂ price_i + ε_i. Соответственно, β_4 показывает, насколько лето отличается от зимы. И аналогично для осени, β_5 будет показывать, насколько осень отличается от зимы, то есть коэффициенты β_3, β_4, β_5 сравнивают соответствующий сезон с базовым, который мы выбрали для сравнения. Очень частая ошибка, которая бывает, есть у новичков, которую хотелось бы избежать, это то, что включают дамми-переменные на все значения факторной переменной и константу в регрессию. То есть включают и дамми-переменную на весну, и на зиму, и на лето, и на осень или включают дамми-переменную и male, и female, то есть включают и переменную, которая равна 1 для мужчин, а для женщин – 0, и включают переменную female, которая равна 1 для женщин и 0 для мужчин. Это ошибка! Надо включить либо ту, либо другую. Неважно какую, уравнение для отдельных подвыборок получится совершенно одинаковым, неважно, какую вы включите, но если вы включите обе, то у вас возникнет жесткая линейная зависимость между регрессорами, а именно переменная male + переменная female всегда будет равняться единичке. И, соответственно, невозможно будет получить однозначные оценки метода наименьших квадратов в этом случае. Это связано с тем, что нарушена наша восьмая предпосылка. Мы говорили, что с вероятностью 1 среди регрессоров нет линейно зависимых. Если включить дамми-переменных слишком много на каждое возможное значение факторной переменной, то эта предпосылка о независимости регрессоров будет нарушена. Вот у нас male + female = 1, это зависимость между регрессорами. Tак делать нельзя, просто мы включаем дамми-переменных на одну меньше, чем значений потенциальной факторной переменной. Если сезонов 4, то дамми-переменных мы включим 3.