0:00
[МУЗЫКА] [МУЗЫКА]
[МУЗЫКА] Для более
подробного анализа регрессионной модели, нам нужно провести анализ остатков.
Давайте вернемся к первой регрессионной модели,
которую мы построили для случая парной регрессии, и посмотрим,
что представляют собой остатки этой модели.
В идеале, остатки или ошибки должны подчиняться нормальному закону,
быть несмещенными, некоррелированными и гомоскедастичными, то есть равноточными.
Иметь одинаковую постоянную дисперсию для всех имеющихся наблюдений.
Построим гистограмму, посмотрим что она собой представляет.
Гистограмма выведена на графике.
В принципе, она не слишком сильно отличается от нормального распределения,
но конечно, по одному графику сделать вывод об этом нельзя.
Давайте также построим вероятностный график,
давайте также построим квантильный график для остатков.
Данный график представляет собой связь
теоретических квантилей с выборочными квантилями.
В идеале, если выборка подчиняется нормальному распределению,
эти точки должны располагаться на прямой.
В нашем случае видно,
что есть некоторые отклонения от этой прямой, причем они довольно существенные.
Соответственно, возможно,
что наше наблюдение все-таки не подчиняется нормальному распределению.
Давайте применим критерий Шапиро-Уилка для проверки гипотезы о
нормальности распределения остатков.
Как мы видим по значению p-value, которое существенно меньше уровня
значимости 0,05, гипотезу о нормальности остатков мы должны отклонить.
Проведем аналогичный анализ для второй модели.
Строим гистограмму.
Строим квантильный график.
И по критерию Шапиро-Уилка проверяем гипотезу о нормальности.
Для второй модели нормальность также отклоняется.
То есть эта модель все-таки не идеальная.
Давайте проверим, в чем проблема.
Рассмотрим, например, первую модель.
Это была модель парной регрессии зависимости цены от метража.
Если мы внимательно посмотрим на график, мы можем наблюдать следующий эффект: при
малых значениях метража, у нас достаточно малый разброс вокруг линии регрессии,
а при бо́льших значениях метража — разброс начинает увеличиваться.
Это говорит о том, что у нас имеется эффект гетероскедастичности,
то есть непостоянства дисперсии.
В данном случае с учетом метража дисперсия увеличивается.
Это достаточно типичная ситуация,
но она нарушает условия Гаусса – Маркова, необходимые для применения метода
наименьших квадратов при построении регрессионных моделей.
Соответственно, нам нужно строго установить факт
гетероскедастичности и после этого устранить ее.
Для анализа гетероскедастичности в нашей
модели используем тест Голдфелда – Квандта.
Идея его заключается в том, что предполагается,
что дисперсия наблюдений изменяется пропорционально значениям фактора.
То есть при малых значениях фактора у нас значение дисперсии меньше,
а с увеличением значения фактора дисперсия начинает расти.
Алгоритм проверки следующий: для начала мы должны упорядочить
все имеющиеся наблюдения в порядке возрастания значений выбранного фактора.
Если модель парная, то фактор у нас только один, если же модель множественная, то
предполагается, что дисперсия изменяется в соответствии с каким-то одним из факторов.
Именно по этому фактору и нужно упорядочить наши данные.
Далее, выборку необходимо разбить на три группы.
Как правило, берутся k первых наблюдений,
k последних наблюдений, при этом рекомендуется, чтобы в эти группы
входило чуть больше одной трети всех наблюдений от общего объема выборки n.
Далее, для каждой части строится своя регрессионная модель.
То есть отдельно строится линия регрессии для первой группы наблюдений,
и отдельно строится линия регрессии для третьей группы наблюдений.
И по каждой модели оцениваются суммы квадратов отклонений, или ошибок,
которые обозначаются, соответственно S₁ — для первой, S₃ — для последней группы.
Анализ проводится на основании статистики Фишера,
которая представляет собой отношение бо́льшей дисперсии к меньшей.
То есть, если наше высказываемое предположение о том,
что дисперсия растет с увеличением роста фактора, предполагается,
что третья дисперсия должна быть больше, чем первая.
Находим отношение этих сумм квадратов.
Данная статистика имеет распределение Фишера с числом степеней свободы f₁
равным числу степеней свободы f₂, и, соответственно, равно k − p − 1,
где k — это количество наблюдений в каждой группе, а p — число факторов в модели.
Для парной модели, естественно, p будет равно 1.
Далее, по таблице мы находим критическое значение распределения,
соответствующее выбранному уровню значимости α, и если полученное
значение статистики меньше критического,
то нулевая гипотеза о гомоскедастичности принимается,
если же значение статистики оказывается больше, или равным критическому уровню,
выносится решение о наличии гетероскедастичности в модели.
Проанализируем наши данные с помощью теста Голдфелда – Квандта в пакете R.
Для того чтобы воспользоваться встроенной функцией Голдфелда – Квандта тест,
мы должны установить пакет «Тесты линейных моделей», lmtest.
Устанавливаем пакет.
Распаковываем его.
И создадим новый набор данных,
отсортированный по значениям нашего количественного фактора.
В данном случае, в качестве фактора мы выбираем метраж.
Получаем новую таблицу данных.
Вот что она собой представляет.
Это та же самая таблица,
только теперь у нас значения площади идут в порядке возрастания.
Тест Голдфелда – Квандта реализуется с помощью функции gqtest.
Создадим новый объект, содержащий информацию с результатами этого теста.
Сначала будем анализировать парную модель, где у нас цена зависит только от метража.
То есть в нашей формуле мы указываем зависимую переменную «цена»,
фактор — «площадь», данные берем из новой отсортированной таблицы.
Посмотрим, что у нас получилось.
Проверяемая гипотеза о том, что дисперсия постоянна,
при этом, значение статистики Голдфелда – Квандта у нас равно 6,7.
Далее следует число степеней свободы.
Обратите внимание, в данном случае пропорция была выбрана таким образом,
что в первую и вторую группу попали немного отличные количества наблюдений,
то есть в первой группе у нас было 24 наблюдения,
во второй группе у нас было 23 наблюдения.
При этом −1 — это один фактор,
и еще −1 — величина в формуле вычисления числа степеней свободы.
Значение p-value у нас получается меньше,
заданного уровня значимости 0,05, соответственно,
гипотеза о гомоскедастичности, или равноточности дисперсий отклоняется.
Выносится решение, что наблюдения в парной модели гетероскедастичны.
Проведем аналогичный анализ для множественной модели, которая была
построена, когда на цену у нас влияло три фактора: площадь, этаж и наличие мебели.
Задаем это в формуле, данные берем из той же отсортированной таблицы.
И как видим, вывод здесь получается аналогичный.
Число степеней свободы у нас сократилось, потому что величина p стала больше.
В первом случае у нас p было равно 1, теперь p = 3, это три фактора в модели,
но тем не менее, мы делаем тот же самый вывод: величина p-value существенно
меньше уровня значимости, мы отклоняем гипотезу о гомоскедастичности,
и выносим решение о том, что наблюдения гетероскедастичны.
То есть, также по множественной модели имеется эффект неравноточности дисперсии.
В этом случае применение метода наименьших квадратов к данной модели не очень
корректно.
Нам нужно использовать обобщенный метод наименьших квадратов,
и для этого мы поступаем следующим образом.
Поскольку у нас было вынесено решение о том,
что дисперсия изменяется пропорционально значениям фактора,
нам всю модель нужно на значения этого фактора разделить.
Рассмотрим это на примере парной модели.
Если у нас на зависимую переменную y влияет один фактор,
при этом тип связи линейный, то есть модель a + bx + шум.
При этом вынесено решение о том, что дисперсия шума изменяется
пропорционально значениям фактора, а именно квадрату значений xi.
В этом случае дисперсия может быть записана вот таким образом,
где новый шум ε уже равноточный, или гомоскедастичный.
То есть дисперсия εi постоянна для всех значений i и равна некоторой величине σ².
В этом случае модель может быть переписана вот таким образом.
Если мы теперь разделим левую и правую части данного уравнения на xi,
мы получим слева новую преобразованную зависимую переменную, которая
представляет собой отношение значений y к соответствующим значениям переменной x.
Дальше, при параметре a у нас появится фактор x в −1-й степени, или 1 / x.
А b начинает играть в новой модели роль свободного члена.
При этом шум εi, который у нас появился в данной модели, является гомоскедастичным,
соответственно, данная модель удовлетворяет условиям Гаусса — Маркова,
и мы можем применять к ней метод наименьших квадратов.
В данном случае, функция,
которую мы будем минимизировать и по которой мы будем
получать значения параметров a и b, выглядит вот таким вот образом.
То есть в отличие от обычного метода наименьших квадратов у нас появился
вот такой сомножитель.
Выполним соответствующее преобразование в пакете R.
Разделим все наши наблюдения на значения фактора,
пропорционально которому изменяется дисперсия, то есть на значение метража.
Введем новую зависимую переменную y,
равную значению цены, деленную на значение метража.
Далее вводим новые факторы, как старый фактор в −1-й степени.
Объединим их в новую таблицу, посмотрим, что она собой представляет.
Вот это новые значения зависимой переменной и новые значения фактора.
И к этой таблице применим функцию построения линейной модели регрессии,
выбирая формулу зависимости y от x из только что построенной таблицы xy.
Посмотрим результаты регрессионного анализа.
Как мы видим, у нас получилось две оценки.
Оценка свободного члена и оценка параметра, стоящего перед фактором.
Обратите внимание, что представляют собой эти значения.
Вернемся к презентации.
Сейчас в качестве свободного члена мы получили оценку
интересующего нас параметра b, то есть в исходной модели он стоял перед
значениями факторов, а то, что мы получили в качестве параметра,
стоящего перед фактором, это будет оценка свободного члена.
То есть они как бы поменялись местами.
При этом оба эти параметра высоко значимы.
Общая адекватность модели у нас достаточно высока, если
мы сравним это с предыдущими результатами, полученными для парной модели,
можно видеть, что коэффициент детерминации у нас увеличился.
Без корректировки гетероскедостичности значение детерминации у нас было 0,61,
а с корректировкой гетероскдостичности наше значение получилось 0,75.
Давайте теперь проведем анализ остатков новой построенной модели.
Для остатков построим гистограмму.
Она у нас появилась на графике.
Построим квантильный график.
И по критерию Шапиро — Уилка проверим остатки на нормальность.
Как видите, значение p-value теперь больше,
чем 0,05, то есть гипотеза о нормальности остатков принимается.
Данная модель получилась более корректной.
[МУЗЫКА]
[МУЗЫКА]