[МУЗЫКА] [МУЗЫКА] [ШУМ] Здравствуйте! В прошлой лекции мы поговорили в целом про то, что же такое регрессия, поговорили про типы данных, с которыми работает данный тип анализа, о том, какой должен быть отклик, какого типа должны быть факторы и как их правильно перекодировать. И сегодня мы уже поговорим про то, а как же находить оценки параметров линейной регрессии. Ну и для начала давайте все-таки вспомним, как у нас выглядят данные. В самом простом случае, когда мы работаем с однофакторной моделью, то есть у нас всего один фактор и отклик — данные у нас представляют следующий набор: у нас есть n пар наблюдений, состоящих из отклика, и значения фактора. И по ним мы строим линейную регрессию следующего вида, то есть у нас есть всего два параметра: это свободный параметр θ0 и параметр при нашем факторе θ1. Понятно, что данная модель представляет собой просто прямую. Вообще, в целом линейная регрессия — это достаточно простой метод анализа, он очень прост в вычислениях и очень интуитивно понятен. И, как мы видим, в нашу модель мы вносим еще одну составляющую — это ε, это ошибки наблюдений. То есть мы всегда предполагаем, что наши данные неточно в любом случае описываются той моделью, которую мы подбираем. И поэтому мы всегда закладываем в нашу модель некоторую ошибку наблюдения ε, и относительно этих ошибок мы будем делать очень важные предположения, о которых поговорим чуть позже. Но стоит сказать, что мы предполагаем, что данные ошибки наблюдений представляют собой случайные величины. На самом деле, однофакторная или парная регрессия очень редко встречаются на практике, обычно мы работаем с некоторым набором фактором, их бывает очень много. И в таком случае наши данные выглядят следующим образом. То есть у нас уже не пара наблюдений, у нас выборка имеет следующий вид, то есть у нас есть у каждого наблюдения отклик y и набор факторов x1, xm. И в таком случае наша регрессионная модель, она принимает следующий вид, но, по сути, это все та же самая линейная комбинация. И мы видим, что параметров у нас стало гораздо больше. И также в модели у нас присутствуют ошибки наблюдения. И перед тем как будем говорить о том, как же находить оценки этих параметров, поговорим о предположениях, которые мы делаем относительно ошибок наблюдений. Как я уже сказала, мы предполагаем, что ошибки наблюдения у нас представляют собой случайные величины. И мы предполагаем, что, во-первых, матожидание от данных случайных величин у нас равно 0. И также данные случайные величины имеют некоторую одинаковую и конечную дисперсию. Кроме того, мы предполагаем, что данные случайные величины не зависимы между собой. То есть совместное матожидание данных случайных величин у нас равно всегда 0. И очень важное предположение, которое мы делаем — это то, что данные ошибки у нас являются нормальными распределенными с параметром сдвига 0. Почему стоит поговорить об этих предположениях? Потому что в дальнейшем мы будем их проверять и с помощью проверки этих предположений будем проверять качество той модели, которую мы в итоге получаем по имеющимся у нас данным. А теперь поговорим про нахождение оценок наших параметров. Для линейной регрессии параметры обычно находят с помощью метода наименьших квадратов. На чем же основан данный метод? Данный метод основан на том, что мы берем некоторую функцию, которая представляет у нас собой сумму квадратов отклонений истинного значения нашего отклика от того отклика, который мы получаем по прогнозной модели. И мы в качестве значений параметров берем те параметры, в которых данная функция достигает своего минимума. Давайте рассмотрим на небольшом примере. Мы сгенерировали небольшой тестовый набор данных. Данные выглядят следующим образом: x у нас принимает значения от 0 до 20, регрессия описывается вот такой моделью, то есть 3, умноженное на x. И мы добавили в эту модель немного шума в виде наших ошибок наблюдений, которые у нас распределены нормально с параметрами (0, 3). Данные у нас выглядят следующим образом. Собственно, истинное значение параметра мы знаем — это 3. Как теперь найти оценку данного параметра по методу наименьших квадратов? Будем перебирать значения параметра, мы перебирали его в диапазоне от 0 до 10 с шагом 0, 1. И в каждой точке будем считать сумму квадратов отклонений истинного значения отклика от того прогнозного отклика, который получается по модели с текущим значением параметра. И мы видим, что данная функция, то есть сумма квадратов отклонений у нас имеет следующий вид, в зависимости от значения параметра. И мы видим, что где-то около 3, то есть около истинного значения параметра у нас наша функция имеет минимум. Так как данные у нас содержат ошибку, то мы получили в качестве оценки по методу наименьших квадратов не точное значение 3, а значение 2.94. В принципе, если мы построим регрессионную прямую на наших данных, мы видим, что она достаточно хорошо и близко описывает истинную зависимость. Собственно, в этом и состоит суть метода наименьших квадратов. Как теперь вычислить оценки? Для простой парной регрессии оценки представляют собой просто две формулы, для свободного параметра θ0 они выглядят следующим образом, и для параметра при факторе θ1 они имеют следующий вид. Когда же мы работаем со множественной регрессией, то есть когда у нас не вектор отклика и вектор фактора, а когда у нас вектор отклика и фактор у нас имеет уже матричный вид. В таком случае оценки по методу наименьших квадратов выглядят следующим образом, где y — это как раз наш вектор отклика, x — это наша матрица факторов, и θ — это наш вектор неизвестных параметров. И давайте вернемся к примеру, который мы рассматривали на предыдущих лекциях, когда мы пытаемся спрогнозировать, посроить линейную регрессию количества переходов на сайт фирмы в зависимости от таких параметров, как количество кликов, количество звонков, дня недели и наличия социальных сетей. И для всех этих факторов мы строим, естественно, множественную регрессию, получаем оценки по методу наименьших квадратов, и они у нас имеют следующий вид. То есть мы можем выписать уравнение регрессии, и оно будет выглядеть следующим образом. И в следующий раз мы поговорим про оценку качества модели. Вот мы оценили параметры, нашли оценки, получили вид регрессионного уравнения. Но как теперь сказать, хорошая у нас получилась регрессия или плохая? Хорошо или плохо она описывает наши данные. Именно про это мы поговорим с вами в следующий раз.