[МУЗЫКА] [МУЗЫКА] Необходимость сравнения моделей возникает каждый раз, когда у нас возникает в модели несколько предикторов. Казалось бы, когда мы описали зависимость в виде уравнения, она вся уже у нас в руках, но, на самом деле, доступный нам набор предикторов может оказаться неоптимальным. При помощи сравнения моделей мы можем подобрать минимальный набор предикторов, который описывает зависимость, и заодно у нас появится инструмент для тестирования значимости предикторов. Давайте вспомним пример из прошлого модуля. Мы с вами смотрели, как зависит концентрация простатспецифичного антигена от клинических параметров опухоли. Простатспецифичный антиген — это такой белок, который выделяется клетками простаты, и если возникает опухоль, то этого белка становится больше. Это был бы отличный маркер, который позволял бы диагностировать рак на ранних стадиях, если бы его концентрация в крови зависела от клинических параметров. Давайте это проверим при помощи модели. Модель, которую мы подобрали в прошлый раз, содержит пять предикторов: это объем опухоли, ее вес, возраст пациента, степень доброкачественной гиперплазии, которая наблюдается на препаратах, и доля оценок 4 и 5 по шкале Глисона. Шкала Глисона — это такая шкала, по которой лаборант оценивает степень изменения на гистологических препаратах опухоли. Модель, которую мы подобрали, может оказаться неоптимальной. Не все из этих предикторов влияют, если вы помните результаты. Может быть, эту модель можно упростить. На самом деле, модель — это конструктор: мы можем убавлять из модели предикторы, добавлять туда новые и получать немножко видоизмененный набор предикторов модели. Известному статистику Джорджу Боксу приписывают такую фразу: «Essentially, all models are wrong, but some are useful» (На самом деле, все модели неправильные, но некоторые из них могут быть полезны). И вот полезность эту мы можем измерить разными способами. В некоторых случаях нам нужен минимальный набор предикторов, максимально компактная модель, которая может объяснить зависимость. В других ситуациях нам нужно проверить какой-то набор гипотез. Мы, например, предполагаем, что есть несколько вариантов наборов предикторов, которые способны объяснить эту зависимость, и нам нужно выбрать лучший из них. А иногда бывает такая ситуация, когда мы хотим в будущем использовать модель для предсказаний на новых данных, и тогда нам нужно, во-первых, чтобы эта модель не оказалась переобученной, чтобы она была максимально простой, а во-вторых, нам нужно видоизменить весь алгоритм наших действий при подборе модели, потому что мы должны оценивать качество ее предсказаний, используя новые независимые данные. Сравнение моделей позволяет нам тестировать значимость практически любого набора предикторов. Если мы сравним две модели, которые отличаются только на один предиктор, мы сможем оценить, какой вклад вносит этот предиктор в объяснение общей изменчивости, и оценить эту выгоду при помощи частного F-критерия. На самом деле, если мы добавляем в модель предикторы, то каждый следующий объясняет все больше из той изменчивости, которая раньше была остаточной, и чем сложнее становится наша модель, чем больше мы добавили предикторов, тем меньше остается необъясненной изменчивости. Казалось бы, это хорошо. То есть чем сложнее модель, тем лучше она описывает данные. Но это касается только того набора данных, на котором она подобрана. Если такая модель сталкивается с новым набором данных, она может делать неправильные предсказания, потому что эти предикторы, лишние как бы в модели, они начинают описывать случайный шум. Чтобы этой ситуации избежать, чтобы избежать переобучения, иногда имеет смысл подобрать более простую модель. Это называется model selection. Один из способов, который используется при отборе моделей, который используется для сравнения моделей, это частный F-критерий. В этом модуле мы с вами поговорим о двух его применениях. Сначала мы посмотрим, как частный F-критерий можно использовать для тестирования значимости отдельных предикторов при помощи сравнения моделей, а потом разберемся, как он работает, когда мы хотим модель упростить.