[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Мы с вами очень подробно разбирали в лекциях, как работать с таблицами сопряженности. Теперь нам осталось только посмотреть, как задавать все это в SPSS. Для удобства и для скорости давайте посмотрим это на тех же данных и на тех же переменных, о которых мы говорили в лекции. Мы в принципе с вами говорили об исследовании взаимосвязей для метрических и неметрических шкал. Таблицы сопряженности — это инструмент исследования взаимосвязей между неметрическими шкалами. Возьмем массив данных RLMS, возьмем те самые наши данные по удовлетворенности жизнью и лестницам по богатству и по престижу, и посмотрим, как задавать то, что мы с вами видели в лекции. Таблица сопряженности находится в меню «Анализ», «Описательные статистики», собственно «Таблица сопряженности». Что мы здесь видим? Здесь мы видим, что у нас есть возможность задать строки, столбцы, как по строкам, так и по столбцам может задаваться несколько переменных, в таком случае будет строиться просто несколько таблиц. Мы с вами исследовали взаимосвязь между удовлетворенностью жизнью, насколько вы удовлетворены своей жизнью в целом, и лестницами по богатству и престижу. Лестницы у нас были уже сгруппированы. Если вам интересно, как группировать переменные, то добро пожаловать на форум, расскажу и покажу. Сейчас скажу только, что при помощи ранжирования наблюдений мы создали равнонаполненные группы, приблизительно равнонаполненные, которые разделяют девятибалльную переменную, укрупняют внутри группы, что у нас есть низкая, средняя и высокая самооценка по шкалам богатства и по шкалам престижа. Задаем в столбцы самооценка по богатству и самооценка по престижу. Теперь начинаем задавать характеристики таблиц. Во-первых, вкладка «Статистики». Здесь мы можем задавать статистики, то есть коэффициенты значимости статистических взаимосвязей по таблице в целом. Если мы посмотрим на то, как выглядит меню, то мы увидим, что у нас есть вот здесь два раздела. Тот раздел, которые слева, это раздел для номинальных переменных, для неупорядоченных переменных. Здесь у нас хи-квадрат — это основной критерий, которому большое спасибо, но у которого есть одно большое ограничение, что он может говорить нам о наличии связи, но не может говорить о силе. Если у нас есть необходимость сравнивать силу связи, то мы ставим птицу на коэффициенте В. Крамера, который нам уже это исследовать позволяет. С правой стороны в секции мы видим, что у нас есть коэффициенты для порядковых переменных, здесь есть корреляции, коэффициент корреляции Спирмена, который мы обсуждали, есть возможность задать тау-b и тау-c Кэндалла и несколько других коэффициентов. Давайте мы попросим корреляции, чтобы увидеть то, что мы обсуждали в лекции, и продолжить. Важная кнопка — это кнопка «Ячейки». Здесь мы задаем то, что у нас будет видно в клетках таблицы. Мы помним, что если оставить в них только наблюдаемые значения, а это то, что по умолчанию в них остается, то мы ничего и не поймем. Нам лучше задавать какие-то относительные величины. Мы задавали проценты по строке. То есть если у нас самооценку по богатству будем рассматривать, то мы будем видеть, какой процент людей, оценивающих себя низко, средне и высоко по богатству, находится в каждой категории удовлетворенности жизнью. Задаем проценты по строке и продолжаем. Также мы можем вывести кластеризованные диаграммы столбчатые, которые дадут нам графическую иллюстрацию совместного распределения признаков. Давайте посмотрим, что у нас получится в выдаче. Задали статистики, задали ячейки, запускаем. Вот у нас так выглядит таблица сопряженности. По строчкам у нас категория удовлетворенности жизнью, по столбцам — самооценка по богатству, низкая, средняя, высокая. Эти цифры нам уже знакомы, и вот мы их получили. Проценты: допустим, «полностью удовлетворены» берутся за 100 %. Среди тех, кто полностью удовлетворен, больше 50 %, то есть 57,6 %, если точнее, относят себя к высокой категории по богатству. И снизу, ну мы помним эти пропорции, почти 80 % из тех, кто не удовлетворен жизнью, ставят себя низко на лестнице по богатству. Также мы видим статистики после таблицы, хи-квадрат, рассчитан эмпирический уровень значимости, равный нулю, который говорит нам о том, что мы принимаем альтернативную гипотезу, что признаки у нас связаны между собой статистически значимо. Дальше мы видим, у нас рассчитаны меры. То есть, во-первых, рассчитаны меры для номинальных признаков, и это написано, номинальные переменные. Коэффициент Крамера, равный 0,261. И рассчитаны корреляционные меры. Но мы видим, что он нам рассчитал оба коэффициента корреляции, и Пирсона, и Спирмена, но написал, что Пирсон годится для интервальных переменных, а у нас переменные порядковые, очевидно. Коэффициент корреляции Спирмена рассчитан для порядковых переменных, и мы видим отрицательное значение, статистически значимое. Ну в общем, все понятно. Признаки связаны, признаки связаны линейно. И чем больше у нас уровень удовлетворенностью жизнью, тем выше у нас самооценка по богатству. Отрицательные коэффициенты потому, что переменные у нас имеют разную направленность кодировки. Удовлетворенность жизнью меняется от 1 — полностью удовлетворен, до 5 — совсем не удовлетворен, а шкалы наоборот: 1 — низкая, 3 — высокая. То же самое мы видим с самооценкой по престижу. Таблица, которая уже знакома: статистики связи, значимый хи-квадрат, коэффициент Крамера, меньший по значению, но статистически значимый также, а также коэффициент Пирсона, меньший по значению, но статистически значимый. И мы в лекции уже делали вывод о том, что у нас статистически значимо дифференцируется удовлетворенность жизнью как от самооценки по богатству, так и от самооценки по престижу, но самооценка по богатству вносит больший вклад в эту дифференциацию. Также мы говорили о том, что есть еще какие-то коэффициенты, которые позволяют нам еще подробнее исследовать эту взаимосвязь. Что это за коэффициенты? Давайте вернемся в меню таблицы сопряженности и посмотрим. Описательные статистики, таблица сопряженности. Вернемся в «Статистики клеток», «Ячейки». Здесь у нас кроме абсолютных значений и процентов есть категория «Остатки». Остатки — это очень удобный инструмент, для того чтобы понять, из каких ячеек в особенности или в основном складывается связь между признаками. То есть у нас есть остатки нестандартизованные, стандартизованные и стандартизованные скорректированные. Мы выберем третью величину. О том, что они такое и как подробно они рассчитываются, я вас отсылаю к материалам курса, по этому поводу есть глава в книжке Ростовцева и Ковалевой. Сейчас только скажу, что это стандартизованная величина. Вот хи-квадрат у нас основан на разнице наблюдаемых и ожидаемых частот в целом по таблице. То есть мы в каждой ячейке берем наблюдаемое и ожидаемое и соотносим, суммируем, получаем хи-квадрат. Скорректированные стандартизованные остатки, они же z-статистики, в них происходит то же самое, только по каждой ячейке. Оценивается статистическая значимость смещения наблюдаемого значения от ожидаемого в этой конкретной клетке. И здесь у нас есть ориентир, что если у нас величина z-статистики по модулю не превышает 2, то это смещение статистически незначимо. Но если мы видим, что она у нас больше, чем +2, или меньше, чем −2, то это смещение уже статистически значимо, и тогда эта клетка вносит значимый вклад в формирование этой вот взаимосвязи между признаками. Давайте посмотрим, что получится, если мы сохраним эти стандартизованные остатки в наших таблицах. Смотрим на примере одной. Что мы видим? Во-первых, мы видим, что у нас нет ни одной незначимой z-статистики. Все стандартизованные остатки превышают по модулю 2 и превышают существенно. И мы видим, что у нас полностью удовлетворены — высокое на пересечении этих двух значений признаков, снормированное смещение частоты +11. Плюс означает, что у нас здесь больше значений, чем было бы, если бы признаки были независимы. И мы видим, что в пересечении «Низкая» и «Полностью удовлетворены» z-статистика отрицательная. То есть знак говорит нам о чем? Если мы видим положительную z-статистику, то мы видим, что здесь у нас люди склонны оказываться, то есть здесь у нас люди статистически чаще попадают в такие сочетания признаков. Если знак отрицательный, то наоборот, и в этой клетке у нас люди оказывается статистически значимо реже, чем оказывались бы, если бы признаки были не связаны. Таким образом, по стандартизованным смещениям частоты здесь у нас все достаточно очевидно, но бывают ситуации, когда у нас связи, допустим, выражены по краям, но не выражены по середине. В таком случае стандартизованные остатки, или z-статистики, могут быть полезным инструментом для подробного исследования взаимосвязей между двумя признаками. На этом мы заканчиваем разговор о таблицах сопряженности и немного поговорим о корреляциях. Если у нас есть интервальные признаки и метрические шкалы и мы ходим исследовать взаимосвязь между ними, то мы можем делать это при помощи коэффициента корреляции Пирсона. Давайте возьмем другой массив, который по лекциям вам уже знаком, это данные по кликам по фирмам, которые получались в марте 2017 года компанией 2GIS. Посмотрим, у нас здесь есть метрические шкалы, количество кликов, количество звонков, количество переходов на сайт, и мы посмотрим, связаны ли эти признаки между собой. Как мы помним, анализ корреляции интересен не только сам по себе, но может быть важным предварительным этапом при построении, например, регрессионной модели, когда нам нужно включать в модель только те переменные, которые значимо связаны с переменной отклика. Давайте посмотрим, связаны ли у нас, то есть мы прогнозировали переходы на сайт, и мы посмотрим, связаны ли те интервальные переменные которые у нас присутствуют в массиве, с этой переменной. Для этого заходим в меню «Анализ», «Корреляции», «Парные», то есть корреляционный анализ у нас находится в отдельном окне, а не там, где таблицы сопряженности, и выбираем. Вот у нас есть количество переходов на сайт, которое мы прогнозируем, позиция в поисковой выдаче и количество кликов. Вот у нас есть три количественных переменных. Мы видим, что у нас коэффициенты корреляции, которые здесь реализованы, так же, как метрические, так и неметрические, Пирсона, Кендалла, Спирмена. Но у нас поскольку шкалы метрические, мы возьмем Пирсона и попросим отмечать значимые корреляции. Запускаем, получаем результат. Мы видим, что у нас признаки значимо связаны между собой. И связаны в общем-то достаточно логично. Чем больше у нас кликов, тем больше у нас переходов, что логично, положительный значимый коэффициент корреляции Пирсона. И при этом чем больше у нас переходов, тем ниже у нас позиция в поисковой выдаче, что тоже логично. Чем дальше в поисковой выдаче находится компания, тем меньше вероятность, что до нее дойдут и кликнут. Ну то есть что мы видим? Во-первых, мы видим значимую корреляцию, во-вторых, мы видим, что количество кликов с количеством переходов связано существенно сильнее, чем позиция в поисковой выдаче с количеством переходов. А также мы видим, что обе эти корреляции значимы, и если бы шла речь о регрессионной модели, то мы могли бы включать обе эти переменные в анализ. Ну здесь мы заканчиваем модуль о поиске взаимосвязей в данных, а в следующем модуле мы поговорим о построении линейной регрессионной модели.