[МУЗЫКА] [МУЗЫКА]
[ШУМ] Ну а теперь давайте посмотрим,
как рассчитывать основные описательные статистики при помощи пакета SPSS.
Мы обсуждали много статистик, которые являются мерами центра,
мерами разброса, применимы для разных типов переменных.
Сейчас рассмотрим,
какие у нас есть варианты для рассчета этих статистик автоматически в статпакете.
У нас есть вариантов несколько.
Сейчас, для того чтобы было удобнее воспринимать,
я открыла тот же массив данных, то есть вот эти вот два столбика — это зарплаты в
нашей воображаемой компании, где работает 11 человек.
Январь — это зарплаты до кадровой перестановки,
июнь — это зарплаты после кадровой перестановки.
И мы посмотрим на этих данных, собственно, посчитаем все те меры,
которые обсуждали в лекции.
Все аналитические процедуры в пакете SPSS лежат в меню «Анализ».
Это же касается описательных статистик.
Вот в меню «Анализ» описательные статистики — это отдельный раздел меню,
и мы видим, что в нем достаточно много всего есть: частоты описательные,
разведочный анализ, а также есть куча интересного, вроде таблиц сопряженности,
отношений и разных графиков.
Графиков мы сейчас касаться не будем, это тема следующего модуля,
таблица сопряженности — это совместные распределения, о которых мы еще не
говорили, но три верхних раздела меню — частоты, описательный и разведочный анализ
— позволяют нам получать описательные статистики,
и каждый имеет свои особенности, давайте посмотрим на каждый из них поподробнее.
Частоты.
Значит, это самый такой очевидный и популярный, не случайно первый в меню,
способ, у которого есть большое количество плюсов.
Во-первых, он применим для всех видов шкал.
То есть если мы для интервальных шкал считаем большое количество мер,
то что касается порядковых или номинальных шкал,
самое важное — чтобы мы видели частотное распределение.
Эта процедура позволяет это частотное распределение получить.
Вот здесь вот эта вот «птица» (Вывести частотную таблицу), ее можно убирать,
но убирать ее нужно для количественных переменных, у нас пока все обозримо,
делать этого не будем.
В кнопке «Диаграмма» лежат графики, о которых мы поговорим в следующем модуле,
а в кнопках «Статистики» лежат основные меры: центр и вариативности.
То есть вот мы видим, что мы можем считать средние значения медиану, моду,
то есть меры центра, можем считать стандартные отклонения (минимум,
максимум) — меры разброса, а также характеристики распределения,
характеристики формы распределения: есть ли асимметрия, то есть скошен ли,
смещен ли горб распределения влево или вправо, а также есть ли эксцесс,
является ли распределение пикообразным или, наоборот, является таким вот плоским.
Кроме того, здесь есть возможность расчеты процентилей.
То есть мы говорили с вами о квантилях распределения,
и была одна мера вариативности — межквартильный разброс,
или межквартильный размах, который, как вы видите здесь, автоматически не считается.
Но если мы зададим здесь расчет процентилей и получим 25 и 75 %, то тогда,
получив эти два значения, мы сможем вручную рассчитать межквартильный разрос.
Не будем это делать пока, просто имейте в виду, что эта возможность есть.
Запускаем, посмотрим, что у нас получится.
Мы видим: первая табличка — это, собственно, все наши меры.
Сначала мы видим количество валидных и пропущенных значений — все 11 у нас
валидные, для всех сотрудников зарплата определена, пропущенных значений нет.
Дальше мы видим меры по порядку: средняя, медиана,
мода — эти цифры нам уже все знакомы из лекции, — стандартное отклонение,
скошенность — это мера асимметрии, вот этот вот то,
что называется Kurtosis (это пикообразность) — это мера, собственно,
высоты или плоскости пика, также рассчитаны минимум и максимум.
Здесь мы видим основные сравнительные какие-то показатели и смотрим,
что изменилось в связи с приходом одного высокооплачиваемого сотрудника.
И дальше мы можем посмотреть на частотные таблицы, где мы видим,
сколько раз встречается каждое значение признака.
В нашем случае да, каждая зарплата встречается один раз,
кроме 15 тысяч у нас два сотрудника столько получают.
И предсказуемо у нас мода и в том, в другом случае была 15 тысяч,
потому что это значение встречается дважды.
Какие у нас есть еще варианты получения описательных статистик?
Есть вариант быстрый, применимый только для количественных шкал.
Если частоты для любой шкалы работают, то описательные — вот этот вот второй раздел
меню — это такой вот быстрый и удобный способ получить
характеристики распределений для интервальных, для метрических шкал.
Здесь мы видим еще одну возможность — сохранять стандартизованные значения
переменных.
Бывают задачи, для которых нам нужно работать с переменными сопоставимой
размерности, то есть, допустим, у нас есть 10 интервальных шкал,
какие-то меняются от 0 до 10, какие-то от 0 до 1000, но нам нужно, чтобы они
измерялись в сопоставимых величинах, некоторые процедуры этого требуют.
Можем сохранить стандартизованные значения в качестве отдельной переменной,
и тогда у нас это будет переменная, расчитанная на основе исходных признаков,
но измеренная не в абсолютных значениях, а в стандартных отклонениях.
Бывают ситуации, когда это нужно, здесь это можно сделать.
В параметрах можно указать опять-таки статистики, которые нам нужны,
здесь у нас есть среднее значение, есть стандартное отклонение минимум-максимум,
и также асимметрию и эксцесс можно считать.
Нажмем, посмотрим, что получится.
Вот у нас получилась маленькая компактная табличка,
в случае частотами мы видели табличку достаточно громоздкую и подробную.
Здесь информации немного, но все ключевые вещи, то есть мы видим и минимум-максимум
среднее стандартное отклонение, и мы можем очень быстро сравнить ситуацию до и
после появления нового человека и увидеть вот резкое изменение средней, скачок
максимума, вот это вот резко изменившееся стандартное отклонение и все вот это.
Если мы вернемся в массив, то мы увидим,
что у нас появилось две дополнительных переменных.
Вот ZЯнварь и ZИюнь — это стандартизованные значения зарплат для
первого и для второго месяца.
Если вам эти переменные нужны, можно ими пользоваться.
Третья возможность из описательных статистик — это разведочный анализ.
То есть это возможность самая развернутая, здесь у нас максимум мер рассчитывается.
Кроме того, есть возможности сравнительные,
и есть возможности графические.
О графических мы подробнее поговорим позже, о большинстве мер,
которые там реализованы давайте сейчас поговорим.
Что у нас здесь есть?
В статистиках достаточно указать, что мы хотим увидеть описательные статистики,
никаких подробностей больше мы задавать не должны,
а то по умолчанию выдает очень подробный расклад по каждому распределению.
Вот смотрите.
Значит, первая табличка у нас дате обобщение по переменным.
Опять же мы видим, что у нас валидные, пропущенные, пропущенных нет,
100 % валидны, все в порядке.
Дальше у нас есть табличка с описательными статистиками.
И здесь у нас сначала идут характеристики первого распределения,
затем характеристики второго распределения,
и все возможные меры, которые только можно придумать здесь посчитаны.
Здесь для нас заботливо посчитали межквартильный размах — это то,
чего не делали для предыдущей процедуры, а также посчитана средняя,
посчитан доверительный интервал, посчитана даже усеченная средняя,
которую мы обсуждали, когда у нас есть один или два выброса.
И вот расчет усеченной статистики — это возможность снизить их эффект.
Кроме того, рассчитаны, естественно, медиана, мода, стандартное отклонение,
минимум, максимум и так далее.
Таким образом, если нам нужно посчитать статистики описательные в SPSS,
у нас есть три возможности, и зависимости от того, какие у нас типы шкал,
мы можем пользоваться разными из них.
Если нужно посмотреть на характеристики неметрических шкал,
то лучше идти в частоты, в верхнюю опцию меню.
Описательные — это вариант для быстрой сравнительной картинки плюс сохранение
стандартизованных переменных, если есть такая необходимость.
А разведочный анализ — это самый подробный разбор распределений,
и им хорошо пользоваться, когда вам нужен либо подробный анализ характеристик
распределений, либо вам хочется сравнить и увидеть какие-то особенности распределений
в разных группах или в разное время.
О том, как использовать графические возможности анализа распределений,
визуализации распределений, мы поговорим в практической части следующего модуля.