[МУЗЫКА]
[МУЗЫКА] [МУЗЫКА]
Здравствуйте, уважаемые слушатели.
На прошлом занятии мы с вами рассмотрели измерительные математические модели.
В ходе их применения в исследовании мы получаем переменные: переменные,
как результаты измерений.
Эти переменные необходимо разместить в таблице исходных данных для
дальнейшего анализа.
Вот мы на этом занятии с вами рассмотрим основные описательные математические
модели, которые обязательно используются в ходе любого научного исследования.
Итак, первая описательная математическая модель — это таблица исходных данных,
в которую мы помещаем исходные данные нашего исследования.
Обратим внимание, что таблица имеет определенную структуру,
требования которой сложились к последнему времени в связи с применением
компьютерных методов анализа данных.
Таблица имеет строки и столбцы, при этом строки соответствуют случаям — ну,
как правило, это у нас испытуемые или респонденты — а столбцы
соответствуют переменным.
Следует отметить, что в таблице сводных данных размещаются
все данные одного исследования вне зависимости от того, сколько
выборок участвовало в исследовании, и в каком соотношении они находились.
В таблице исходных данных независимые выборки разделяются при помощи
номинальных переменных, которые выступают в данном случае, как группирующие.
Ну, в данной таблице, в этой таблице мы видим переменную «Пол»,
которая делит испытуемых на юношей и девушек, видим переменную «Хобби»,
тоже номинальную, которая делит испытуемых по тому,
какие хобби предпочитают те или иные юноши и девушки и т.д.
В таблице содержатся переменные как номинальные, так и количественные.
Ну и еще до формирования таблицы исходных данных, еще, может быть,
до сбора исходных данных рекомендуется составить список переменных.
Вот на экране вы видите список переменных, в которых отражаются наиболее
существенные, наиболее важные характеристики планируемых переменных.
В этой таблице строки соответствуют переменным,
а столбцы — наиболее важным характеристикам.
Строки пронумерованы.
И рассмотрим основные характеристики переменных,
которые указываются в этой таблице.
Ну, во-первых, это имя переменной.
Имя должно быть коротким.
Для программы SPSS, предположим,
имя переменных не должно быть более семи символов, желательно — не более
пяти символов, начинаться с буквы и включать в себя только буквы и цифры.
Дальше, следующая графа — это расшифровка имени.
Дело в том, что имя не несет содержательной информации, как правило,
о том, что конкретно было измерено.
Вот для этого вводится расшифровка имени.
Далее, следующая графа — это тип переменной,
в какой шкале представлена переменная.
Здесь в данном случае мы уже в самом начале исследования, в ходе планирования
уже знаем, какие переменные у нас будут номинальными, а какие — количественными.
Ну и наконец следующая графа — это диапазон.
Особенно важна эта графа для номинальных переменных.
Здесь указывается, сколько категорий имеет каждая номинальная переменная,
и каковы наименования каждой категории, имена категорий.
Для количественных переменных, как правило,
представляют диапазон допустимых значений.
На экране представлены исходные данные, как они выглядят в программе SPSS.
В программе SPSS исходные данные представлены в виде двух вкладок.
Вот на переднем плане находится вкладка, очень похожая на список переменных, да?
И на заднем плане представлена вкладка «Данные».
Вкладка «Данные», она подобно таблице Excel представляет собой
бесконечную таблицу, где строки соответствуют случаям или испытуемым,
а столбцы соответствуют переменным и поименованы эти столбцы.
Первый шаг любого анализа данных — это анализ распределения каждой переменной.
Отметим, что анализ распределения производится
с разными целями для номинальных данных и для количественных данных.
Сначала рассмотрим анализ распределения для номинальных данных.
На экране вы видите распределение частот, представленное в
виде таблицы для номинальной переменной и в виде столбиковой диаграммы.
Вот рассмотрим сначала таблицу.
В таблице строки соответствуют категориям номинальной переменной.
Обратим внимание, что последняя строка этой таблицы — пропущенные значения,
поскольку достаточно часто у нас имеются пропуски в данных по тем или иным
причинам.
Столбцы соответствуют...
Ну, первый столбец — частота или количество каждой категории,
вторая — процент, да?
Причем в процент включается и процент пропущенных значений,
то есть мы видим, каков процент пропущенных значений.
Далее валидный процент указывает процент непропущенных значений,
ну и наконец последний столбец — это накопленный процент,
то есть процент, накопленный к данному значению переменной.
Ну и график распределения номинальной переменной,
столбиковая диаграмма показывает нам, насколько равномерно или
неравномерно распределены частоты количественной переменной.
Ну в данном случае мы, например, видим,
что какие-то вузы предпочитаются чаще для поступления учащимися, а какие-то — реже.
Как правило, оценивается равномерность или неравномерность распределения
частот по категориям.
Другой вид представления таблиц,
частот в таблицах для номинальных переменных — это таблица сопряженности.
Представлена таблица сопряженности для переменных «Пол» и «Хобби».
В таких таблицах отражается связь двух оснований классификаций
или двух номинальных переменных.
Таблица, а также график сопряженности
позволяет нам судить, например, о том в данном случае,
как отличаются юноши и девушки по своим предпочтениям в отношении хобби.
Рассмотрев основные математические модели для
номинальных переменных, обратимся к задаче.
В одном из исследований изучалась склонность людей передавать плохие или
хорошие новости.
Ну, отметим, что это исследование проводилось еще в те древние времена,
когда не было мобильных телефонов и, соответственно,
смс-ок, тем более — социальных сетей.
На ветровых стеклах автомобилей, припаркованных у почтовых ящиков,
были оставлены почтовые открытки с указанием адресата, всего 180 штук.
Содержание открыток было либо нейтральным,
либо плохим — содержали плохие новости.
В качестве плохой новости использовалось сообщение о супружеской неверности
партнера адресата, получателя сообщения.
В процессе исследования подсчитывалось количество открыток,
дошедших или не дошедших до адресата.
Ну и вопросы, попробуйте ответить на них.
Как была операционализирована гипотеза исследования?
Сколько переменных содержали данные?
И второй вопрос: какая описательная модель оптимально
представила бы результат исследования?
Ответ: данные представлены в виде двух номинальных переменных: новость (две
категории: плохая — хорошая) и сообщение (две категории: не получено илиполучено).
Как видите, таблица сопряженности дает основание делать вывод о том,
что люди с меньшей охотой отправляют открытки, содержащие плохие
новости.