0:13
На сегодняшнем практическом занятии мы будем исследовать набор данных
о пассажирах «Титаника» и с помощью логит- и пробит-моделей попытаемся определить,
какие факторы влияют на вероятность выживания пассажира.
Как всегда запускаем R-studio, открываем заготовку
рабочего файла lab_07_beforeR, убеждаемся,
что установлена верная рабочая папка, в которой хранится файл с данными,
Session Set Working Directory To Source File Location,
загружаем необходимые библиотеки, загружаем файл с данными.
После того как мы загрузили файл с данными,
обязательно нужно посмотреть, а что же мы, собственно, загрузили.
Мы видим, что набор данных состоит из большого количества переменных.
Ну, можно отметить pclass — класс, которым ехал пассажир,
survived — выжил пассажир или нет, sex — пол пассажира,
возраст и тариф — цены билета.
Неплохо также сделать вывод о том,
что некоторые переменные являются качественными или факторными,
а именно — класс пассажира является факторной переменной: либо первый,
либо второй, либо третий; переменная выжил/ не выжил не может принимать
значение 1,5 или 0,7; переменная sex также является факторной: либо male,
либо female, и также еще порт посадки пассажира также
является факторной переменной, но мы ее не будем исследовать.
Соответственно, надо указать R, что данные переменные являются факторными.
Соответственно, мы сделаем первое преобразование нашего набора
данных t mutate(t) и укажем,
что переменная «пол» должна быть факторной as.factor,
sex переменная pclass
является факторной,
и переменная survived
также является факторной.
2:37
Вот опечатка, pclass пропущена буква c.
Отлично.
После этого можно посмотреть описательные статистики — summary набора данных t,
посмотреть описательные статистики по каждой переменной.
Например, можно посмотреть на переменную пол.
Видно, что у нас 466 женщин и 843 мужчины.
Можно посмотреть на переменную возраст.
Средний возраст был примерно 30 лет, максимальный — 80,
а минимальный — это ребенок до 1 года.
После этого необходимо обязательно построить графики,
обязательно смотрите на ваши данные на графиках.
Когда у вас есть зависимая объясняемая качественная переменная,
то, как правило, имеет смысл рассмотреть несколько графиков: график,
где вы пытаетесь ее объяснить с помощью другой качественной переменной и график,
где вы ее пытаетесь объяснить с помощью другой количественной переменной.
Давайте рассмотрим эти несколько типов графиков.
Построим замечательный мозаичный график.
mosaic, дальше рисуем тильдочку и указываем переменные,
несколько качественных переменных от двух до...
разумно, наверное, до трех, но можно и больше.
Возьмем переменные пол, класс пассажира (passenger class)
и выжил/ не выжил (survived) и установим опцию цветовой закраски shade = TRUE.
Смотрим, что у нас...
Я забыл указать набор данных.
Указываем, что данные мы берем из таблички t,
и у нас получается замечательный мозаичный график.
Что на этом графике видно?
На этом графике видно, на самом деле,
соотношение между всеми качественными переменными в нашем наборе данных.
Давайте посмотрим, сначала мы делили нашу выборку по переменной sex — по полу.
Вот мы видим, что женщин существенно меньше, чем мужчин.
Затем всех женщин мы делили на тех, кто ехал в первом классе,
во втором и в третьем.
Видно, что в третьем классе женщин ехало больше, чем во втором и больше,
чем в первом.
А во втором меньше всего ехало женщин.
Если посмотреть на отделение мужчин по классам, то, опять же, видно,
что больше половины мужчин ехало в третьем классе.
И точно так же дальше мужчины и женщины каждого класса делятся на
выживших и не выживших.
Ну, например, если посмотреть на женщин третьего класса, то видно,
что примерно половина из них выжили, а половина из них не выжили.
Если посмотреть на мужчин третьего класса,
то большая часть из них не выжили и меньшая часть из них выжили.
Ежели, например, посмотреть на женщин первого класса,
то из них не выжило очень мало и выжило большинство.
Цветовая закраска соответствует автоматической проверке гипотезы о
независимости признаков.
Соответственно, синие клеточки означают, что в эту
категорию попадает больше наблюдений, чем попадало бы при независимости признаков,
а красные клеточки означают, что в эту категорию попадает меньше наблюдений,
чем попадало бы при независимости признаков.
Построим следующий график,
построим график, который называется «виолончель».
Берем данные из набора t, по горизонтали мы
отложим выжил человек или не выжил,
а по вертикали отложим, например, возраст.
И тип графика укажем — виолончель violin.
6:23
Соответственно, на этом графике что мы видим?
Если поделить пассажиров на выживших и не выживших и отложить по
вертикали количественную переменную, а именно возраст, то мы видим,
что возраст меняется от нуля практически до 80, и распределение по возрастам
среди выживших и не выживших примерно одинаковое.
Вместо графика «виолончели» раньше обычно
традиционно строили график, который называется «диаграмма ящик с усами».
Давайте мы его построим, чтобы не нарушать традицию,
хотя, на мой личный взгляд, «виолончель» гораздо красивее.
Команда ничем не отличается, кроме указания типа графика.
По горизонтали откладываем выжил или не выжил пассажир, по вертикали откладываем
возраст, однако тип графика указываем boxplot.
Здесь также видно на этом старом графике,
что распределение по возрастам у выживших и не выживших совпадает.
Следующий тип графика, мы наложим функцию плотности для выживших и не
выживших пассажиров на одном графике.
Соответственно, qplot, данные мы берем из той же самой таблички t.
По горизонтали на этот раз мы отложим возраст, по вертикали откладывается,
соответственно, количество наблюдений, его сам компьютер посчитает.
Закрасим мы fill, опция fill, в соответствии с тем,
выжил или не выжил пассажир.
Тип графика — это будет оцененная функция плотности geom="density",
и, соответственно, поскольку у нас функций плотности оценивается сразу две,
то надо компьютеру сказать, как они должны быть расположены.
Для начала я рассмотрю опцию, когда они накапливаются по вертикали,
position равняется stack.
Вот, можно посмотреть на этот график в увеличенном варианте,
я вижу, опять же, здесь, что возраст у меня меняется от 0 до 80.
Видно, вот если так присмотреться на кончик графика, то можно заметить,
что самый пожилой пассажир выжил.
Точно так же можно рассмотреть условную вероятность.
Для этого мы практически полностью продублируем предыдущую команду,
только заменим опцию position="stack"
на position="fill" и мы получим сглаженную условную вероятность.