В этом видео мы поговорим
еще об одном ярком проявлении эффекта множественной проверки гипотез,
которое возникает при анализе подгрупп.
Давайте для примера рассмотрим следующее исследование.
У нас есть 1073 пациента с ишемической болезнью сердца.
Мы делим их на 2 подгруппы по типу лечения и исследуется
взаимосвязь между выживаемостью и типом лечения.
Мы хотим понять, какой их двух типов лучше.
Важные факторы, которые влияют на выживаемость при ишемической болезни
сердца — это число пораженных артерий, может быть 1, 2 или 3,
и тип сокращений левого желудочка (нормальный и абнормальный).
В таких ситуациях исследователи часто хотят посмотреть на сравнительную
эффективность типов лечения отдельно во всех подгруппах по уровням важных
факторов.
В данном случае наши два фактора порождают 6 подгрупп,
в каждой из них мы сравниваем выживаемость пациентов по двум типам лечения.
Действительно, в одной из 6 подгрупп были обнаружены значимые различия
в выживаемости пациентов при лечении первого типа и второго типа.
Перед вами кривые выживаемости для этой подгруппы.
По ним видно, что в группе лечения A к концу исследования после 6
лет наблюдений выжило только меньше 40 % пациентов, а в группе
соответствующей лечению B, в районе 60 % — это различие статистически значимо.
Кажется, что для пациентов с таким числом пораженных артерий и с таким типом
сокращения левого желудочка лечение B действительно существенно эффективнее.
На самом деле эти два лечения отличаются только названием.
По сути, эти две группы пациентов лечились абсолютно одинаково.
Эта статья была написана с целью показать необходимость поправки на
множественную проверку гипотез при анализе подгрупп.
Действительно, когда мы рассматриваем и сравниваем кривые выживаемости во всех 6
подгруппах, мы проверяем 6 абсолютно независимых гипотез и возникает эффект
множественной проверки.
Если подгрупп достаточно много, мы всегда получим какие-то значимые отклонения.
Более свежий пример настоящего исследования, в котором такая ошибка в
анализе подгрупп была совершена на самом деле — это исследование 2008 года,
в котором исследовалась связь потребления кофеина и риска возникновения рака груди.
В этой статье всего было около 50 разных подгрупп,
по самым разным уровням самых разных факторов.
Было, в частности, показано, что употребление более чем четырех
чашек кофе в день связано с увеличением риска злокачественного рака груди,
с достигаемым уровнем значимости 0,08.
Это больше, чем стандартный уровень значимости 0,05,
но меньше чем либеральный уровень значимости 0,1.
Кроме того, потребление кофеина связано с увеличением риска возникновения эстроген-
и прогестерон- независимых опухолей, а так же опухолей размером больше 2 сантиметров.
Достигаемый уровень значимости 0,02.
Еще одно открытие — потребление кофе без кофеина связано со снижением риска
возникновения рака груди у женщин в постменопаузе, принимающих гормоны.
Достигаемый уровень значимости 0,02.
Ясно, что за счет большого количества подгрупп, которые мы рассматриваем,
всегда можно получить какие-то значимые отклонения, если не делать поправку
на множественную проверку, какие-то из них с большой вероятностью окажутся ложными.
В каком-то смысле это напоминает переобучение.
Мы пытаемся оценить эффективность лечения в разных подгруппах в
зависимости от каких-то признаков пациента и если эти признаки слишком
сложные и их слишком большое количество,
то мы просто переобучаемся под выборку, которую мы анализируем.
В качестве экстремального примера такого переобучения можно вспомнить цитату из
Галена, II века до нашей эры: «Все больные, принявшие это средство,
вскоре выздоровели, за исключением тех, кому оно не помогло — они умерли.
Отсюда очевидно, что средство помогает во всех случаях, кроме безнадежных».
В заключение обсуждения эффекта множественной проверки гипотез давайте
обсудим еще один вот такой гипотетический пример.
Представьте, что у вас есть 100 больных людей и 100 здоровых,
и вы хотите исследовать связь между болезнью и какой-то мутацией.
В вашей контрольной выборки из 100 человек у одного есть мутация,
а в выборке больных — у 8 есть мутация.
По всей видимости, эта мутация достаточно редкая.
Если мы сравним доли людей с мутацией в выборках больных и здоровых,
мы получим достигаемый уровень значимости 0,03,
и гипотеза об отсутствии связи между мутацией и болезнью отвергается.
Пусть теперь у нас есть еще одна гипотеза — наличие заболевания связано с тем,
с гласной или согласной буквы у пациентов начинаются фамилии.
В нашей контрольной выборке здоровых людей у 36 человек фамилия начинается с
гласной буквы, а в выборке больных — у 40 из 100.
Если мы сравним эти доли биномиальным критерием,
мы получим достигаемый уровень значимости 0,66.
Эта гипотеза ни в каком случае отклонена не будет.
Проблема, однако, заключается в том,
что теперь в нашем исследовании проверяются две гипотезы.
И нам нужно делать поправку на множественность этой проверки.
Какой метод поправки мы бы не использовали, будь то метод Бонферрони,
Холма или Бенджамини Хохберга, самый маленький достигаемый уровень
значимости во всех них сравнивается с α / m.
Таким образом, если мы хотим обеспечить контроль над какой-то мерой числа ошибок
первого рода на уровне 0,05, нам нужно сравнивать наше самое маленькое α с 0,025.
Самое маленькое α у нас 0,03.
Таким образом, вот эта нелепая гипотеза, которую мы в наше исследование добавили,
замаскировала, возможно, неверную нулевую гипотезу, связанную с мутацией.
Отсюда вытекает рецепт лучшего способа борьбы с эффектом множественной проверки
гипотез — просто проверять меньше гипотез.
Перед тем, как вы собрали данные до того, как ваше исследование началось,
подумайте, какие из гипотез, которые вы можете рассмотреть,
вам на самом деле не интересны.
И откажитесь от их рассмотрения.
За счет этого вы сможете сделать более либеральную поправку на множественность и
отвергнуть больше действительно неверных гипотез,
совершить больше действительно интересных открытий.
Здесь важно,
что такая фильтрация гипотез должна осуществляться именно до сбора данных.
Если вы будете выбрасывать гипотезы уже после того,
как вы посмотрели на достигаемый уровень значимости, вы переобучитесь.
Итак, в этом видео мы обсудили эффект множественной проверки гипотез,
возникающий при анализе подгрупп, а так же обсудили, что лучший способ борьбы с
эффектом множественной проверки — это просто проверять меньше гипотез.
На этом заканчивается теоретический материал про множественную проверку
гипотез.