В этом видео
мы рассмотрим, чем же байесовский подход к теории вероятности,
к математической статистике отличается от классического или частотного подхода.
На самом деле, ключевое различие между частотным подходом,
который многие из вас изучали в вузах, и байесовским подходом заключается в том,
как трактовать случайность.
С точки зрения классического подхода случайная величина — это величина,
значение которой мы принципиально не можем предсказать,
то есть некоторая объективная неопределенность.
В то же время с точки зрения байесовского подхода случайная величина на самом деле
является детерминированным процессом, просто часть часть факторов,
которые определяют исход этого процесса, для нас неизвестны.
Именно поэтому мы и не можем предсказать конкретный исход данного испытания с
данной случайной величиной.
Из этого сразу вытекают некоторые следствия.
Ну, например, с точки зрения байесовского подхода любую неизвестную величину
можно интерпретировать как случайную и использовать аппарат теории вероятности,
в частности, вводить на нее плотность распределения.
При этом, коль скоро случайные величины для нас кодируют субъективное незнание, у
разных людей неопределенность на одну и ту же случайную величину может быть разная.
Именно поэтому и плотности распределения на эту случайную величину будут отличаться
для разных людей, обладающих разной информацией о факторах,
влияющих на эту случайную величину.
С точки зрения классического подхода величины четко делятся на случайную
и детерминированную.
И бесмысленно применять аппарат теории вероятности к детерминированным случайным
величинам или параметрам.
С точки зрения байесовского подхода все величины, значения которых неизвестны,
можно интерпретировать как случайные.
Соответственно, можно вводить плотность распределения и выполнять
байесовский вывод.
Основным методом оценивания в классическом подходе является метод максимального
правдоподобия, который мы с вами рассмотрели в предыдущем видео.
При байесовском подходе к статистике основным выводом является теорема Байеса.
Соответственно, результатом оценивания в классическом подходе обычно являются
точечные оценки, как правило, это оценки максимального правдоподобия,
либо реже — доверительные интервалы.
При байесовском же подходе результатом вывода является апостериорное
распределение на оцениваемые параметры.
Метод максимального правдоподобия является оптимальным при n стремящемся к
бесконечности, соответственно, большинство теорем в теории вероятности, которые
обосновывают корректность применения этого метода, доказывают предположение,
что объем выборки, по которой мы оцениваем неизвестный параметр, много больше 1.
В то же время байесовский подход можно использовать при любом объеме выборки,
даже если объем выборки равен 0.
В этом случае результатом байесовского вывода и апостериорного распределения
просто будет являться априорное распределение.
В то же время, если объем выборки, а именно отношение n к d,
где n — это количество объектов, а d — это размерность оцениваемых параметров,
много больше 1, результат байесовского вывода начинает стремиться к результату,
оцениваемому с помощью метода максимального правдоподобия.
Тем самым все теоретические гарантии, которые известны для метода
максимального правдоподобия, применимы и к результату байесовского вывода.
Одним из преимуществ байесовского подхода является возможность
объединения разных вероятностных моделей, которые отражают те или иные
косвенные характеристики оцениваемой неизвестной величины.
Например, представим себе следующую ситуацию.
У нас есть m различных измерений,
каждое из которых каким-то образом характеризует неизвестную величину x.
Для каждого измерения у нас есть своя вероятностная модель, которая показывает,
насколько данное значение j-го измерения вероятно,
если случайная величина приняла то или иное значение.
Нашей задачей является оценить скрытую неизвестную
величину x по наблюдениям y1 yn.
Зафиксируем наше исходное незнание о величине x в виде априорного
распределения p(x).
После чего применим первую вероятностную модель, которая увязывает x и y1.
Применив формулу Байеса,
можем получить апостериорное распределение на x при условии, что мы пронаблюдали y1.
Теперь, если мы начнем анализировать результат второго измерения,
которое может быть никак не связано с первым измерением и получено из совершенно
другой вероятностной модели, то мы снова можем применить байесовский вывод,
только теперь в качестве априорного распределения на x мы положим
апостериорное распределение, полученное после измерения y1.
То есть в качестве априорного распределения мы поставим p(x) при
условии y1.
Применив теорему Байеса, мы получаем апостериорное распределение на x,
но уже при условии y1y2.
Действуя так m раз мы в итоге получим апостериорное распределение
на x при условии y1, ..., ym, которое отражает максимум информации,
которую мы могли извлечь о величине x при условии, что мы пронаблюдали y1, ..., ym.
Если бы мы использовали точечные оценки вместо апостериорных распределений,
мы бы оказались в положении слепых мудрецов из известной притчи,
которые пытались изучать слона путем различных тактильных ощущений.
Как известно, в притче мудрецы не смогли прийти к единому мнению, в то же время,
если бы они оперировали байесовским аппаратом и получали бы
апостериорное распределение, скорее всего,
они смогли бы прийти к мнению относительно того, что же они изучают.
В этом видео мы с вами изучили, что такое байесовский подход к теории вероятности,
чем он отличается от классического подхода, и посмотрели,
как благодаря использованию теоремы Байеса можно объединять несколько вероятностных
моделей в более сложную модель.
В следующем видео мы посмотрим, как же байесовский подход может быть
использован к машинному обучению, и какими преимуществами он обладает.