Ошибка метеоролога: почему мы нерационально относимся к данным

Ошибка метеоролога: почему мы нерационально относимся к данным

Стивен Пинкер о том, как люди ошибаются, пытаясь предугадать вероятность событий

Саморазвитие
Фото: The Australian

Ведущий телевизионного прогноза погоды объявляет, что в субботу вероятность дождя составляет 50%, в воскресенье — тоже 50%, а затем подводит итог: вероятность дождя в выходные — 100%. Вы заметили подвох, не так ли? Несмотря на то, что ошибка кажется очевидной, все мы время от времени ее допускаем. Знаменитый нейропсихолог, лингвист, профессор Гарварда Стивен Пинкер в книге «Рациональность» рассказывает, в какие игры играет с нашим мозгом теория вероятности.

В бородатом анекдоте человек берет с собой в самолет бомбу из соображений безопасности: каковы шансы, рассуждает он, что на борту окажется сразу две бомбы? А знаете ли вы, как легко доказать, что папа римский — практически наверняка инопланетянин? Вероятность того, что случайно взятый землянин окажется папой римским, минимальна: один на 7,8 миллиарда, или 0,00000000013; Франциск — папа римский; следовательно, вряд ли Франциск — землянин.

Рассуждая о вероятностях, сбиться очень легко. Перечисленные выше нелепости — следствие ошибок в понимании следующего раздела теории вероятности — вычисления вероятности конъюнкции (соединительного суждения), дизъюнкции (разделительного суждения), дополнения и импликации (условного суждения).

Вероятность конъюнкции двух независимых событий, Р(А и В) равна произведению вероятностей каждого: Р(А)? Р(В). У Гринов двое детей; какова вероятность, что у них две дочки? Она равна вероятности, что старший ребенок — девочка (0,5), помноженной на вероятность, что младший ребенок — девочка (0,5), то есть 0,25. Если перевести с языка вероятности единичного случая на язык частотной интерпретации, это значит, что в четверти всех семей с двумя детьми растут две девочки. Классическая интерпретация еще проще. Перечислим все возможные варианты: мальчик — мальчик, мальчик — девочка, девочка — мальчик, девочка — девочка. Две девочки — один шанс из четырех.

Ловушка в формуле вероятности конъюнкции кроется в оговорке независимые. События независимы, если они не связаны друг с другом: шанс столкнуться с первым никак не влияет на шанс столкнуться со вторым. Для примера представьте себе общество, возможно в не столь отдаленном будущем, где люди могут выбирать пол ребенка. Допустим, все родители там — гендерные шовинисты, половина из которых предпочитает мальчиков, а другая — девочек. Если первенец в семье — девочка, значит, родители уже один раз выбрали девочку, следовательно, и во второй раз они тоже выберут девочку. И все наоборот, если первенец — мальчик. Эти события не являются независимыми, и перемножать вероятности было бы ошибкой. Если предпочтения абсолютны, а технологии совершенны, то в каждой семье будут либо только сыновья, либо только дочери, и вероятность, что в семье с двумя детьми растут две девочки, будет равна 0,5, а не 0,25.

Ошибки в оценке независимости событий могут привести к глупейшим просчетам. Когда череда редких явлений затрагивает не изолированные друг от друга элементы: соседей по подъезду, заражающих друг друга гриппом, или членов одной социальной группы, перенимающих привычки друг у друга, или ответы одного-единственного респондента, который проявляет одни и те же предубеждения в каждом вопросе, или данные регулярных измерений чего бы то ни было, для чего характерна инерция, — в таких случаях мы наблюдаем одно-единственное событие, а не странную их цепь, и перемножать вероятности нельзя. Например, если на протяжении 12 месяцев после установки в городе табличек «Соседского дозора» преступность держалась на уровне ниже среднего, было бы ошибкой думать, что этой удачной полосой мы обязаны табличкам, а не случайности. Уровень преступности меняется медленно, характеристики одного месяца плавно перетекают в другой, и ситуация больше напоминает однократное подбрасывание монеты, чем последовательность из двенадцати таких подбрасываний.

Неверное применение формулы вероятности конъюнкции в правосудии чревато не просто математическими ошибками, но и несправедливыми приговорами. Печально известен пример высосанного из пальца «закона Мидоу», названного в честь британского педиатра, который заявил: расследуя случаи синдрома внезапной детской смертности, нужно считать, что «один случай в семье — трагедия, два — подозрительное совпадение, а три — убийство, если не доказано обратное». В 1999 г., выступая в качестве эксперта в деле юриста Салли Кларк, потерявшей двоих новорожденных сыновей одного за другим, этот врач утверждал, что вероятность одной внезапной младенческой смерти в благополучной некурящей семье составляет 1 к 8500, а двух смертей — 1 к 8500 в квадрате, то есть 1 к 72 миллионам. Кларк приговорили в пожизненному заключению за убийство. Возмущенные статистики указали на ошибку: случаи младенческой смертности в одной семье не являются независимыми событиями, потому что у братьев может быть одна и та же генетически обусловленная предрасположенность, в доме, где живет семья, могут присутствовать некие факторы высокого риска, а родители могут отреагировать на первую трагедию излишними предосторожностями, которые только повысят вероятность второй. Через несколько лет Кларк выпустили после второго обжалования приговора (на других основаниях), а в последующие годы судам пришлось пересмотреть сотни дел, содержавших ту же ошибку.

Статистическая независимость связана с понятием причинности: если одно событие влияет на другое, они не являются статистически независимыми (хотя, как мы еще увидим, обратное неверно: события, не связанные отношениями причины и следствия, могут оказаться зависимыми статистически). Вот почему ошибка игрока — это ошибка. Одно вращение колеса рулетки никак не влияет на другое, поэтому азартный человек, рассчитывающий, что череда «черного» вымостит дорожку «красному», проиграется до нитки: вероятность выпадения «красного» всегда чуть меньше 0,5 (потому что есть еще зеленые ячейки 0 и 00). Заметьте, что ошибаться относительно статистической независимости можно и так и эдак: можно ошибочно предполагать как независимость (закон Мидоу), так и зависимость событий (ошибка игрока).

Зависят события друг от друга или нет, очевидно не всегда. Одна из известнейших попыток приложить науку о когнитивных искажениях к решению житейских загадок — анализ феномена «горячей руки» в баскетболе, произведенный Тверски в сотрудничестве с социальным психологом Томасом Гиловичем. Любому болельщику известно, что время от времени баскетболист может быть «в ударе», «на кураже» или «на драйве»; тут сразу вспоминается «серийный бомбардир» Винни Джонсон, который в 1980-е гг. играл на позиции атакующего защитника в Detroit Pistons и заслужил прозвище «Микроволновка», потому что умел молниеносно «разогреть» атаку. Вопреки мнению болельщиков, тренеров, игроков и спортивных журналистов, Тверски и Гилович пришли к выводу, что «горячая рука» — иллюзия, своего рода ошибка игрока. Проанализированные ими данные свидетельствовали, что результат каждого броска статистически независим от предшествующей череды попыток забросить мяч в кольцо.

Однако, не изучив данные, неверно отрицать реальность феномена «горячей руки» по примеру ошибки игрока просто из-за отсутствия причинно-следственной связи. В отличие от колеса рулетки, тело и мозг спортсмена обладают памятью, и думать, что всплеск энергии или уверенности в себе может длиться несколько минут подряд, — отнюдь не суеверие. Так что другие статистики не нанесли удара по научному мировоззрению, когда покопались в данных еще раз и пришли к выводу, что светила науки ошиблись, а фанаты были правы: феномен «горячей руки» в баскетболе существует. Экономисты Джошуа Миллер и Адам Санхурхо показали: если выделить из последовательности данных череду попаданий или промахов, результат следующей за этой чередой попытки не является статистически от нее независимым. Дело в том, что, если попытка оказалась удачной, она продолжает счастливую полосу, и ее могли изначально к ней причислить. Любая попытка, которая выделяется в ряду только потому, что случилась следом за счастливой полосой, скорее будет неудачной — такой, которую невозможно определить как часть полосы везения. Это перечеркивает вычисления, основанные на предположении о случайности событий, что, в свою очередь, опровергает заключение, будто баскетболисты так же непоследовательны, как колесо рулетки.

Ошибка ошибки «горячей руки» преподает нам три урока. Во-первых, события могут быть статистически зависимыми не только если одно из них является причиной другого, но и если оно влияет на то, какое событие выбирается для сравнения. Во-вторых, ошибка игрока может возникать благодаря отчасти рациональному свойству восприятия: когда мы ищем цепочки идентичных исходов в длинном ряду событий, череда определенной длины действительно с большей вероятностью прервется, чем продолжится. В-третьих, вероятность действительно бывает глубоко неинтуитивна: даже знатоки способны наделать ошибок в вычислениях.

Теперь давайте рассмотрим вероятность дизъюнкции событий, Р(А или В). Она равна сумме вероятностей А и В по отдельности минус вероятность (А и В). Если у Браунов двое детей, то вероятность, что хотя бы один из них — девочка (то есть что первый ребенок — девочка или второй ребенок — девочка), равна 0,5+0,5–0,25, то есть 0,75. Тот же результат мы получим, перечислив комбинации: три варианта (мальчик — девочка, девочка — девочка, девочка — мальчик) из четырех (мальчик — девочка, мальчик — мальчик, девочка — мальчик, девочка — девочка). Можно еще подсчитать частоту: на большой выборке семей с двумя детьми вы обнаружите, что в 75% из них растет хотя бы одна девочка.

Формула вероятности разделительного высказывания подсказывает, где ошибся телеметеоролог, заявивший, что в выходные обязательно прольется дождь, потому что и в субботу, и в воскресенье вероятность дождя составляет 50%: сложив две вероятности, он дважды посчитал все те выходные, в которые дождь будет идти два дня подряд, то есть забыл вычесть конъюнкцию, равную 0,25. Вычисляя дизъюнкцию взаимно исключающих событий, складывать их вероятности можно: их сумма всегда будет равна единице. Вероятность, что ребенок окажется либо мальчиком (0,5), либо девочкой (0,5), равна сумме двух этих вероятностей, то есть 1, других вариантов нет. Забыв об этой разнице и спутав пересекающиеся события со взаимно исключающими, можно получить умопомрачительные результаты. Представьте, что метеоролог предсказывает 50%-ную вероятность дождя в субботу, в воскресенье и в понедельник и заключает, что на протяжении длинных выходных дождь прольется с вероятностью 1,5.

И наконец, мы добрались до условной вероятности: вероятности А при условии, что В верно, что записывается как Р(А|В). Смысл этого понятия прост: это всего лишь вероятность то в связке если-то. Рассчитать ее тоже не сложно: это вероятность (А и В), деленная на вероятность В. Тем не менее условная вероятность — источник бесчисленных конфузов, просчетов и промахов при оценке вероятности […].

Вот пример: у Греев двое детей. Старшая — девочка. Какова при этом вероятность, что дочек у Греев две? Давайте переведем вопрос в термины условной вероятности, то есть вероятности, что первый ребенок — девочка и второй ребенок — девочка, при условии, что первый ребенок — девочка. Это можно записать так: Р (1-й = девочка И 2-й = девочка | 1-й = девочка). Следуя формуле, нам нужно разделить конъюнкцию, которая, как мы уже подсчитали, равна 0,25, на вероятность появления на свет первой девочки, которая составляет 0,5; в результате мы получим 0,5. Или, если рассуждать в классической парадигме, разделив один исход (девочка — девочка) на две возможности (девочка — девочка и девочка — мальчик), получим 1/2.

Условная вероятность помогает уточнить понятие статистической независимости, объяснение которого я не довел до конца. Теперь мы можем дать такое определение: А и В независимы, если для всех В вероятность А при условии В равна вероятности А (и то же самое верно для В). Помните ошибку перемножения вероятностей при вычислении конъюнкции зависимых событий? Хотите узнать правильное решение? Легко: вероятность конъюнкции P(А и В), если они не являются независимыми, равна вероятности А, умноженной на вероятность В при условии А, то есть Р(А)?Р(В|А).

Зачем я так и сяк кручу понятие условной вероятности, объясняя его то словами, то логическими функциями, то математическими формулами? Потому что условная вероятность — источник стольких ошибок, что еще одно объяснение лишним не будет.

Если вы мне не верите, подумайте об Уайтах, еще одной семье с двумя детьми. Как минимум один из детей — девочка. Какова вероятность, что оба ребенка девочки, то есть условная вероятность рождения двух девочек при условии, что одна девочка в семье точно есть, или, в математической записи, Р(1-й = девочка и 2-й = девочка | 1-й = девочка или 2-й = девочка)? Эту задачку верно решают столь немногие, что статистики называют ее парадоксом мальчика и девочки. Самый частый ответ 0,5; правильный — 0,33. Конкретное мышление в этом случае может привести к ошибке: люди представляют себе старшую девочку, понимают, что у нее может родиться либо брат, либо сестра, и решают, что сестра здесь — один шанс из двух. Они забывают, что эта известная нам девочка может оказаться младшей, а не старшей сестрой. Если правильно перечислять возможные варианты, мы получим один исход (девочка — девочка), деленный на три возможности (девочка — девочка, девочка — мальчик, мальчик — девочка), то есть 1/3. Или, по формуле условной вероятности, нужно разделить P (девочка и девочка), то есть 0,25, на P (девочка или девочка), то есть 0,75.

Парадокс мальчика и девочки — не просто математический трюк. Он порождается неспособностью нашего воображения пересчитать все возможные варианты и проявляется во множестве ипостасей, включая парадокс Монти Холла. Вот вам простой, но не менее точный эквивалент. Уличные шулеры зарабатывают на жизнь, вовлекая прохожих в игру «Три карты в шляпе». Шулер показывает вам карту, красную с обеих сторон, карту, белую с обеих сторон, и карту, красную с одной стороны и белую с другой. Затем он кладет их в шляпу, встряхивает, вытаскивает одну, демонстрирует, что с лицевой стороны она, скажем, красная, и предлагает поспорить на деньги, что с изнанки она тоже красная (вы отдадите доллар, если изнанка красная, шулер отдаст доллар, если она белая). Это ловушка: шансы, что обратная сторона красная, составляют два к трем. Простаки мысленно пересчитывают карты, вместо того чтобы считать их стороны, забывая, что для красной с обеих сторон карты существует две возможности выпасть красной стороной вверх.

Кстати, помните парня, который пронес бомбу с собой в самолет? Он подсчитал общую вероятность того, что в самолете окажется две бомбы сразу. Но, притащив на борт свою собственную, он уже исключил из рассмотрения большую часть возможностей, представленных знаменателем.  Вероятность, которая на самом деле должна его волновать, — условная вероятность присутствия на борту самолета двух бомб, при условии, что одна, его собственная, там уже есть (вероятность чего равна единице). А эта вероятность равна вероятности, что бомбу на борт пронесет кто-то еще, умноженной на 1 (конъюнкция его бомбы и чужой) и разделенной на 1 (вероятность его бомбы), что в итоге, естественно, равно вероятности того, что кто-то другой пронесет на борт бомбу, то есть как раз тому, с чего он и начинал. Эту шутку с успехом использовали в кинофильме «Мир по Гарпу» (The World According to Garp, 1982). Гарп приценивается к дому, когда в здание врезается легкомоторный самолет. Гарп говорит: «Мы его берем. Шансы, что в него врежется еще один самолет, астрономически малы».

Подробнее о книге «Рациональность» читайте в базе «Идеономики».

Свежие материалы