Чому? Нова наука про причинно-наслідковий зв’язок | Джуда Перл, Дана Маккензі

Автори: Джуда Перл, Дана Маккензі 

Щоб нарешті зрозуміти, чи шкідлива кава

«Чому? Нова наука про причинно-наслідковий зв’язок» — це адаптований для широкого загалу варіант наукових публікацій Джуди Перла. Навіщо читати популярне щось про статистику? Причина чисто шкурна (у прямому значенні слова): ми регулярно стикаємося з тим, що «британські вчені встановили», «британські вчені спростували те, що вони встановили днем ​​раніше» або «британські вчені дотримуються прямо протилежних точок зору». Все б нічого, якби ці «відкриття» не стосувалися продуктів регулярного використання (наприклад, кремів та сироваток для обличчя) чи оцінки наших щоденних дій (бігати вранці чи ввечері, біг чи гойдалка — що краще?). Щоб з купи інформації виділяти надійніші джерела, необхідно розуміти статистичні принципи «правильних» досліджень. А у разі повного розчарування протилежних думок вчених — методологічні причини цього.

Інші два моменти: моделювання причинно-наслідкових зв’язків надважливо для розвитку штучного інтелекту, тому теоретичні розробки в цій галузі приблизно вказують на логіку, яку слідуватиме розвиток штучного інтелекту (а нам усім все ж таки цікаво, коли вже нас замінять роботи). Також книга дає уявлення про теоретичну дискусію усередині статистики як науки.

З огляду на все це стверджувати, що книга читається легко, звичайно, не можна. Але все-таки, коли звикаєш до формул (цілком без них у авторів не вийшло), читання стає приємним. Також не можна не відзначити: автор не дуже тактовно відгукується багатьох учених, які займалися статистикою.

Декілька слів про штучний інтелект: Джуда Перл переконаний, що розвиток штучного інтелекту на базі причинно-наслідкових зв’язків — єдино правильний шлях. Його перевага перед глибинним навчанням полягає в тому, що причинно-наслідкові зв’язки є прозорими, а глибинне навчання — ні. Так, хоча розроблена Google програма AlphaGo перемагає професійних гравців, що здавалося неможливим (на відміну від шахів, там занадто багато варіантів і їх неможливо все вивчити), розробники не знають, як вона працює. Джуда Перл упевнений, що роботи мають розуміти умовний спосіб, адже тільки він дозволяє спілкуватися з людьми та гарантує можливість навчання на минулих помилках.

Чим не влаштовує нормальна статистика?

Традиційні статистичні методи загалом показують кореляцію, але з причинно-наслідкові зв’язку. Цю істину втовкмачують у голову всім студентам на курсах статистики. Традиційні методи статистики дозволили виявити безліч закономірностей, але серйозно обмежують можливості пізнання світу у ХХІ столітті. Адже кореляція часом не тільки вводить нас в оману (пісні півня на зорі ніяк не причина сходу сонця), а й не дозволяє відповісти на такі питання: «Яка основна причина одужання пацієнта?», «Що було б, якби населення різко скоротило споживання алкоголю?», «Що буде, якщо змінити податкову ставку?». І безліч інших, для отримання відповіді на які неможливо провести експеримент із контрольною групою. (Останнє стало стандартом у медицині та поступово поширюється і в інших областях.)

Відсутність понятійного апарату для відображення причинно-наслідкових зв’язків – основна причина цього положення. При цьому питання із серії «Що, якщо?» – Невід’ємна частина нашого мислення. У всіх сферах життя ми керуємося саме аналізом того, що відбувається, і роздумами про те, що буде, якщо вчинити так чи інакше. Уява – найважливіший чинник формування людини та розвитку суспільства, як показав Юваль Харарі у своїй книзі «Sapiens. Коротка історія людства».

Щоб збагатити статистичний апарат, Джуда Перл пропонує діаграми зі стрілками (нижче ми розповімо про них докладно). Пункт X і пункт Y з’єднані стрілкою, вістря якої вказує, який показник «прислухається» до іншого. Джуда Перл був першим, хто графічно представив взаємозв’язок двох подій. Причинно-наслідкова революція відбувалася поступово протягом більш як півстоліття.

Завдяки стрілкам – це нововведення лише на перший погляд здається дрібницею, але за фактом вимагає нетривіальних логічних здібностей (не розслабляйтеся) – аналіз вийшов на новий, третій рівень. Сходи показують попередні два: перший – це кореляція, ми лише спостерігаємо за тим, що відбувається (так, аналіз великих даних і штучний інтелект знаходяться на ньому), на наступному рівні ми замислимося про наслідки своїх дій, тобто втручаємося (тут розташовані дослідження з контрольними групами) , на третьому – перехід до умовного способу, коли для відповіді на питання “Що, якщо?” потрібні лише дані та стрілочки, майстерно помножені на звичні статистичні методи.

Кореляція — це причинно-наслідкові зв’язки. Хіба?

Англійський антрополог, географ, психолог Френсіс Гальтон (1822-1911) одним із перших почав аналізувати спадковість. Він розглядав зростання батьків та його синів, і виявив закономірність, відому як «регресія до середніх величин». Тобто висока ймовірність, що у високого батька син буде нижчим на зріст (і навпаки). Якби це було не так, тоді середнє зростання населення серйозно змінювалося б, але воно залишається стабільним. Щоб наочно показати цей процес, він сконструював дошку Гальтона. Якщо кинути одну кульку, то передбачити її розміщення складно, але за тисячі загальний розподіл статистикам сьогодні відомий.

Мал. 1. Дошка Гальтона

Ідею виявленої таким чином «подвійної» кореляції (можна взяти зростання батька чи сина та припустити зростання сина та батька відповідно), яка не є причинно-наслідковим зв’язком, підхопив англійський математик, статистик, біолог та філософ Карл Пірсон (1857–1936). Пірсон побачив у такому підході можливість вивести гуманітарні та соціальні галузі знань (наприклад, психологію) на рівень точних наук, адже з’явилася сувора математична методологія. При цьому аналіз та увага до причинно-наслідкових зв’язків він вважав непотрібними і докорінно невірними. Пірсон заснував науковий журнал Biometrika — провідний у галузі статистики. І завдяки цьому (а також активному розвитку статистичного спрямування в руслі кореляційного аналізу) Пірсон вплинув на те, що «кореляція не виявляє причинно-наслідкових зв’язків» стало де факто аксіомою. З противниками такої точки зору він активно боровся всіма доступними у науковому співтоваристві способами.

Незважаючи на останнє, американський генетик та статистик Сьюалл Райт (1889–1988) активно спирався на ідею причинно-наслідкових зв’язків, коли аналізував забарвлення морських свинок. Так, він пояснював, при врахуванні яких факторів можна було передбачити забарвлення свинки, якщо відоме забарвлення шкірки її предків. При цьому він використовував стрілецьку діаграму. Однак підхід щодо позначення причинно-наслідкових зв’язків саме таким чином не прижився на той момент. У соціології розвинулося моделювання структурними рівняннями (Structural equation modeling), а економіці — система одночасних рівнянь, які дозволяли враховувати причинно-наслідкові зв’язку.

Чому все це було важливо вченим? Наукові підходи спираються філософські концепції. Так, Пірсон був прихильником позитивізму і тому вважав, що наука має ґрунтуватися на об’єктивних даних, фактах, цифрах, тобто статистиці. Тоді як при побудові причинно-наслідкових моделей зі свинками є очевидний суб’єктивний початок: адже вчений спочатку сам вирішує, які фактори могли впливати, і включає їх у модель, цих факторів немає в даних про колір шкірки свинок.

Джуда Перл, пропонуючи методологію обліку причинно-наслідкових зв’язків, упевнений, що опора на вже відомі нам факти при побудові моделей не лише допустима, а й бажана. Треба керуватися здоровим глуздом. Таким чином він продовжує одвічну суперечку всередині наукової спільноти про те, скільки суб’єктивізму допустимо в науці.

Без Холмса нікуди

Як ви пам’ятаєте, Шерлок Холмс за доказами та уривками інформації вибудовував події та знаходив причину того, що відбувається, відкидаючи неймовірні та менш ймовірні пояснення. Як це робити, оперуючи математичною мовою, сформулював Томас Байес (1702–1761). Завдяки Джуде Перлу у 1980-і роки байєсовська ймовірність набула широкого поширення і сьогодні використовується в штучному інтелекті (нейронні мережі тощо). Наприклад, вона є основою ідентифікації жертв трагедій по ДНК, навіть якщо відомі ДНК лише далеких родичів.

Формула Байєса допомагає зрозуміти реальну ймовірність правдивості поставленого діагнозу. Наприклад, при визначенні раку грудей у ​​жінок досить часто зустрічається хибнопозитивний діагноз. У формулу підставляються частки реально хворих на рак, загальної кількості обстежених, тих, хто отримав у результаті обстеження «позитивний» та «негативний» результат. Імовірність, що при позитивному діагнозі жінка хвора на рак — менше одного відсотка (проте слід враховувати спадковість, вік тощо, тут наводяться усереднені дані).

 

Моделі, що ґрунтуються на формулі Байєса, підходять, якщо: АВС . Однак нерідкі випадки, коли причинно-наслідкові зв’язки швидше підходять під схему АВС або схему АВС .

Що робити зі спотвореннями

У статистиці є таке поняття, як спотворюючий фактор. Наприклад, якщо ми хочемо з’ясувати, як піші прогулянки (X) впливають на тривалість життя (Y), то не варто забувати, що фактор «вік» (Z) впливає як на інтенсивність прогулянок, так і на тривалість життя (80-річна людина) швидко не ходить і, мабуть, не проживе стільки ж, скільки 20-річний). 

Тому при розрахунках фактор Z контролюють. Один із способів — рандомізоване контрольоване випробування (вперше було випробувано у 1923–1924 роках у сільському господарстві, коли поле ділилося на квадрати і те чи інше добриво тестувалося у довільному порядку). Але оскільки буває складно розрізнити ті фактори, які лише корелюють між собою, і ті, які справді впливають, тобто щось «роблять», часом трапляється, що вчені контролюють не ті фактори (або навіть ті, які хочуть проаналізувати).

 

Існують різні прояви Z-фактору. 

Z нагадує спотворюючий чинник, але не є. І тут Z — це медіатор, тобто даний чинник лише пояснює, як X впливає на Y (контролювати зайве).

І тут Z — це проксі медіатора M (контролювати зайве). 

В цьому випадку не треба контролювати жодної змінної при аналізі впливу X на Y (немає жодного фактора, який одночасно впливав би на X і Y і тому не дозволяв встановити чистий вплив першого на другий).

 

В цьому випадку необхідно контролювати B, якщо ж такої можливості немає, то можливе лише рандомізоване контрольоване випробування. 

В цьому випадку жодний із факторів не треба контролювати (хоча нерідко намагаються контролювати B, це називається M-bias).

У цьому випадку слід контролювати змінну C.

У тютюновому диму не розгледіти ні зги

У першій половині XX століття різко зросла частка курців, це стало модно, а й промислове виробництво сигарет дозволило викурювати їх більше, курець більше не витрачав часу на крутку. Тютюнові компанії вели агресивні рекламні компанії.

Сьогодні науково доведено, що куріння є причиною раку легень. Але на докази знадобилися довгі роки. Перші дослідження про шкоду куріння з’явилися наприкінці 1940-х. Однак було два фактори, які активно критикували противники: (а) дослідження були ретроспективними (тобто ставилося питання «Наскільки активно ви курили?» і була ймовірність, що опитувані відповідали неточно); (б) висловлювалося припущення, що існує особливий ген, який відповідає за те, що деякі люди більш схильні до раку при курінні або цей ген веде до більш активного куріння.

Враховуючи етичну сторону питання, рандомізовані експерименти з контрольними групами були неможливими. Тому стартували лонгітудні дослідження, які вже через п’ять років показали, що курці значно частіше захворювали на рак легень.

У процесі дискусії про шкоду тютюну в 1960-і роки було сформульовано визначення, коли при спостережуваній кореляції можна говорити про причинно-наслідкові зв’язки (адже в той момент класична статистика визнавала тільки кореляцію і відмовлялася бачити причинно-наслідкові зв’язки, що часом ховаються за нею) — так звані критерії Хілла (можуть спостерігатися лише деякі, спочатку було п’ять факторів, пізніше додали ще кілька).

• стійкість: багато досліджень, проведених у різних умовах, показують той самий результат;
• сила: асоціативний зв’язок між дією та ефектом має бути сильним;
• специфіка: один конкретний фактор викликає конкретний специфічний ефект;
• тимчасова залежність: ефект слід завжди за причиною;
• обґрунтованість: виявлена ​​закономірність не суперечить іншим знанням у цій галузі, отриманим в інших дослідженнях.  

У результаті з 1970-х років проводиться активна політика щодо зниження частки курців у розвинених країнах (заборона реклами на ТБ тощо).

До речі, через десятиліття дослідники виявили, що в деяких людей є ген, який і справді відповідальний за активніший розвиток ракових клітин при курінні, проте його вплив настільки незначний, що пояснити їм різке зростання раку легенів у першій половині XX століття не можна.

Ще в 1960-і роки була виявлена ​​закономірність, що недоношені діти матерів, що палять, частіше виживали, ніж недоношені новонароджені матерів, що не палять. Невже куріння корисне?

Ні, насправді «вага новонародженого» невірно використовувалася як фактор, тоді як насправді він був медіатором, який міг вказувати як на те, що (а) мати курила, (б) інші серйозні захворювання дитини. Відповідно, в останньому випадку смертність була вищою, тоді як частка курілих породіль була мала.

Декілька парадоксів

Графічні схеми покликані допомогти в тих ситуаціях, коли складно навскідку розрахувати ймовірність подій, особливо якщо є відволікаючі моменти або з’являється нова інформація, яку людина забуває врахувати і скоригувати розрахунок ймовірності. 

Парадокс Монті Холла. Ілюструє саме останню ситуацію. На американському телешоу Let’s Make a Deal учасник стояв перед трьома зачиненими дверима. За однією була машина, за двома іншими по козі. Перший хід був за учасником. Він вибирав одну з дверей (двері не відчиняли). Другий хід — ведучий відкривав одну з двох інших дверей, за якими не було машини. Третій хід – гравець вибирає з двох варіантів – відкриває обрані на першому кроці двері або ті, які не відкрив ведучий.

Найоптимальніше – міняти двері на третьому кроці. Оскільки на першому кроці ймовірність потрапляння була 1/3, але після отримання додаткової інформації (крок два) необхідно перерахувати ймовірність при зміні дверей вона зростає до 2/3. (Вірогідність не змінювалася б, тільки якби ведучий відкривав будь-які двері — але він відкривав завжди ту, за якою не було машини).

Якщо гравець обирає перші двері на першому кроці, розглянемо всі можливі випадки:

Парадокс Берксона. Спостерігається тоді, коли дві незалежні одна від одної події за умовного наступу третьої здаються взаємопов’язаними. Наприклад, чоловікам у пошуку, які активно запрошують жінок, які їх зацікавили на побачення, може здатися, що красуні особливо тупі. Але це не так, адже страшненьких вони просто не запрошують. Найчастіше цей парадокс спостерігається в медичних дослідженнях, коли, наприклад, два рідкісні захворювання позитивно корелюють серед тих, хто потрапив до лікарні, хоча в населенні загалом ця закономірність не спостерігається.

Парадокс Сімпсон. Трапляється, як у двох групах даних спостерігається однакова залежність (ліки не допомагає), але за їх об’єднанні залежність протилежна (ліки допомагає). Так, 5% жінок у контроль-групі пережили інфаркт, тоді як у групі, яка приймає ліки, їх було 7,5%. У чоловіків аналогічна ситуація: 30% — у контрольній та 40% — у групі тих, хто приймає ліки. Але при об’єднанні множин виявляється, що 22% серед контрольної групи проти 18% серед тих, хто приймає ліки, пережили інфаркт. Це відбувається тому, що вибір фактора «підлога» невірний, тим більше що серед чоловіків інфаркти частіше.

 

Що робити, якщо не все відомо

Все описане вище було фактично про перший щабель сходів причинно-наслідкового зв’язку. Зараз мова піде про другу, коли можна зіставити фактор do (Y) і просто (Y) або ввести фактор дії в полі аналізу.


Ще раз про куріння

Як вже було сказано, ген, що сприяє раку при курінні, все ж таки існує, і можна було б поставити питання, як визначити вплив куріння на розвиток раку, якщо ніякої можливості заміряти вплив даного гена немає?

 

У цьому випадку аналізується вплив куріння на скупчення смоли на легені, а також дані контрольної групи некурців. Далі – ймовірність раку при тій чи іншій кількості смоли в легенях. Таким чином, вводиться показник «смола», на який прямого і значущого впливу гена бути не може, але на нього впливає «паління».


Як заразитися холерою?

У 1854 році в Лондоні був спалах холери на Брод-стріт. У той момент лікарі не знали, яким чином відбувається зараження, поширеною була думка, що повітряно-краплинним шляхом. Лікарю Сноу вдалося виявити, що холера поширюється через воду. Він проаналізував усі випадки зараження і виявив кілька кейсів, коли ті, хто живе в інших районах, заразилися, але вони бували на Брод-стріт рідко — приїжджали тільки за водою. При цьому далеко не у всіх будинках вулиці були випадки зараження.

Тому, говорячи графічною мовою, Сноу ввів зовнішню змінну, яка впливала на якість води, — компанію, яка постачає воду. Виявилось, що вулицю обслуговували дві компанії. Одна набирала воду вище за Лондон, інша нижче за течією Темзи. Саме вода останньої була заразною.

Як бути з умовним способом

Філософи та представники різних наук нерідко замислювалися про те, як бути з міркуваннями про гіпотетичне: як їх записувати і чи можна це робити (якщо йдеться про статистику), чи випливає з таких міркувань, що гіпотетичні можливості реально десь існують (якщо ми можемо собі уявити). Але для Джуди Перла це не так важливо. Принципово, що людина постійно оперує такими ідеями і вибудовує цій підставі свої дії (чи то питання етики чи повсякденних покупок). Тому основне питання зводиться до того, як оптимально записати такий хід мислення у схематичному вигляді, придатному для моделювання та штучного інтелекту.

У статистиці були розроблені методи заповнення осередків зі знаками питань. Тобто: скільки б заробляла Аліса, якби закінчила університет? Перший спосіб – знайти повний збіг, другий спосіб (якщо повного збігу немає) – наближений збіг, третій спосіб – лінійна регресія.

 

Лінійна регресія мала б приблизно такий підхід: за відправну точку було б взято заробітну плату людини без досвіду роботи і без освіти ($65 тисяч), далі виявлено, що за кожен рік досвіду роботи заробітна плата збільшується на $2,5 тисячі, потім додається виявлена ​​надбавка за освіту – $5 тисяч. У результаті ми дійшли б висновку, що за наявності університетського диплома Аліса заробляла б 85 тисяч доларів.

Проте лінійна регресія не враховує те, що тривалість освіти впливає тривалість досвіду роботи. Якби це враховувалося в лінійній регресії, то відповідь була б 76 тисяч доларів. Звичайно, це також імовірнісна величина, але вона, схоже, наближена до реальності, ніж варіант, коли вплив освіти на досвід роботи не враховується.

 

Що, якщо фактор має непрямий вплив?

Досить часто йдуть дебати про те, що важливіше для високої IQ дитини – IQ батьків або їхнє соціальне становище. Тому нерідко змінна «соціальна ситуація» може контролюватись. У той самий час очевидно, що «соціальне становище» — це проксі (медіатор) непрямого (X графікою) і прямого впливу змінної «IQ батьків».

Інший приклад, коли розрахунки ефективності проводилися без чіткого розуміння причинно-наслідкових зв’язків та факторів, що впливають. У 1990-х роках у школах Чикаго, які серйозно відставали від середньоамериканського рівня, було розпочато програму «Алгебра для всіх»: всі дев’ятикласники повинні були відвідувати повний курс математики, необхідний для вступу до коледжу.

Простий аналіз успішності школярів Чикаго (порівняння років випуску «до» і «після» початку програми) показав, що програма була успішною. Однак, як знає кожен викладач, дуже складно підтримувати успішність на високому рівні, якщо у класі діти різного рівня та зацікавленості у предметі. Середовище впливає. Коли дослідники врахували цей фактор, то з’ясувалося, що програма мала менш очевидний позитивний ефект, а зростання оцінок пояснювалося лише змінами методології викладання в ранніх класах (у них також була реформа, яку не врахували перші дослідники). Коли ці результати стали очевидними, то програму «Алгебра для всіх» реформували: відстаючі повинні були відвідувати вдвічі більше занять, ніж ті, хто добре встигає.

10 найкращих ідей на одній сторінці

1. Традиційні статистичні методи загалом показують кореляцію, але з причинно-наслідкові зв’язку. Для відображення причинно-наслідкових зв’язків у статистиці немає понятійного апарату. 

2. Кореляція періодично вводить нас в оману, а також не допомагає відповісти на питання, для яких потрібні експерименти з контрольною групою (наприклад, чому пацієнт одужав?).

3. Щоб збагатити статистичний апарат, Джуда Перл пропонує представляти взаємозв’язок подій графічно (за допомогою діаграм зі стрілками, де вістряко показує, який показник «прислухається» до іншого). 

4. Прагнення традиційної статистики аналізувати дані без урахування життєвого досвіду та багажу знань, що аналізує докорінно невірно. Запропонована Джудою Перлом методика вирішує цю проблему. Здоровий глузд — основа будь-якого аналізу.

5. Історія боротьби з курінням показує, що відрив наукових практик від здорового глузду та реальності може стати небезпечним для суспільства, адже активна державна політика могла розпочатися на кілька років раніше та врятувати життя.

6. Здоровий глузд необхідний, але його недостатньо. Потрібний чіткий алгоритм аналізу, оскільки людину легко ввести в оману при розрахунку ймовірності та інших речей, як показують парадокси (Монті Холла, Берксона, Сімпсона).

7. Розвиток статистики у запропонованому Джудою Перлом напрямі дозволять оптимальніше реагувати на медичні діагнози та вибирати протокол подальшого лікування (як показує приклад із точністю діагнозів раку грудей).

8. Здоровий глузд необхідний, оскільки зрозуміти, чи спотворює якийсь фактор результати чи ні, можна лише шляхом логічного міркування.

9. Виявлені помилки традиційної статистики Джуда Перл частково пояснює тим, що вчені спиралися на філософію позитивізму, за якою наука має ґрунтуватися на об’єктивних фактах, цифрах.

10. Джуда Перл упевнений, що розвиток статистики в запропонованому напрямку дозволить штучному інтелекту вийти на новий рівень, оскільки до цього моменту він базувався в основному на традиційному аналізі даних, а це значно відрізняється від алгоритму розумового процесу людини.