Лінейная (аг | рэг) рэсія

Карэляцыя, прычынна-следчая сувязь, альтэрнатыўныя сусветы і іншая наркаманія

#statistics

Калі чалавек чытае кнігі Харары, глядзіць Big Bang Theory і ходзіць на лекцыі Асі Казанцавай, ён вельмі модны і ведае як мінімум два смешныя прыклады, калі карэляцыя не роўная прычынна-следчай сувязі. Але маднейшым будзе, калі запытаць: а што роўнае?

Самы шчыры адказ, які можа даць практыкуючы навуковец на пытанне аб тым, што такое прычынна-следчая сувязь, гэта - “да ябіся яно канём”. Не ўсе лічаць такое пытанне асэнсаваным, не кажучы ўжо пра практычную карысць – карысным яго не лічыць амаль ніхто.

Замест, існуе строгая фармалізацыя таго, што такое прычынна-следчы эфект. Прычынна-следчы эфект гэта наўпрост розніца паміж Y калі здараецца Х і калі Х не здараецца: галава баліць, пасля прыняцця аспірыну (X) баліць на 3 з 10 (Y), у альтэрнатыўным сусвеце без аспірыну працягвае балець на 6 з 10 (Y`). Тады прычынна-следчы эфект роўны –3 (Y – Y`). Проста і не вельмі цікава.

Цікава будзе далей. Прыклад вышэй патрабуе наяўнасці альтэрнатыўнага сусвету і доступу да яго. Настолькі ж рэалістычны сцэнар, як нармальнае лета ў Менску ці перамога беларускай апазіцыі на выбарах. Таму, у якасці практычнага кастыля навука выкарыстоўвае рандамізаваныя эксперыменты: набіраем шмат чалавек, выклікаем у няшчасных мігрэнь, палове выпадковым чынам раздаем таблеткі, палове – плацэба і лічым гэтыя дзве групы ідэнтычнымі, а рэалізацыю эксперымента - рэпрэзентацыяй двух альтэрнатыўных сусветаў. Калі эфектыўна адбівацца ад надакучлівых філосафаў з іх дакалупкамі, цалкам працоўная схема.

Выклікаць мігрэнь – гэта весела, але не настолькі, каб не прайсці этычны кантроль. А вось выклікаць, напрыклад, рак – камедыя, якая нікому, апроч нацыстаў у 40-ых, не спадабалася. Тады адкуль мы ведаем, што курэнне выклікае рак лёгкіх? Пра гэта мы і паразмаўляем.

Першая элегантная замена эксперыменту – гэта інструментальныя пераменныя. Калі нас цікавіць эфект Х (курэнне) на Y (працягласць жыцця), нельга проста паглядзець на карэляцыю: тое, што курыльшчыкі жывуць менш, можа быць выклікана, напрыклад, тым, што курыльшчыкі (Х) могуць таксама часцей быць алкаголікамі (Х2 -> X) і калі алкаголь зніжае працягласць жыцця (Х2 -> Y), мы пабачым карэляцыю паміж Х і Y нават калі курэнне ніяк на працягласць жыцця не паўплывае. І яшчэ міліён падобных магчымасцяў.

Інструментальная пераменная (Z) – гэта пераменная, якая ніяк не можа паўплываць на Y, апроч як праз Х. Стандартным прыкладам Z з’яўляюцца акцызы на цыгарэты. Акцызы – гэта закаручкі на паперы, якія здароўе пагаршаць не могуць. Аднак яны паўплываюць на кошты цыгарэт. Адпаведна, павышэнне акцыз можа выклікаць зніжэнне аб’ёмаў курэння (Z –> X) і праз гэты механізм павышаць працягласць жыцця насельніцтва (Z -> X -> Y). Калі ёсць карэляцыя паміж Z і Y, значыць X паўплывае на Y (яна, дарэчы, ёсць і менавіта так у эпідэміялогіі мераюцца негатыўныя эфекты курэння на папуляцыю).

Другая замена эксперыменту – так званы Regression discontinuity design. Уявім, што нас цікавіць эфект стыпендый на акадэмічную паспяховасць. Уявім таксама, што апасля першага курсу студэнтам з сярэднім балам ад 9 давалася стыпендыя і ў другім годзе амаль усе з іх паказалі добрыя вынікі. Ці ёсць пазітыўны эфект стыпендыі на вучобу? Праблема зноў у тым, што альтэрнатыўны сусвет нам недаступны – магчыма, гэтыя студэнты і без стыпендыі былі б лепшымі, як і былі імі на першым курсе. Для вырашэння такіх праблем выкарыстоўваецца т.з. змяншэнне лакацыі – параўноўваюцца толькі студэнты з балам роўна ў 9 і студэнты з наступным мінімальна магчымым балам – скажам, 8.96. Калі можна эфектыўна даказаць, што розніца ў 0.04 – даволі рандомная і не рэпрэзентуе асэнсаванае адрозненне паміж здольнасцямі студэнтаў, можна лічыць дзве групы (студэнты з балам 9 і студэнтаў з балам 8.96) – адной гамагеннай сукупнасцю, а раздачу стыпендыі – рэалізацыяй альтэрнатыўных сусветаў. Можа атрымацца, што студэнты з балам 8.96 працуюць насамрэч лепш, чым тыя, хто атрымаў стыпендыю – больш матывацыі, менш грошаў на геданізм.

Wikipedia

Rubin causal model

The Rubin causal model (RCM), also known as the Neyman–Rubin causal model, is an approach to the statistical analysis of cause and effect based on the framework of potential outcomes, named after Donald Rubin. The name "Rubin causal model" was first coined…

374 viewsedited 17:44