Лінейная (аг | рэг) рэсія
1.32K subscribers
81 photos
3 files
136 links
Пра даныя і як іх прыстасаваць да штодзённасці

Мяне можна знайсці

У твітары: https://twitter.com/aliaksandr_k
Англ: https://twitter.com/unfriendlydata
На лінкачы: https://www.linkedin.com/in/aliaksandr-kazlou-b5a86411b/
Ці ў тг: @shurackapalieski
Download Telegram
Карэляцыя, прычынна-следчая сувязь, альтэрнатыўныя сусветы і іншая наркаманія

#statistics

Калі чалавек чытае кнігі Харары, глядзіць Big Bang Theory і ходзіць на лекцыі Асі Казанцавай, ён вельмі модны і ведае як мінімум два смешныя прыклады, калі карэляцыя не роўная прычынна-следчай сувязі. Але маднейшым будзе, калі запытаць: а што роўнае?

Самы шчыры адказ, які можа даць практыкуючы навуковец на пытанне аб тым, што такое прычынна-следчая сувязь, гэта - “да ябіся яно канём”. Не ўсе лічаць такое пытанне асэнсаваным, не кажучы ўжо пра практычную карысць – карысным яго не лічыць амаль ніхто.

Замест, існуе строгая фармалізацыя таго, што такое прычынна-следчы эфект. Прычынна-следчы эфект гэта наўпрост розніца паміж Y калі здараецца Х і калі Х не здараецца: галава баліць, пасля прыняцця аспірыну (X) баліць на 3 з 10 (Y), у альтэрнатыўным сусвеце без аспірыну працягвае балець на 6 з 10 (Y`). Тады прычынна-следчы эфект роўны –3 (Y – Y`). Проста і не вельмі цікава.

Цікава будзе далей. Прыклад вышэй патрабуе наяўнасці альтэрнатыўнага сусвету і доступу да яго. Настолькі ж рэалістычны сцэнар, як нармальнае лета ў Менску ці перамога беларускай апазіцыі на выбарах. Таму, у якасці практычнага кастыля навука выкарыстоўвае рандамізаваныя эксперыменты: набіраем шмат чалавек, выклікаем у няшчасных мігрэнь, палове выпадковым чынам раздаем таблеткі, палове – плацэба і лічым гэтыя дзве групы ідэнтычнымі, а рэалізацыю эксперымента - рэпрэзентацыяй двух альтэрнатыўных сусветаў. Калі эфектыўна адбівацца ад надакучлівых філосафаў з іх дакалупкамі, цалкам працоўная схема.

Выклікаць мігрэнь – гэта весела, але не настолькі, каб не прайсці этычны кантроль. А вось выклікаць, напрыклад, рак – камедыя, якая нікому, апроч нацыстаў у 40-ых, не спадабалася. Тады адкуль мы ведаем, што курэнне выклікае рак лёгкіх? Пра гэта мы і паразмаўляем.

Першая элегантная замена эксперыменту – гэта інструментальныя пераменныя. Калі нас цікавіць эфект Х (курэнне) на Y (працягласць жыцця), нельга проста паглядзець на карэляцыю: тое, што курыльшчыкі жывуць менш, можа быць выклікана, напрыклад, тым, што курыльшчыкі (Х) могуць таксама часцей быць алкаголікамі (Х2 -> X) і калі алкаголь зніжае працягласць жыцця (Х2 -> Y), мы пабачым карэляцыю паміж Х і Y нават калі курэнне ніяк на працягласць жыцця не паўплывае. І яшчэ міліён падобных магчымасцяў.

Інструментальная пераменная (Z) – гэта пераменная, якая ніяк не можа паўплываць на Y, апроч як праз Х. Стандартным прыкладам Z з’яўляюцца акцызы на цыгарэты. Акцызы – гэта закаручкі на паперы, якія здароўе пагаршаць не могуць. Аднак яны паўплываюць на кошты цыгарэт. Адпаведна, павышэнне акцыз можа выклікаць зніжэнне аб’ёмаў курэння (Z –> X) і праз гэты механізм павышаць працягласць жыцця насельніцтва (Z -> X -> Y). Калі ёсць карэляцыя паміж Z і Y, значыць X паўплывае на Y (яна, дарэчы, ёсць і менавіта так у эпідэміялогіі мераюцца негатыўныя эфекты курэння на папуляцыю).

Другая замена эксперыменту – так званы Regression discontinuity design. Уявім, што нас цікавіць эфект стыпендый на акадэмічную паспяховасць. Уявім таксама, што апасля першага курсу студэнтам з сярэднім балам ад 9 давалася стыпендыя і ў другім годзе амаль усе з іх паказалі добрыя вынікі. Ці ёсць пазітыўны эфект стыпендыі на вучобу? Праблема зноў у тым, што альтэрнатыўны сусвет нам недаступны – магчыма, гэтыя студэнты і без стыпендыі былі б лепшымі, як і былі імі на першым курсе. Для вырашэння такіх праблем выкарыстоўваецца т.з. змяншэнне лакацыі – параўноўваюцца толькі студэнты з балам роўна ў 9 і студэнты з наступным мінімальна магчымым балам – скажам, 8.96. Калі можна эфектыўна даказаць, што розніца ў 0.04 – даволі рандомная і не рэпрэзентуе асэнсаванае адрозненне паміж здольнасцямі студэнтаў, можна лічыць дзве групы (студэнты з балам 9 і студэнтаў з балам 8.96) – адной гамагеннай сукупнасцю, а раздачу стыпендыі – рэалізацыяй альтэрнатыўных сусветаў. Можа атрымацца, што студэнты з балам 8.96 працуюць насамрэч лепш, чым тыя, хто атрымаў стыпендыю – больш матывацыі, менш грошаў на геданізм.
"Прыгожую ці разумную", "Багатага ці добрага" альбо іншыя фундаментальныя пытанні патрыярхальнага грамадства часоў позняга капіталізму

#statistics #everyday

Выбіраць сабе партнёра з дапамогай статыстычнага аналізу, вымярэнняў і тэстаў ёсць вельмі эфектыўнай стратэгіяй: так вы пераканаеце патэнцыйнага партнёра ў сваёй адэкватнасці, высокай ступені эмпатыі і адсутнасці аўтызму. Але для таго, каб гэта рабіць, патрэбныя дадзеныя. Зараз мы гэтым і займемся.

Характар людзей звычайна мераюць з дапамогай Big 5 personality traits model. Яна складаецца з 5 характарыстык: Conscientiousness (адказнасць/сабранасць/добрасумленнасць), Extraversion, Neuroticism, Agreeableness і Openness to Experience. Трэба разумець, што гэтыя характарыстыкі не з’яўляюцца эмпірычнымі сутнасцямі самі па сабе, але зручна апісваюць комплексную эмпірычную рэальнасць чалавечага характара. І важна не блытаць мадэлі з тым, што яны апісваюць.

Падабенства характараў мае пазітыўны ўплыў спачатку і таму ёсць шмат доказаў. Аднак, яно мае негатыўны ўплыў на доўгатэрміновае задавальненне шлюбам, калі разглядаць перыяд ад 10 да 20 год. Асабліва негатыўны ўплыў мае падабенства па Conscientiousness і Extraversion. Пры гэтым, падобныя па Extraversion пары і першапачаткова мелі ніжэйшую задаволенасць шлюбам, тады як падабенства па Conscientiousness напачатку не мае ніякага негатыўнага эфекту, але істотным чынам спрыяе дэградацыі шлюба з часам.

Выглядае, што двум арганізаваным, працавітым і амбіцыёзным выпускнікам умоўнага МДЛУ прасцей сыйсціся, асабліва калі толькі адзін з іх – флексер і ўмее ў каралеўскі ніжні брэйк, а другі аддае перавагу серыялам, кнігам ці Доце. Аднак, пры нарастанні істотнасці эфектыўнага размежавання абавязкаў (напрыклад, са з’яўленнем дзяцей), пры падабенстве па Conscientiousness нарастае канфлікт інтарэсаў: у абодвух амбіцыі, у абодвух ПРАВІЛЬНАЕ разуменне таго, як і што рабіць, якое яны змяняюць з вялікімі цяжкасцямі.

Калі разглядаць індывідуальныя характарыстыкі, то высокі бал у Neuroticism негатыўны паўплывае на задавальненне шлюбам, тады як высокі бал у Agreeableness, Conscientiousness і Openness to Experience – пазітыўна. Для Extraversion дакладнай карэляцыі знайсці не атрымалася. Наўрад ці гэта вельмі шакуючыя навіны: нікому не падабаюцца шуганыя неўротыкі, усім падабаюцца арганізаваныя, адкрытыя да новага досведу людзі, з якімі лёгка дамаўляцца.

Калі цікава, тэст на Big 5 можна прайсці тут ці тут.

Цяпер пра тое, што хвалюе кожнага беларуса: заробак. Вядома, што гістарычна рост фінансавай незалежнасці жанчын спрыяў большай ініцыяцыі разводаў з іх боку. Аднак для сучасных шлюбаў, ні фінансавая незалежнасць жанчын, ні агульны прыбытак сям’і не карэлююць з верагоднасцю разводу. Адзіная рэч, якая з ёй карэлюе – адсутнасць у мужчын full-time працы, што вядзе да значнага павелічэння рызыкі разводу. Ведаю, я сам у шоку.

Куды цікавей залежнасць паміж адносным заробкам і здрадамі. Графік настолькі прэкрасны, што вельмі раю да яго дагартаць: старонка 483 выдання, альбо 15/27 самаго pdf. Уявім шкалу, дзе -1 рэпрэзентуе, што зарабляе толькі мужчына, +1 – тое, што зарабляе толькі жанчына, а 0 – аднолькавы заробак. У жанчын залежнасць строга лінейная: з ростам значэння на шкале верагоднасць здрады падае, з 5.5% пры -1 да 1.8% пры +1. Для мужчын залежнасць куды весялей: пры -1 верагоднасць здрадзіць каля 14.5%, потым яна імкнецца да свайго мінімума на адрэзку -0.1 да +0.2 (каля 3%), потым зноў пачынае расці і на +1 выходзіць на 4%. Выснова для жанчын: бярыцеся шлюбам з тымі, хто зарабляе на 20% менш.

Калі спрабаваць тлумачыць гэты феномен, можна звярнуць увагу на гетэрагенны эфект адукацыі: так, каля 85% жанчын лічыць, што пул патэнцыйных партнёраў зменшыўся апасля атрымання імі ступені, тады як 90% мужчын лічыць, што адукацыя наадварот павялічыла колькасць даступных ім партнёраў.
"Прыгожую ці разумную", "Багатага ці добрага" альбо іншыя фундаментальныя пытанні патрыярхальнага грамадства часоў позняга капіталізму. Частка 2

#statistics #everyday

Увесь тыдзень я абмяркоўваю са сваімі знаёмымі папярэдні пост пра статыстыку і пошук партнёраў. Натуральна, усе мы малпачкі і гэтая тэма усіх нас цікавіць. Я вырашыў яе працягнуць, аддаўшы цяпер павагу нашым далёкім продкам.

Некалькі слоў пра біялагічныя тлумачэнні паводзінаў людзей. Яны выклікаюць вялікую незадаволенасць пэўных колаў больш гуманітарнай акадэміі. З аднаго боку, гэта вылікана спадчынай сацыяльнага дарвінізму і папулярнымі некалі практыкамі апраўдваць “прыродай” прымус і эксплуатацыю: іншых рас, іншых народаў, жанчын. З іншага боку, гэта выклікана нізкай падрыхтаванасцю гэтых колаў ў плане эмпірычных даследванняў. Агулам, трэба заўсёды памятаць, што чалавечыя паводзіны комплексныя, на іх уплывае мноства чыннікаў і нават калі біялагічныя тлумачаць частку варыяцыі, яны ніколі не тлумачаць усю.

У Швецыі існуе база дадзеных па адаптаваных дзецях. Як правіла, менавіта такія дадзеныя выкарыстоўваюцца для размежавання сацыяльных і біялагічных эфектаў, асабліва калі біялагічныя бацькі ніякім чынам у выхаванні дзяцей не ўдзельнічалі. Прыкладна год таму выйшла даследванне каля 20.000 адаптаваных дзяцей на прадмет патэрнаў іх сямейнага жыцця.

У выбарку траплялі дзеці, адаптаваныя да 10 год ў поўныя сем’і, толькі пры наяўнасці дадзеных пра біялагічных бацькоў. Гэта дазваляе параўноўваць патэрны сямейнага жыцця паміж імі, іх біялагічнымі і легальнымі бацькамі. Вынікі наступныя: развод легальных бацькоў уплывае на развод дзяцей ў межах ад -14% да +7%, тобок ніяк не паўплывае; развод біялагічных бацькоў строга павялічвае шанец разводу дзяцей, ад +13% да +31%.

Але, у мяне ёсць некалькі пытанняў да гэтага даследвання. Па-першае, планка “да 10 год” падаецца даволі высокай, бо значныя этапы сацыялізацыі ўжо паспелі адбыцца. Гэтую праблема можна было б вырашыць проста ўключыўшы ў аналіз ўзрост адаптацыі. Але гэтага я не знайшоў, што вылікае падазрэнні. Па-другое, адсутнічае кантроль за камунікацыяй паміж адаптаванымі дзецьмі і іх біялагічным бацькамі. Калі такая камунікацыя магчымая, біялагічныя бацькі ўсё яшчэ могуць выступаць для сваіх дзяцей сацыяльным прыкладам. Магчыма, такая камунікацыя абмяжоўваецца законам, напрыклад праз нераскрыццё інфармацыі пра біялагічных бацькоў, але з артыкулу гэта не зразумела, а па-швецку я не чытаю.

Таксама, даволі даўно вядома, што развод аднаго з моназіготных блізнят у значна большай ступені павялічвае верагоднасць разводу другога, у параўнанні са звычайнымі (гетэразіготнымі) братамі і сёстрамі. З улікам таго, што моназіготныя блізняты генэтычна нашмат больш падобныя, гэты факт кажа на карысць наяўнасці генэтычных чыннікаў разводаў.

Цяпер паразмаўляем пра тое, аб чым вы ўсе разважаеце перад сном: пра ваш major histocompatibility complex (HLA). HLA - гэта генэтычны кластэр, які ў вялікай ступені адказвае за адаптыўную імунную сістэму. Прынамсі, гэта тое, як я гэта зразумеў апасля 20 хвілін кавырання ў гугле. Вядома, што вялікая колькасць млекакормячых шукае сабе сэксуальным партнёраў з адрозным HLA, што вядзе да больш варыятыўнай і таму больш эфектыўнай імуннай сістэмы нашчадкаў. Карыстаюцца яны для гэтага сваім абаняннем.

Пытанне ў тым, ці існуюць аналагічныя патэрны сярод людзей. Канешне ж існуюць. Сама здольнасць людзей аддаваць перавагу пахам на падставе ступені адрознення HLA не з’яўляецца вельмі добра даказанай, бо існуюць эксперыменты з канкуруючымі вынікамі. Аднак добра вядома, што ступень адрознення HLA пастаянных партнёраў большая, чым можна было б чакаць by chance. Пры гэтым, нават сярод пастаянных партнёраў большае адрозненне HLA карэлюе са ступенню задаволенасці адносінамі, сэксуальным задавальненнем, а таксама жаданнем завесці дзяцей. Цікава, што першыя дзве залежнасці назіраюцца як сярод мужчын, так і сярод жанчын, але апошняя - жаданне завесці дзяцей ад HLA адрознага партнёра - назіраецца толькі сярод жанчын, тады як мужчын HLA маці сваіх патэнцыйных дзяцей пакідае раўнадушным.
Дзякуй дзеду за перамогу мабільнасць паміж пакаленнямі

#statistics #history

Звычайна кажуць, што ў сучасным грамадстве карэляцыя паміж заробкам ці дабрабытам паміж пакаленнямі падае геаметрычна: калі карэляцыя заробку дзяцей і бацькоў - 0.5, карэляцыя з заробкам дзеда будзе 0.25, з заробкам прадзеда - 0.125 і г.д.

Ёсць забаўная папера, якая спрабуе гэта праверыць на дыстанцыі ў 20 пакаленняў. Калі ёй верыць, залежнасць куды больш сур'ёзная.

Трэба адразу сказаць, што ў паперы шмат статыстычных рашэнняў, у якіх лёгка накасячыць. Мне лянота іх правяраць, я ў палове не разбіраюся. Веру ў тое, што рабяты пастараліся.

А рабяты і праўда пастараліся. Знайшлі падатковыя дадзеныя жыхароў Фларэнцыі за 1427, прабач госпадзі, год. Знайшлі такія ж дадзеныя, але за 2011 год. Праз прозвішчы, нейкім чынам супаставілі, хто чый продак і ацанілі, як заробак і дабрабыт продка з 1427 году карэлюе з заробкам і дабрабытам нашчадка з 2011. Ёсць разбіўка па прафесіях нават, абсалютна захапляльна.

Што знайшлі. Знайшлі эластычнасць у 0.045 па заробку. Ну, тобок: дзед Джавані зарабіў за 1427 год 36.2 флорыны (сярэдні заробак). А сам Джавані за 2011 зарабіў 10000 еўра. У сябра Джавані дзед зарабіў 72.4 флорыны, у два разы больш. Тады сябар Джавані зарабляе прыкладна 10450 еўра ў год, на 450 еўра больш. З аднаго боку, не так шмат. З іншага боку, 600 год прайшло

Больш паказальная карціна, калі ўсіх разбіць на вышэйшы, сярэдні і ніжэйшы клас, па 33% кожны. Сачыце за рукамі:

Калі ў твайго продка не было ніякіх накапленняў у 1427 і ён трапляў у ніжэйшы клас, твае шанцы там застацца ў 2011 - 42%. А вось калі ў цябе быў багаты продак, твае шанцы трапіць у ніжэйшы клас у 2011 - толькі 27%. Нагадваю, прайшло 600 год.
Зоркі аўтарытарнай мадэрнізацыі і беларуская эканамічная навука

#statistics #belarus

Ёсць такая зорка беларускай аўтарытарнай мадэрнізацыі як Кірыл Руды. Кірыл Руды - прафесара кафедры сусветнай эканомікі і доктар эканамічных навук. У яго ёсць артыкул у часопісе “Банкаўскі веснік”, за люты 2021, пад назвай “О политэкономии финансовой стабильности”. Там ён мадэлюе “взаимосвязь между долгосрочным экономическим ростом и динамикой политических предпочтений”. Ну, груба кажучы, спрабуе “прадказаць” ці “патлумачыць”, чаму ў некаторых краінах падтрымліваюць дэмакратыю, у некаторых - аўтарытарных лідараў, ці ваенных і г.д.

Нас цікавіць ягоная лінейная мадэль “прадказання” ці “тлумачэння” узроўню падтрымкі ваенных. R^2 гэтай мадэлі - 1. Калі вам не смешна, віншую - вы здаровы чалавек. Мне вельмі смешна і зараз я буду тлумачыць так, каб і вам было. Спачатку будзе крыху нудна, але заставайцеся на сувязі - потым будзе забаўна.

Я буду спрошчваць і апускаць дэталі, але для папулярнага тлумачэння пойдзе. Уявіце сабе, як у школе, каардынатную плоскасць. X у нас будзе “аб’ём экспарту фіялак”, а Y - “колькасць забойстваў на душу насельніцтва”. Цяпер паставім адну кропу, Беларусь. Праз нашую няшчасную Беларусь можна правесці прамую лінію. Цяпер дакінем яшчэ кропку, Уганду. Праз любыя 2 кропкі на каардынатнай плоскасці таксама можна правесці прамую лінію. Такім чынам, усе нашыя кропкі ляжаць на прамой лініі і гэтая прамая лінія ідэальна “тлумачыць” залежнасць колькасці забойстваў ад экспарту фіялак, і фіялкамі можна беспамылкова прадказваць забойствы. R^2, альбо “якасць падгонкі” такой лінейнай мадэлі будзе 1, ідэальная. Як у Кірыла Рудага. А вось калі мы дакінем яшчэ кропку, прамую лінію ўжо не абавязкова атрымаецца правесці так, каб усе тры з іх ляжалі на ёй. Можна, але не абавязкова.

Цяпер уявім трохмерную прастору: экспарт фіялак, папулярнасць гурту РСП і колькасць забойстваў. Праз адну, дзве ці тры кропкі на гэтай прасторы заўсёды можна правесці плоскасць. І R^2 будзе 1. Ідэальная мадэль. А праз чатыры - ужо не абавязкова. Не складана здагадацца, як гэта абагульніць: калі на прасторы, сфармаванай N пераменнымі, ляжыць N ці менш кропак, праз іх заўсёды можна правесці N-1 гіперплоскасць. І заўсёды атрымаць R^2 = 1 (насамрэч для той мадэлі, якой карыстаецца Руды, гэта справядліва і для N+1 кропак, але тое тэхнічныя дэталі).

Іншы папулярны метад стрэльнуць сабе ў нагу і атрымаць ідэальную мадэль - гэта прадказваць пераменную з дапамогай гэтай ж пераменнай. Ну, колькасць забойстваў з дапамогай колькасці забойстваў. Ідэальнае прадказанне, R^2 = 1.

Што канкрэтна нарабіў Кірыл Руды я не ведаю. З таго, што напісана ў тэксце, памылку рэканструяваць нельга. У яго 38 краін для аналізу і 13 пераменных. Падазраю, недзе згубіў больш паловы сваіх назіранняў.

Памылкі робяць усе. Памылкі такога кшталту ўвогуле здараюцца часта. Нармальная рэакцыя на гэта - пабачыць, што ў цябе R^2 = 1, зрабіць кавы і пачаць разбірацца, дзе ты накасячыў. Тое, што ў Кірыла Рудага, ці ў аспірантаў у ягоным рабстве, якія насамрэч пісалі гэты артыкул, нічога не стрэльнула ў галаве, ёсць даволі іранічным. Тое самае тычыцца рэцэнзентаў, якія гэты артыкул правяралі і дапускалі да публікацыі.

А разгадка простая: беларуская эканамічная навука ў заўважнай ступені - карга-культны карга-культ, дзе шмат у каго мала ўяўлення пра тое, чым яны спрабуюць займацца.
#war #statistics #belarus

Пад’ехала чарговае апытанне пра стаўленне беларусаў да пуцінскай вайны з Украінай. У адрозненні ад папярэдняга апытання, якое я скідваў, цяпер у нас не тэлефоннік, а інтэрнэт-панэль.

З большага, лічбы падобная. Жадаюць удзелу Беларусі ў вайне супраць Украіны 3% (магія). У тэлефонніку такіх было 11%.

Падтрымліваюць дзеянні расіі ў той ці іншай форме 8% - 39%, у залежнасці ад пытання. У тэлефонніку было ~25-40%

Самай “папулярнай” формай падтрымкі ёсць “Поддержать действия России, но не вступать в военный конфликт” - 28%. Не жадаюць падтрымліваць расію, хочуць вываду войска/нейтралітэту/падтрымаць Украіну/ваяваць за Украіну - 45%.

З большага, гэтая пара апытанняў выглядае адэкватна: на інтэрнэт-панэлі лічбы крыху лепш, на тэлефонніку - крыху горш, але з большага яны падобная. З улікам таго, што нічога лепшага мы верагодна не атрымаем, я б на іх арыентаваўся як на лепшую прыкідку.
#statistics #everyday

Чытаў вясёлы артыкул, як карэйцы і японцы бяруцца шлюбам - на радзіме і ў ЗША.

Кавалеры-эмігранты карэйскага і японскага паходжання бяруцца шлюбам з амерыканкамі не сваёй этнічнасці толькі ў 16% выпадкаў. Нявесткі-эмігранткі карэйскага і японскага паходжання - у 34% выпадкаў.

Нават сярод тых карэйска-японскіх кавалераў, якія нарадзіліся ў ЗША, гэты працэнт - 36. Сярод дзяўчат - 49%.

Тлумачэнне ў артыкуле наступнае. Ёсць краіны з традыцыйна нізкім удзелам жанчын на рынку працы. Ёсць краіны з высокім. Будзем лічыць гэта нейкім проксі патрыярхальнасці выхавання, культуры, традыцый. Тыя нявесткі, якія бяруцца шлюбам з хлопцамі не з такіх культур, займаюцца хатняй гаспадаркай на 6 гадзін у тыдзень менш, чым тыя, хто пабраўся шлюбам з патрыярхальнымі хлопчыкам. Гэта праўда, нават калі кантраляваць на заробак, наяўнасць дзяцей і г.д.

6 гадзін у тыдзень - гэта шмат ці не? Для прыкладу, па ацэнцы гэтай ж мадэлі, кожны дзіцёнак да 18 год дадае 4 гадзіны хатніх абавязкаў у тыдзень. Тут я задумаўся, наколькі гэта рэалістычная ацэнка (выглядае малой), але калі да 18, эфект першых год можа размывацца. Кожная дадатковая гадзіна працы, якую працуе муж, дадае 13 хвілін да хатніх абавязкаў жонкі.

Але гэта гіпотэза аўтараў. Мая гіпотэза простая - анімэ. Калі паглядзець, напрыклад, на еўрапейскі кіберспорт - самыя паспяховыя з іх непрапарцыйна анімэшнікі і непрапарцыйна бяруць сабе ў жонкі азіятак. А вось хлопчыкам-азіятам застаецца толькі матэматыка, толькі тэхнічныя дысцыпліны, толькі ІТ, толькі хардкор. Спадзяюся, сітуацыю для іх выправіць кейпоп.
Знайдзі расіста з дапамогай статыстыкі і філасофіі навукі

#statistics

Даследаванне пра расавую дыскрымінацыю ў амерыканскай судовай сістэме. Дадзеныя пра 1116 суддзяў і 380000 прысудаў. Замяраецца тое, колькі год у сярэднім атрымліваюць чорныя, белыя, лацінасы і іншыя. Аналіз кантралюецца на тып злачынства, крымінальную гісторыю падсудных і іншыя фактары, якія могуць уплываць на прысуд.

Праз гэты аналіз знайшлі самых расісцкіх суддзяў - тых, хто выносіць больш жорсткія прысуды чорным ці лацінасам, але не белым. Напрыклад, у цябе было 100 чорных, 40 з іх ты апраўдаў. А са 100 белых, якія ў цябе былі, ты апраўдаў 60. Выбарка вялікая, вынік падазроны, вынік кансістэнтны з дэфініцыяй расізму. А значыць ты расіст. Гучыць лагічна.

Цяпер сачыце за рукамі. Дакладней, рукамі падлічваць мне лянота, таму я проста напісаў сімуляцыю: 1116 суддзяў, у кожнага па 380000/1116 спраў, палова падсудных - чорныя, палова - белыя. Шанец вынесці апраўдальны прысуд заўсёды 50%. Максімальная роўнасць. Таксама прыкруціў ім рандомны генератар імёнаў (інакш неяк непрыгожа).

Атрымаў наступных таварышаў:

Abeyta, Jazmin: 35.3% апраўдальных прысудаў чорным супраць 54% белым
al-Soliman, Mawdood: 38.2% супраць 55.8%
Houge, Charrdonnay: 40.1% супраць 57%

І г.д.

Што гэта значыць? Гэта значыць, што інтэрпрэтацыя дадзеных крытычна залежыць ад гіпотэзы, якую мы правяраем, ад пытання, якое мы задаём.

Калі правяраць гіпотэзу “сярод нас ёсць суддзі-расісты, хто яны?” (“сярод 1116 манет ёсць падкручаная манета, якая з іх?”), натуральна, што Jazmin, Mawdood і Charrdonnay - першыя кандыдаты на тое, каб быць названымі расістамі.

Калі правяраць гіпотэзу “ці ёсць сярод нас суддзі-расісты?” (“ці ёсць сярод 1116 манет падкручаная?”), дадзеныя абсалютна кансістэнтныя з тым, што ў кожнай манеты 50% шанец выпасці на любы бок. Проста калі падкінуць 1116 манет па 340 разоў кожную, рана ці позна мы пабачым анамальныя вынікі.

Паперу яны па выніку перапісалі, адзін з аўтараў нават выдаліў твітэр.
#war #statistics

Часта чую аргумент, што апытанням у расіі наконт вайны давяраць нельга, бо людзі баяцца ўдзельнічаць у гульнях сацыёлагаў.

Аргумент будуецца наступным чынам: пасля пачатку вайны растуць рэпрэсіі -> нават вайну нельга называць вайной -> людзі, якія не падтрымліваюць пуцінскі рэжым, залягаюць на дно = рост падтрымкі пуціна і вайны, які мы бачыў у апытаннях, выкліканы структурным скосам выбаркі - там засталіся толькі ватнікі і пуцінойды

Левада вырашыла праверыць гэта простым спосабам: 1) узялі людзей, якія праходзілі іхнія апытанні ў 2021 2) падзялілі іх на групы ў залежнасці ад таго, падтрымлівалі яны тады пуціна ці не 3) праверылі, ці можна да іх датэлефанавацца ў 2022 і правесці з імі апытанне.

Адказ: Падтрымліваў ты пуціна ў 2021 ці не - верагоднасць прайсці апытанне аднолькавая. Тобок, ніякіх структурных скосаў выбаркі не назіраецца. Тобок, расіяне падтрымліваюць вайну і пуціна.
#statistics

Даўно хацеў напісаць які-небудзь занудны пост пра статыстыку. Ваш час пакутаваць надышоў.

Мы часта чуем фразы а-ля “навукоўцы даказалі”, ці “статыстычна значны”. Дык а як навукоўцы нешта “даказваюць”? Што гэта ўвогуле значыць? Зараз я паспрабую ў 3 абзацах максімальна проста патлумачыць вам 95% сучаснай статыстыкі.

Бяром 2 групы па 100 чалавек, у якіх баліць галава. Адным даем аспірын, другім не даем. Праз гадзіну запытваем “ну шо ты”. У першай групе галава перастала балець у 30 чалавек, у другой - 15. Адкуль мы ведаем, што аспірын працуе?

Усё насамрэч проста. Кажам: “давайце ЎЯВІМ, што аспірын НЕ працуе”. Значыцца розніца, якую мы бачым (30 супраць 15 чалавек) - гэта чыста памылка выбаркі. Ну, набралі мы так людзей, што ў эксперыментальнай групе ў большай колькасці галава б і так прайшла, без усялякіх аспірынаў.

Далей мы задаём цэнтральнае пытанне 95% усіх сучасных навуковых даследаванняў, якія выкарыстоўваюць статыстыку: калі розніца няма, як часта мы б пабачылі такую (30 супраць 15) ці большую розніцу праз памылку выбаркі. Калі адказ “менш чым у 5% выпадкаў”, тады мы называем гэты вынік “статыстычна значным” і бяжым да журналістаў казаць, што аспірын дапамагае ад галавы. Усё.

Падрабязней можаце пачытаць тут
#statistics #belarus

Часам можна пабачыць, як людзі заломваюць рукі і пытаюцца, чаму Беларусь не дэмакратыя. Пытанне валіднае і для грамадскай дыскусіі карыснае. Але ёсць нюанс. Мне падаецца, што ў гістарычнай перспектыве яно не вельмі цікавае. Прынамсі пакуль. Бо нічога незвычайнага ў беларускім аўтарытарызме няма.

Часам, калі аналізуюць дэмакратызацыі, у якасці адной з пераменных выкарыстоўваюць дыстанцыю, у кіламетрах, да Бруселя. Як тут. Які ў гэтым сэнс? Ідэя ў тым, што недзе ў тых землях, ці адносна побач, з людзьмі нешта не так. То пратэстантызм сабе прыдумаюць, то дэмакратыю, то яшчэ чаго для праваслаўнага чалавека шкоднага.

Ну а далей зусім проста: ідэі, як вірус, пераносяцца людзьмі, ну і раз суседзі камунікуюць больш, ідэі паміж імі перацякаюць хутчэй. У гэтым сэнсе проста кіламетры да Бруселя - метрыка ідыёцкая, размова пра шчыльнасць кантактаў, гандлю і г.д. Затое яе проста падлічыць.

Увогуле, калі паглядзець на мапу Freedom House, на нашым кантыненце не так шмат анамалій: дэмакратычная Манголія, дэмакратычная Індыя ну і яшчэ парачку. У астатнім - дэмакратыя, як пляма, размазана кіламетрамі ад Бруселя. Але гэта візуальна, то мне захацелася падлічыць усё больш фармальна.

Ну я і падлічыў. Карэляцыя паміж тым, колькі краіна год бесперапынна дэмакратыя і кіламетрамі для Бруселя негатыўная, -0.6. Тобок, чым далей ад брусэляў, тым менш год вашым дэмакратыям.

Карэляцыя -0.6 гэта многа ці мала? Для параўнання:
- карэляцыя паміж інфляцыяй і ростам ВУП з 1960 па 2020 на планеце была -0.064
- карэляцыя паміж памерам ВУП на душу і працягласцю жыцця за той ж перыяд была 0.549

Кажучы проста, тупыя кіламетры для Бруселя - больш моцны прэдыктар дэмакратызацыі, чым ВУП на душу насельніцтва - прэдыктар працягласці жыцця і нашмат больш моцны, чым інфляцыі ёсць прэдыктарам эканамічнага росту.

Прынамсі, гэта для краін "Europe & Central Asia" у класіфікацыі сусветнага банку. Для ўсёй планеты гэта працаваць не будзе, таму што дыстанцыя да Новай Зеландыі ў кіламетрах надта вялікая. А дадзеных пра шчыльнасць кантактаў, гандлю і г.д. у мяне няма.

Пры гэтым, калі вы распавядзе пра гэты факт “палітолагам”, вы адразу пачуеце мільён заўваг: “Вільня ж не далей ад Бруселя, чым Менск!”, “а Талін далей, ха!” і г.д. Усё гэта таму, што ў “палітолагаў”, як правіла, няма колькаснай інтуіцыі наконт таго, колькі контрпрыкладаў можа існаваць на залежнасці рознай сілы.
#statistics

Хачу дапамагчы вам разабрацца з адной памылкай, якую часта робяць, калі глядзяць у выніку апытанняў.

Уявім сабе, што спрыяльна да расіі ў сакавіку 2022 ставілася 43% беларусаў, а ў чэрвені 2022 - 40% беларусаў. Я часта бачу наступную выснову: “ну, гэта не статыстычна значны вынік” / “нуу, там памылка рэпрэзентатыўнасці 2%” / і г.д., а значыцца нічога насамрэч не памянялася.

Вось гэтая выснова “нічога насамрэч не памянялася” - памылка. Выснову, якую мы павінны зрабіць (гіпотэза, якая найбольш верагодная) - гэта тое, што падтрымка рф упала на 3 працэнты. Прычым гэта будзе справядліва і для выбаркі ў 10, у 1.000, у 100.000 чалавек. Усё, што будзе адрознівацца - нашая ступень упэўненасці ў гэтым. Але НЕ, гэта не значыць, што калі вынікі "не статыстычна значныя", гэта робіць гіпотэзу пра адсутнасць зменаў найбольш верагоднай. Не, не робіць,

1) З выбаркай у 10 чалавек, мы б сказалі “гіпотэза пра падзенне ў 3% найбольш верагодная, але давер у нас вельмі нізкі”
2) З выбаркай у 1000 чалавек, мы б сказалі “гіпотэза пра падзенне ў 3% найбольш верагодная, але давер у нас сярэдні”
3) З выбаркай у мільён чалавек, мы б сказалі “гіпотэза пра падзенне ў 3% найбольш верагодная, мамай клянуся”

Адзіна што, вы можаце быць моцна ўпэўненыя, што лічба не змянілася. Тады вы кажаце: “дадзеныя настолькі слабыя, а маё меркаванне - настолькі моцнае, што я гатовы змяніць яго з 0% да 0.3%, максімум. Але ніяк не да 3%”. Гэта абсалютна нармальна, завецца “баесаўская статыстыка”, але рабіць гэта трэба экспліцытна і шчыра. Асабліва карысна самому сабе прызнавацца ў сваіх моцных меркаваннях.

Пры гэтым, агульны скептыцызм я падзяляю і паважаю. Чым больш вы скептычныя да дадзеных, тым лепш. А я бачу ўсё больш і больш крытычных пытанняў такога кшталту ад беларусаў. Вы малайцы.
#belarus #statistics

Ніколі такога не было і вось ізноў: Чалы спрабуе даказаць беларусам, што не трэба слухаць Шрайбмана (спасылка на Курэйчыка рандомная, мне лянота арыгіналы шукаць). Не ведаю, якое ў вас стаўленне да гэтага пласту беларускай культуры. Я стараюся ігнараваць, але часам як у тым меме з чалавекам-павуком.

Але распавесці хачу не пра гэта. Яны там закранаюць даследаванне Chatham House пра тое, як мы ставімся да геяў, чорных, арабаў і г.д. У Гены Коршунава ёсць добры агляд, каму цікава.

Калі коратка, задаюць пытанне “Я лично готов(а) принять представителя данной группы …" і даюць адказы: Как близкого родственника, Как близкого друга, Как соседа по дому, Как коллегу по работе, Как гражданина моей страны, Как гостя (туриста) в моей стране, Ни в каком виде. Далей прыпісваюць балы ад 1 да 7 і мераюць дыстанцыю. Усё даволі проста.

А я вырашыў разабрацца, якімі характарыстыкі беларусаў можна прадказаць. І прыйшоў да высновы, што прадказаць беларусаў…немагчыма.

Усяго задаюць пытанні пра 14 груп. Я пабудаваў лінейныя мадэлі (што крыху бязбожна, затое хутка) для ўсіх 14. Ну і набраў тыповых падазроных: пол, узрост, памер населенага пункту, матэрыяльнае становішча, узровень адукацыі. Дык вось. Мае мадэлі на каленцы тлумачаць 0 - 9% варыяцыі ў адказах. Тобок нічога не тлумачаць.

Лепш за ўсё тлумачыцца стаўленне да геяў, 9%. Ну і гісторыя там прадказальная: чым вы маладзейшы, больш адукаваны, у лепшым матэрыяльным стане, тым больш вы талерантны. Яшчэ дапамагае, калі вы жанчына. Усё гэта карэлюе з адказамі, проста слаба.

Агулам беларусы непрадказальныя, няўлоўныя, містычныя. Як смуга над полем, як багна, як чарговая тэма для срачаў у твітэры.
#statistics

Атрымаў мілых каментароў пад гэты пост і вырашыў перыядычна дапамагаць вам з розным там статыстычным жаргонам.

Сёння паразмаўляем пра “давяральныя інтэрвалы”. Упэўнены, што бачылі вы іх часта. Уявім, што Андрэй Вардамаці аналізаваў сацыялогію згушчонкі. І 50% беларусаў выбралі рагачоўскую. І ў дужках вы бачыце стандартны тэкст (як тут): “памылка выбаркі пры 95% давяральным інтэрвале не перавышае 3%”.

Окей, але што гэта значыць? Куды яно чаго не перавышае? Інтуітыўна зразумела, што 3% - лепш, чым 30%, а яшчэ б лепш 0.03%. Інтуітыўна вы абсалютна правыя. Я прыкладна гэтак імі і карыстаюся. Цікавасці пачынаюцца тады, калі задаваць больш канкрэтныя пытанні.

Уявім сабе, што сацыёлаг Алег Манаеў вырашае правесці аналагічнае апытанне. Выбарка такога ж памеру, пытанне такое ж, усё такое ж. Які шанец, што % за рагачоўскую згушчонку на новай выбарцы трапіць у 47-53%, як у Вардмацкага? Нагадваю, інтэрвал у нас 95%. Адказ 0.95, канешне, няправільны. Правільны адказ - 0.83. А калі сюды падключыцца Філіп Біканаў і правядзе трэцяе апытанне, верагоднасць, што і ягоныя вынікі, і вынікі Манаева трапяць у давяральныя інтэрвалы, разлічаныя Вардмацкім, будзе 0.72. Ну і г.д.

“Што за хрэнь?” - гэта пытанне, якое я задаю сабе кожны дзень на працы. Справа ў любові класічнай статыстыкі да зянонаўскай Беларусі ідэальных сутнасцяў, бясконсасцяў і іншых тэарэтычных канструктаў. А выбаркі ў нас жывыя, выбаркі ў нас шумныя. І шум кожнай індывідуальнай выбаркі накладаецца. Фармальна гэта тлумачыцца праз адатыўнасць варыяцыі, але я не прыдумаў, як вам проста гэта патлумачыць.

Калі гэтае пытанне задалі 263 псіхолагам, медыкам і спецыялістам па нейранавуках, большасць з іх таксама адказала няправільна. Чаму? Разгадка простая - мы эвалюцыянавалі каб бегаць ад драпежнікаў, бегаць за ежай і каб прыгожая малпа з суседняй пальмы нас заўважыла. І не для разважанняў пра верагоднасці. Таму, калі доўга паўтараць “95% давяральны інтэрвал”, людзям пачынае падавацца, што адказ заўсёды “95%”. Малпачка бачыць - малпачка паўтарае.
#statistics #science

Мне па працы часта прыходзіцца чытаць артыкулы пра пра менструальныя цыклы, цяжарнасці ці авуляцыі. Часам натыкаюся на вясёлы трэш. Зараз пра адзін распавяду.

Аўтары паперы знайшлі, што ў 2012 у ЗША замужнія жанчыны ў авуляцыю часцей выбіралі Ромні, а незамужнія ў авуляцыю - Абаму. Тлумачылі яны гэта прыкладна так: для незамужніх у авуляцыю важна перадаць свае гены, таму яны выбіраюць больш сіметрычнага Абаму (больш сіметрыі - лепшыя гены). А замужнія абіраюць кансерватара Ромні, бо гэта ў іх ад шлюбу развіўся механізм, які ў авуляцыю робіць іх больш кансерватыўнымі і такім чынам спрыяе захаванню шлюба.

Душэўна. Давайце ўявім, што аўтары б атрымалі вынікі наадварот - незамужнія ў авуляцыю галасуюць за кансерватараў, замужнія ў авуляцыю - за лібералаў. Прыдумаць такой якасці “тлумачэнне” - 2 хвіліны: “незамужнія выбіраюць у авуляцыю кансерватараў, бо шукаюць больш маскулінных партнёраў, а замужнія галасуюць за лібералаў, бо цяжар сямейнага быту робіць усялякія ліберальныя каштоўнасці, у тым ліку - вольныя сексуальныя паводзіны, больш прывабнымі”. Ну ці прыдумайце свой варыянт. Прыдумляць іх можна хоць да ночы.

Я гэта да чаго. Ёсць шмат прычын лічыць, што гэтае даследаванне - шум. Калі паварочаць любы шум - па рознаму вызначаць фертыльнае акно, паглядзець не на шлюбы, а на заробак, ці лакацыю і г.д. - шум пачне складацца ў патэрны. Якія патэрны мы б там не пабачылі, мы б заўсёды здолелі прыдумаць ім тлумачэнне.
#belarus #statistics

Прынёс вам малавядомае (як мне падаецца) апытанне беларускай моладзі. Наколькі я ведаю, у яго быў спецыфічны рэкрутынг, могуць быць скосы ў бок моладзі больш актыўнай. Але пачытаць было цікава. Парачка вясёлых фактаў:

• Для прыхільнікаў улады дзеці з’яўляюцца непараўнальна большай каштоўнасцю, чым для праціўнікаў.
• Апазіцыйная моладзь хоча ў Балта-Чарнаморскі Саюз нават больш, чым у ЕС.
#statistics #everyday

Падзялюся самым нечаканым кавалкам статыстычнай інфармацыі, пра які ведаю. Расцяжка перад фізічнай актыўнасцю не зніжае верагоднасць траўмы.

Звычайна спасылаюцца на 2 паперы. У першай, 2004 году, мета-аналіз 6 эксперыментаў на амерыканскіх футбалістах, вайскоўцах у трэнажорках і г.д. Ніякага эфекту ад расцяжкі.

У другой, 2014, мета-аналіз ужо большы - 25 даследаванняў, 26.610 удзельнікаў, 3.464 траўмы. Тут ужо і баскетбол, і футбол, чаго хош. Сілавыя трэніроўкі дапамагаюць зніжаць траўмы, практыкаванні на баланс і каардынацыю - дапамагаюць, расцяжка - зноў не дапамагае.

Як з гэтым жыць? Даволі проста. Я расцягваюся, бо мне падабаецца расцягвацца. Неверагодна. Расцягвацца таксама карысна, калі хочацца сабе лепшую расцяжку. Таксама неверагодна. Праблемы ўзнікаюць тады, калі па 20 хвілін дрыфтаваць па трэнажорцы на сваім масажным ролеры перад цяжкай станавай, у спадзяванні, што гэта ўратуе вашую спіну.
#statistics #belarus

Чалавек тут паспрабаваў прыкінуць, колькі твітаў па-беларуску публікуецца ў дзень. Атрымалася каля 4.000. Метадалогія апісаная тут.

Колькі твітаў у дзень прыходзіцца на аднаго карыстальніка падлічыць складана, вельмі залежыць ад групы. Ёсць лічба ў 2.6 твітаў на дзень. 4.000/2.6 = 1538 унікальных беларускамоўных карыстальнікаў у дзень.

Пры гэтым, усяго ў краіне каля 147.000 карыстальнікаў твітэра. Гэта тыя, да каго можна дабрацца рэкламай, на думку твітэра. Але колькі ў гэтай лічбе канкрэтна актыўных, колькі піша кожны дзень і г.д. сказаць цяжка.
#statistics

Леанардачка наш Дзі Капрыа разышоўся з чарговай 25-гадовай. Чым зрабіў унёсак у маю любімую візуалізацыю (карцінка першая).

Пытанне, якое ўсіх не пакідае - ці сапраўды ён прынцыпова не сустракаецца з жанчынамі, якім за 25. Зараз мы будзем на яго адказваць.

Адказваць будзем просценькай сімуляцыяй. Сфармуем выпадковую выбарку з 8 стартавых узростаў як у ягоных пасій (18 - 25 год), возьмем вось гэтае апытанне, адтуль возьмем 381 пару, якія разышліся, выпадкова возьмем 8 значэнняў працягласці іхніх стасункаў, складзём узросты і працягласці стасункаў. Паўторым мерапрыемства 100.000 разоў і падлічым, у якім працэнце выпадкаў усе стасункі скончыліся, калі пасіям было 25 ці менш.

Гэтая сімуляцыя базуецца на спрошчаных дапушчэннях. Па-першае, што дадзеныя звычайных людзей можна экстрапаляваць на зорак. Па-другое, што працягласць стасункаў не залежыць ад узросту і іншых сацыядэмаграфічных характарыстык. Гетэра і гома, хлопчыкі і дзяўчынкі - усё ў адной кучы. Гэтыя дапушэнні, канешне, занадта простыя. Каму хочацца ўгарэць і ўдасканаліць, вось код сімуляцыі.

Верагоднасць разысціся выпадковым чынам з 8 жанчынамі запар, пакуль ім 25 ці менш, калі ты нармальны чалавек - 3.37%. Верагоднасці для розных узростаў на другім графіку.
#belarus #statistics

Другі дзень крычу з дадзеных пра веру ў астралогію і "іногда не до законов", можаце і вы пакрычаць. Залежнасць знайшла каманда майго сябра, сацыёлага Філіпа Біканава, які нарэшце завёў сабе канал. Там больш падрабязнасцяў.

Добрай усім пятніцы