Лінейная (аг | рэг) рэсія
1.32K subscribers
83 photos
3 files
137 links
Пра даныя і як іх прыстасаваць да штодзённасці

Мяне можна знайсці

У твітары: https://twitter.com/aliaksandr_k
Англ: https://twitter.com/unfriendlydata
На лінкачы: https://www.linkedin.com/in/aliaksandr-kazlou-b5a86411b/
Ці ў тг: @shurackapalieski
Download Telegram
Добрай раніцы. Да ўчорашняга паста.

Разумныя людзі мне кажуць, што нізкая сувязь паміж такімі пытаннямі і сацыяльна-дэмаграфічнымі характарыстыкі - рэч не ўнікальная для беларусаў. Італьянцаў там якіх ці грэкаў таксама складана прадказаць. Так крыўдна за ўнікальнасць беларусаў зрабілася, быццам у душу наплявалі.

Таму я вырашыў паглядзець, што ж у дадзеных Рыгора Астапені больш за ўсё карэлюе з дыстанцыяй да розных сацыяльных груп. Ну і пачаў з геяў.

Па-першае, адказы на іншыя пытанні карэлююць. Ну, калі вам не хочацца ціснуць руку яўрэям ці чорным, геям вы таксама наўрад ці пяцюні раздаяце. Гэта нецікавая частка.

Цікавая частка ў тым, што найбольш негатыўна (-0.28) з дыстанцыяй да геяў карэлюе адказ на пытанне "Я убежден, что протестное движение было вызвано извне недружественными действиями иностранных государств". А найбольш пазітыўна (0.304) з адказамі на пытанне "Как вы относитесь к акциям протеста против действующей власти?"

Тобок, геяў не любяць у нас тыя, для каго пратэсты былі аркестраванымі замежнымі лялькаводамі і тыя, каму яны агулам не падабаліся. І гэта нашмат больш істотны фактар, чым пол, узрост, заробак ці адукацыя. Ці астатнія 270 пытанняў, якія я праверыў. Аналагічна і па іншых сацыяльных групах.

Такія справы.
#statistics

Атрымаў мілых каментароў пад гэты пост і вырашыў перыядычна дапамагаць вам з розным там статыстычным жаргонам.

Сёння паразмаўляем пра “давяральныя інтэрвалы”. Упэўнены, што бачылі вы іх часта. Уявім, што Андрэй Вардамаці аналізаваў сацыялогію згушчонкі. І 50% беларусаў выбралі рагачоўскую. І ў дужках вы бачыце стандартны тэкст (як тут): “памылка выбаркі пры 95% давяральным інтэрвале не перавышае 3%”.

Окей, але што гэта значыць? Куды яно чаго не перавышае? Інтуітыўна зразумела, што 3% - лепш, чым 30%, а яшчэ б лепш 0.03%. Інтуітыўна вы абсалютна правыя. Я прыкладна гэтак імі і карыстаюся. Цікавасці пачынаюцца тады, калі задаваць больш канкрэтныя пытанні.

Уявім сабе, што сацыёлаг Алег Манаеў вырашае правесці аналагічнае апытанне. Выбарка такога ж памеру, пытанне такое ж, усё такое ж. Які шанец, што % за рагачоўскую згушчонку на новай выбарцы трапіць у 47-53%, як у Вардмацкага? Нагадваю, інтэрвал у нас 95%. Адказ 0.95, канешне, няправільны. Правільны адказ - 0.83. А калі сюды падключыцца Філіп Біканаў і правядзе трэцяе апытанне, верагоднасць, што і ягоныя вынікі, і вынікі Манаева трапяць у давяральныя інтэрвалы, разлічаныя Вардмацкім, будзе 0.72. Ну і г.д.

“Што за хрэнь?” - гэта пытанне, якое я задаю сабе кожны дзень на працы. Справа ў любові класічнай статыстыкі да зянонаўскай Беларусі ідэальных сутнасцяў, бясконсасцяў і іншых тэарэтычных канструктаў. А выбаркі ў нас жывыя, выбаркі ў нас шумныя. І шум кожнай індывідуальнай выбаркі накладаецца. Фармальна гэта тлумачыцца праз адатыўнасць варыяцыі, але я не прыдумаў, як вам проста гэта патлумачыць.

Калі гэтае пытанне задалі 263 псіхолагам, медыкам і спецыялістам па нейранавуках, большасць з іх таксама адказала няправільна. Чаму? Разгадка простая - мы эвалюцыянавалі каб бегаць ад драпежнікаў, бегаць за ежай і каб прыгожая малпа з суседняй пальмы нас заўважыла. І не для разважанняў пра верагоднасці. Таму, калі доўга паўтараць “95% давяральны інтэрвал”, людзям пачынае падавацца, што адказ заўсёды “95%”. Малпачка бачыць - малпачка паўтарае.
Добрай раніцы. Забыў ва учорашнім пасце пра самае сакавітае.

Дык, гэта, калі мы атрымалі 50% за рагачоўскую, памылка выбаркі ў нас не перавышае +/- 3% пад 95% давяральнымі інтэрваламі, які шанец ш​​то рэальны % за рагачоўскую ў папуляцыі - паміж 47% і 53%? Як вы маглі здагадацца, адказ 0.95 зноў няправільны.

Правільны адказ: альбо 1, альбо 0 - альбо рэальны % у гэты інтэрвал трапляе, альбо не. І гэта, як не дзіва, не пустая філасофія.

Сачыце за рукамі. Уявім сабе, што вы гуляеце ў гульню. Вам даюць 2 капэрты на выбар.У адной з іх у 2 разы больш грошаў, чым у іншай. Вы выбіраеце. Пасля гэтага вам прапануюць капэрту памяняць . Ці трэба вам мяняцца?

Разважаем наступным чынам: У нашай капэрце Х грошаў. Значыцца з верагоднасцю 1/2 у іншай капэрце альбо 2Х, альбо X/2. Тады матэматычнае чаканне сумы ў іншай капэрце ў нас 1/2*2X + 1/2*X/2 = 5/4*X. А гэта больш, чым X. Значыцца трэба мяняць капэрту. Але! Калі вы яе памяняеце і вам прапануюць зноў яе памяняць, вам зноў больш рацыянальна пагадзіцца - разлік ж той жа самы.

Ага ага. Памылка тут у інтэрпрэтацыі верагоднасці. Як і ў пытанні “якая верагоднасць, што рэальны % за рагачоўскую ў давяральным інтэрвале”. Калі вам даюць капэрты, выбар наконт таго, колькі грошаў у якую пакласці ўжо зроблены. І ніякай “верагоднасці” там ужо няма. І калі вы бачыце давяральны інтэрвал сваёй выбаркі, ніякай верагоднасці там таксама няма - у вас і інтэрвал фіксаваны, і рэальны % за рагачоўскую ў папуляцыі фіксаваны. Вы проста не ведаеце, як.

А тут ужо можна ўпадаць у філасофію. Гэта ўсё справядліва толькі для таго варыянта “верагоднасці”, у межах якога, канцэптуальна, давяральныя інтэрвалы канструююцца. Класічны альбо частотны варыянт. Але гэта не адзіная канцэптуалізацыя верагоднасці. Ну і пайшло паехала.
#covid

Кавідны пост

Пачуў на днях пра артыкул, пра які вы таксама хутка пачуеце, калі яшчэ не - пра тое, што пабочных эфектаў ад mRNA вакцын больш, чым карысці. Крытыка таксама ўжо даступная. Ну і вырашыў напісаць свой першы і спадзяюся апошні пост пра кавід.

Справа ў тым, што я нічога не ведаю пра кавід. І гэтаму ёсць некалькі прычын.

Па-першае, мне проста не цікава. На пачатку эпідэміі ў мяне яшчэ былі спадзяванні на зомбі-апакаліпсіс, але ўся гэтая гісторыя надакучыла мне даволі хутка.

Па-другое, веды статыстыкі, якія патрабуюцца для аналізу такіх дадзеных, у мяне адсутнічаюць. Дакладней, ніякіх асаблівых ведаў там не патрэбна, але ў мяне адсутнічае інтуіцыя пра нюансы працы з імі. Адносныя рызыкі, абсалютныя рызыкі, OR, RR, крывыя выжывання, кантрольныя кропкі, чаго ўвогуле, куды, за шо.

Па-трэцяе, на адных ведах статыстыкі далёка не ўедзеш. Для таго, каб ацаніць дызайн у такіх рэчах, трэба шмат прадметных ведаў: як так арганізаваць плацэба для прыскалкі ў нос, у якой ёсць спірт, каб кантрольная нічога не зразумела; хто там праводзіць даследаванне - персанал, які пастаянна кантактуе з кавіднікамі ці нейкія стэрыльныя таварышы; адкуль там антыцелы браць, праз які перыяд і мільёны падобных нюансаў. Калі казаць выключна пра статыстыку, ёсць жарт, што людзі, якія бачылі, як медыкі аналізуюць свае дадзеныя, пачынаюць паважаць эканамістаў. Што таксама не дадае матывацыі ў гэтым разбірацца.

Гляджу таму я на гэта ўсё гэта даволі прагматычна:

1. Кумулятыўных доказаў таго, што вакцыны працуюць (у шырокім сэнсе), настолькі шмат, што мне лянота сумнявацца. Калі нехта знойдзе канкрэтны прабел, я пра гэта абавязкова пачую, мы ўсе пачуем.

2. Калі мне задаюць пытанне, наколькі верагодныя фальсіфікацыі ў дадзеных пра кавід, я адказваю, што верагоднасць там 100%. Ну, ціпа - фармакалогія ёсць самай карумпіраванай дысцыплінай, у якой выкарыстоўваецца статыстыка. Але чаму толькі кавідныя вакцыны? Гэта ж для ўсяго справядліва, было і будзе. Пераставаць хадзіць да доктараў я праз гэта не збіраюся.

Асноўная праблема каляпалітычных антываксерскіх дэбатаў пра кавід у тым, што людзі бачаць нейкую супярэчнасць паміж гэтымі фактамі. Я не бачу.
#everyday

На працы паказалі графік з верагоднасцю трапіць у шпіталь з пераломам у залежнасці ад узросту. Даволі цікавае.

Па-першае, на графіку добра бачны пубертат: да 15 год хлопчыкі і дзяўчынкі ламаюцца прыкладна аднолькава, пасля 15 дзяўчынкі рэзка перастаюць, хлопчыкі - паскараюцца ўдарнымі тэмпамі. Яно і зразумела: спрадвечная эвалюцыйная стратэгія “прыгні з маста, каб спадабацца дзяўчыне, з якой ты нават не размаўляў” сама сябе не рэалізуе.

Далей таксама цікавае. Самы надзейны ўзрост для мужчын - гэта 60 год. Літаральна перасячэнне, калі яшчэ ёсць нейкі тэстастэрон і здольнасць утрымліваць мышачную масу, але схільнасці да ідыятызму куды менш, чым у 17.

P.S.: Калі вам 60 год і вы яшчэ прыгаіце з мастоў, каб спадабацца жанчынам - заўвагу пра ідыятызм можаце ігнараваць. Бясконца паважаю і не адгаворваў б.
#statistics #science

Мне па працы часта прыходзіцца чытаць артыкулы пра пра менструальныя цыклы, цяжарнасці ці авуляцыі. Часам натыкаюся на вясёлы трэш. Зараз пра адзін распавяду.

Аўтары паперы знайшлі, што ў 2012 у ЗША замужнія жанчыны ў авуляцыю часцей выбіралі Ромні, а незамужнія ў авуляцыю - Абаму. Тлумачылі яны гэта прыкладна так: для незамужніх у авуляцыю важна перадаць свае гены, таму яны выбіраюць больш сіметрычнага Абаму (больш сіметрыі - лепшыя гены). А замужнія абіраюць кансерватара Ромні, бо гэта ў іх ад шлюбу развіўся механізм, які ў авуляцыю робіць іх больш кансерватыўнымі і такім чынам спрыяе захаванню шлюба.

Душэўна. Давайце ўявім, што аўтары б атрымалі вынікі наадварот - незамужнія ў авуляцыю галасуюць за кансерватараў, замужнія ў авуляцыю - за лібералаў. Прыдумаць такой якасці “тлумачэнне” - 2 хвіліны: “незамужнія выбіраюць у авуляцыю кансерватараў, бо шукаюць больш маскулінных партнёраў, а замужнія галасуюць за лібералаў, бо цяжар сямейнага быту робіць усялякія ліберальныя каштоўнасці, у тым ліку - вольныя сексуальныя паводзіны, больш прывабнымі”. Ну ці прыдумайце свой варыянт. Прыдумляць іх можна хоць да ночы.

Я гэта да чаго. Ёсць шмат прычын лічыць, што гэтае даследаванне - шум. Калі паварочаць любы шум - па рознаму вызначаць фертыльнае акно, паглядзець не на шлюбы, а на заробак, ці лакацыю і г.д. - шум пачне складацца ў патэрны. Якія патэрны мы б там не пабачылі, мы б заўсёды здолелі прыдумаць ім тлумачэнне.
#belarus #statistics

Прынёс вам малавядомае (як мне падаецца) апытанне беларускай моладзі. Наколькі я ведаю, у яго быў спецыфічны рэкрутынг, могуць быць скосы ў бок моладзі больш актыўнай. Але пачытаць было цікава. Парачка вясёлых фактаў:

• Для прыхільнікаў улады дзеці з’яўляюцца непараўнальна большай каштоўнасцю, чым для праціўнікаў.
• Апазіцыйная моладзь хоча ў Балта-Чарнаморскі Саюз нават больш, чым у ЕС.
Сябар гісторык зрабіў свой першы статыстычны прагноз. У мяне няма да чаго прыдрацца:

• Расейская імперыя была 196 гадоў (ад 1721 да 1917)
• Савок быў 69 гадоў (ад 1922 да 1991), тобок 35% ад тэрміну РІ
• Калі працягнуць трэнд, то пуцінская рашка павінна працягнуць 24 гады (ад 1999 да 2023)

Добрай усім пятніцы, кацяняты
#statistics #everyday

Падзялюся самым нечаканым кавалкам статыстычнай інфармацыі, пра які ведаю. Расцяжка перад фізічнай актыўнасцю не зніжае верагоднасць траўмы.

Звычайна спасылаюцца на 2 паперы. У першай, 2004 году, мета-аналіз 6 эксперыментаў на амерыканскіх футбалістах, вайскоўцах у трэнажорках і г.д. Ніякага эфекту ад расцяжкі.

У другой, 2014, мета-аналіз ужо большы - 25 даследаванняў, 26.610 удзельнікаў, 3.464 траўмы. Тут ужо і баскетбол, і футбол, чаго хош. Сілавыя трэніроўкі дапамагаюць зніжаць траўмы, практыкаванні на баланс і каардынацыю - дапамагаюць, расцяжка - зноў не дапамагае.

Як з гэтым жыць? Даволі проста. Я расцягваюся, бо мне падабаецца расцягвацца. Неверагодна. Расцягвацца таксама карысна, калі хочацца сабе лепшую расцяжку. Таксама неверагодна. Праблемы ўзнікаюць тады, калі па 20 хвілін дрыфтаваць па трэнажорцы на сваім масажным ролеры перад цяжкай станавай, у спадзяванні, што гэта ўратуе вашую спіну.
#statistics #belarus

Чалавек тут паспрабаваў прыкінуць, колькі твітаў па-беларуску публікуецца ў дзень. Атрымалася каля 4.000. Метадалогія апісаная тут.

Колькі твітаў у дзень прыходзіцца на аднаго карыстальніка падлічыць складана, вельмі залежыць ад групы. Ёсць лічба ў 2.6 твітаў на дзень. 4.000/2.6 = 1538 унікальных беларускамоўных карыстальнікаў у дзень.

Пры гэтым, усяго ў краіне каля 147.000 карыстальнікаў твітэра. Гэта тыя, да каго можна дабрацца рэкламай, на думку твітэра. Але колькі ў гэтай лічбе канкрэтна актыўных, колькі піша кожны дзень і г.д. сказаць цяжка.
#belarus

У сувязі з апошнімі навінамі, пакажу вам забаўную статыстыку з далёкага 2012.

Напэўна шмат хто чуў пра тое, што Беларусь некалькі год займала першае месца ў свеце па колькасці шэнгенаў на душу насельніцтва. У першай таблічцы гэта і бачна - гіганцкі адрыў ад суседзяў, да і ўсіх астатніх.

Мала хто ведае, што Беларусь пры гэтым трымала 4 месца ў свеце (з канца) па колькасці адмоваў у візах. Гэта другая табліца. Менш адмаўлялі толькі жыхарам Бахрэйна, Амана і Трынідада і Табага. Я праўда не ведаю, але падазраю, што там проста мала іх выдавалі - аля “залатыя візы” для шэйхаў.

Пры гэтым, большасць адмоваў беларусам была праз недахоп фінансавых сродкаў - 2351 выпадак у 2011. А праз фальшывыя дакументы - 2.

Гэта ўсё зараз не вельмі важна. Але важна ўмець складаць ідэнтычнасць з дробных фактаў. Факт у тым, што беларусы былі самымі цывілізаванымі з т.з. “трэціх краін” - акропалісы не грамілі, дакументы адказна рыхтавалі, арганізаванымі чэргамі вярталіся дадому. Чым, у тым ліку, еўрапейцы актыўна карысталіся ў сваіх эканамічных інтарэсах.
#statistics

Леанардачка наш Дзі Капрыа разышоўся з чарговай 25-гадовай. Чым зрабіў унёсак у маю любімую візуалізацыю (карцінка першая).

Пытанне, якое ўсіх не пакідае - ці сапраўды ён прынцыпова не сустракаецца з жанчынамі, якім за 25. Зараз мы будзем на яго адказваць.

Адказваць будзем просценькай сімуляцыяй. Сфармуем выпадковую выбарку з 8 стартавых узростаў як у ягоных пасій (18 - 25 год), возьмем вось гэтае апытанне, адтуль возьмем 381 пару, якія разышліся, выпадкова возьмем 8 значэнняў працягласці іхніх стасункаў, складзём узросты і працягласці стасункаў. Паўторым мерапрыемства 100.000 разоў і падлічым, у якім працэнце выпадкаў усе стасункі скончыліся, калі пасіям было 25 ці менш.

Гэтая сімуляцыя базуецца на спрошчаных дапушчэннях. Па-першае, што дадзеныя звычайных людзей можна экстрапаляваць на зорак. Па-другое, што працягласць стасункаў не залежыць ад узросту і іншых сацыядэмаграфічных характарыстык. Гетэра і гома, хлопчыкі і дзяўчынкі - усё ў адной кучы. Гэтыя дапушэнні, канешне, занадта простыя. Каму хочацца ўгарэць і ўдасканаліць, вось код сімуляцыі.

Верагоднасць разысціся выпадковым чынам з 8 жанчынамі запар, пакуль ім 25 ці менш, калі ты нармальны чалавек - 3.37%. Верагоднасці для розных узростаў на другім графіку.
#belarus #statistics

Другі дзень крычу з дадзеных пра веру ў астралогію і "іногда не до законов", можаце і вы пакрычаць. Залежнасць знайшла каманда майго сябра, сацыёлага Філіпа Біканава, які нарэшце завёў сабе канал. Там больш падрабязнасцяў.

Добрай усім пятніцы
#belarus #statistics

У Chatham House выйшла чарговая, здаецца 11-ая хваля апытанняў гарадскога насельніцтва Беларусі. Папярэдняя была ў чэрвені.

З цікавага:
• Ваяваць на баку расіі ўсё яшчэ хоча 3%
• Мінімальна падае падтрымка расіі ў вайне супраць Украіны, з 33% да 30%
• Расце колькасць тых, хто расію не падтрымлівае - з 43% да 45%
• Назіраецца падзенне па ўсіх слупах крамлёўскага наратыву: менш людзей верыць, што войска рф не бамбіць мірных жыхароў, менш верыць ва ўдзел беларускай арміі, больш людзей лічаць вайну бессэнсоўнай.

Тэндэнцыі ў правільным кірунку, але не рэвалюцыйныя па памеры. З чым яны звязаныя - сказаць складана. Падазраю, што барацьба з каларадам на свежым паветры і адсутнасць на дачах тэлевізара мае тэрапеўтычны эфект. З іншага боку, апытанне за жнівень і людзі яшчэ навіны пра Ізюм і Балаклею не бачылі.
#statistics #health

Давайце патлумачу, чаму я ігнарую такія даследаванні.

Гэта карэляцыйнае даследаванне (альбо observational study). Усе чулі пра “карэляцыя - не прычынна-следчая сувязь”. Магчыма здаровыя людзі больш схільныя да шпацыраў. Магчыма дысцыплінаваныя людзі а) схільныя да шпацыраў б) у астатнім сочаць за сваім здароўем дысцыплінавана. Ну і г.д.

Окей. Але калі эксперымент мы правесці не можам (ніхто не пагодзіцца хадзіць 5 год па 10.000 крокаў, таму што яму завучкі ў халатах так сказалі), магчыма і ад такіх даследаванняў ёсць карысць?

Я не ўпэўнены. Вы напэўна чулі пра “добры” (HDL) халестэрын. З карэляцыйных даследаванняў мы ведалі, што ён бароніць сэрца. Такіх даследаванняў дзясяткі, калі не сотні. Гэта быў навуковы кансэнсус. Што здарылася пры першых рандамізаваных клінічных эксперыментах? Правільна, мы не знайшлі ніякай сувязі паміж HDL халестэрынам і здароўем сэрца. І такіх прыкладаў шмат. Калі я не магу давяраць вынікам цэлай батарэі карэляцыйных даследаванняў, як я магу давяраць вынікам аднаго? У мяне на гэты конт ёсць больш тэарэтычны артыкул.

Я не хачу сказаць, што фізічная актыўнасць не спрыяе вашаму здароўю. Канешне спрыяе. Мне проста для гэтай высновы не патрэбнае такое даследаванне. У мяне для гэтага ёсць вынікі тысяч эксперыментаў і мудрасць пакаленняў, таксама вядомая як "шо ты ў хаце ўсё сядзіш схадзі на вуліцу пабегай"
У твітэры здарылася чарговая драма. 30 тысяч лайкаў, не жарты. Нехта Махамед адаслаў на пост-док (акадэмічная пазіцыя такая пасля дактарантуры) 200 CV. 100 - як Махамед, а ў 100 - замяніў на “заходняе” імя. У першым выпадку атрымаў 17 адказаў, ніводнага станоўчага, у другім - 87 адказаў, 54 станоўчых.

Выглядае гэта занадта падазрона. І вось чаму.

Расавая дыскрымінацыя пры прыёме на працу існуе. І даследаванняў, у тым ліку з маніпуляцыяй CV, існуе вялікая колькасць. У мета-аналізе існуючай літаратуры па Штатах, белыя кандыдаты атрымліваюць на 36% больш адказаў чым чорныя і на 24% больш, чым лацінасы. У нашага таварыша задыскрымінавалі на 400%. Прычым не тэхаскія шахцёры, а акадэмікі - людзі пераважна ліберальных, левых поглядаў. Пра працэнты станоўчых адказаў я ўжо маўчу.

І справа не ў тым, што гэтыя 400% у некалькі разоў больш, чым ацэнкі з 26 даступных нам эксперыментаў. Справа ў тым, што калі б мы ў нейкай сферы маглі б эксперыментам атрымаць такія вынікі, пра расізм у гэтай сферы ведалі б усе: акадэмікі, вашая бабуля, Грышка Азаронак б пра гэта распавядаў у сваёй перадачы і г.д.

Арыгінальныя твіты па стане на сёння ўжо выдаленыя. Ну, хоць так.
#statistics

Такое не ўсім будзе цікава. Але я фанат інтэрактыўных візуалізацый, а гэтая візуалізацыя - мастацкі твор. Да таго ж, канал называецца лінейная (рэ)грэсія.

Калі вы даўно хацелі зразумець, ці аднавіць веды пра тое, як працуе лінейная рэгрэсія, лепш часу не знайсці. Візуалізацыі іншых канцэптаў у машынным навучанні там таксама ёсць, настолькі ж чароўныя.

https://mlu-explain.github.io/linear-regression/