Лінейная (аг | рэг) рэсія
1.35K subscribers
83 photos
3 files
138 links
Пра даныя і як іх прыстасаваць да штодзённасці

Мяне можна знайсці

У твітары: https://twitter.com/aliaksandr_k
Англ: https://twitter.com/unfriendlydata
На лінкачы: https://www.linkedin.com/in/aliaksandr-kazlou-b5a86411b/
Ці ў тг: @shurackapalieski
Download Telegram
А як вы карыстаецеся нейрасеткамі?

Апроч тэхнічнай часткі мяне цікавіць практычны бок пытання: як б прыстасаваць навамодныя нейронкі да народнай гаспадаркі маіх штодзённых патрэбаў. Падзялюся прыкладамі

Я вучу Midjourney генерыраваць мне дызайны інтэр'ераў. Ідэя ў тым, каб перад рамонтам накляпаць 10-15 канцэпт-артаў на пакой і паказаць іх спецыялістам, замест таго, каб тлумачыць словамі, чаго я хачу. На карцінках два прыклады. Першы промпт: “прасторная сталовая ў стылі Праванс у блакітных колерах”. Другі: “спальня, хайтэк, мінімалізм, чорна-бела-шэрыя колеры”

Таксама спрабую навучыць яе маляваць татуіроўкі. Атрымліваецца слабей, чым з дызайнам інтэр’ераў, прыклады паказваць не буду, каб зберагчы вашую псіхіку.

Карыстаюся ChatGPT для таго, каб правіць свае тэксты англійскай. Часам, калі пішу вялікі, але нецікавы мне тэкст, пішу зусім абы-як і прашу перапісаць у прыгожым стылі. Перажываю, што аблянуюся і развучуся пісаць, але такая цана прагрэсу.

Ведаю, што мае сябры карыстаюцца генератарамі карцінак для таго, каб ствараць лагатыпы, ці ілюстрацыі да навін і іншыя падобныя рэчы. Выглядае зручна.

Падзяліцца ў каментах, якую вы карысць знаходзіце ў нейронках, а я пабег глядзець новую Жыццё-Маліна з Акудовічам.
Гуляўся ўвесь вечар з GPT-4:

1. Усё яшчэ блытае крыху з украінскай, блытае склоны і стварае англіцызмы.
2. Але агулам разумее беларускую куды лепш, чым GPT-3.
3. Лічыць беларусаў непахіснымі аптымістамі.
Не паспеў выйсці GPT-4, як выйшла 5 версія Midjourney. Ну штош:

1. Канстанцін Астрожскі
2. Стэфан Баторый
3. Эмілія Плятэр
4. Бона Сфорца

(Усё з партрэтаў, даступных у гугле)
Забаўны аналіз эфекту латарэй. Выйграць можна розныя сумы, аналіз прывязаны да ~140.000$ для зручнасці. Даныя са Швецыі.

Мужчыны, якім пашчасціла ў латарэю: для нежанатых, на 30% павышаецца шанец жаніцца, для жанатых – на 40% падае рызыка разводу, і на 13.5% павялічваецца колькасць дзяцей.

Для жанчын: нічога не мяняецца, апроч росту верагоднасці разводу цягам наступных 2 год – у 2 разы. Але на разводы цягам 10 год эфекту няма. Гіпотэза аўтараў: вялікая сума дапамагае раней выйсці са шлюбаў, якія і так развальваліся.
Не паспеў на першамай, але ўсё роўна: задаволенасць працай, заробкам і эканамічнай сітуацыяй у розных частках свету (лінк).

Больш за ўсё задаволеныя сваім заробкам у Азіі, потым у Афрыцы і менш за ўсё ў Еўропе. Эканамічнай сітуацыяй таксама больш за ўсё задаволеныя ў Азіі і ў Афрыцы.

Не дай бог вам жыць і працаваць у Еўропе, карацей.
Даследчыкі навучыліся з дапамогай LLM (ваш ChatGPT) атрымліваць 95% карэляцыю з этычнымі ацэнкамі, якія ў сярэднім дае чалавек. Шкала наступная: -4 — вельмі неэтычна, 4 — вельмі этычна.

Адказы на пытанні, якія вас даўно хвалявалі, па версіі GPT4:

1. Чалавек спрабуе адчыніць вокны ў маршрутцы бо яму спякотна і не хапае паветра
2. Чалавек спрабуе зачыніць вокны ў маршрутцы каб яго не прадула

0.12 vs -0.12

3. Хлопец прапанаваў заплаціць за каву пасля спаткання з дзяўчынай
4. Хлопец прапанаваў падзяліць рахунак за каву пасля спаткання з дзяўчынай

1.12 vs 0.12

5. Падчас пратэстаў супраць рэпрэсій, людзі залазілі на лавачку ў абутку
6. Падчас пратэстаў супраць рэпрэсій, людзі здымалі абутак перад тым, як залезці на лавачку

-0.76 vs 1.84

7. Чалавек шануе лакальную мову, але размаўляе на мове суседняй імперыялістычнай краіны
8. Чалавек шануе лакальную мову і перайшоў на яе з мовы суседняй імперыялістычнай краіны

0.12 vs 1.52

На выказванні "Чалавек — агентура, але не маргінэз" GPT4 паламаўся і не здолеў даць ацэнку
Вырашыў праверыць, дзе ў нас самая беларусізаваная эміграцыя

1. Даныя па чатах узяў адсюль. Толькі буйныя чаты з 1000+ удзельнікаў
2. У кожным чаце браў паведамленні ад удзельнікаў за сакавік-травень 2023
3. Мову вызначаў праз гэтую бібліятэку. Так, ёсць памылкі
4. Прапорцыя падлічаная ад агульная колькасці паведамленняў за гэты перыяд

Калі я нейкія чацікі ўпусціў, можаце напісаць мне ў каментарыі

*PS - па вертыкалі гэта прапорцыі, тобок 0.2 = 20%
Дзе людзі знаходзяць сваё каханне

Даныя па ЗША з 1940 па 2017 год. Цікавыя трэнды:

• 40% пар у 2017 сустрэліся анлайн
• Колькасць людзей якія пачалі сустракацца ў школе ўпала з ~28 да 5%. Думаю, згуляла ролю развіццё кантрацэпцыі і агульны трэнд на больш познія шлюбы. Школьным парачкам цяпер прасцей распадацца
• З 1960-ых па 2000-ыя гэтае падзенне кампенсавалася сустрэчамі ў каледжы. 21 стагоддзе, аднак, каледжы таксама не пашкадавала - падзенне з 10 да 4%
• З 2000-ых пачынаюць падзенне знаёмствы на працы. Магчыма згулялі ролю больш строгія карпаратыўныя палітыкі
• Таксама з 2000-ых пачынаюць упэўнена расці знаёмствы ў барах і рэстарацыях. Я лічу, што значная частка гэтага росту — людзі, якія пазнаёміліся анлайн, але пазначаюць месцы першага спаткання як месцы знаёмства
Падзенне знаёмстваў праз царкву і сям’ю. Тут таксама ўсё зразумела.
Я ўжо тлумачыў, чаму скептычна стаўлюся да даных Вардамацкага

Адна уласцівасць ягоных даных, якая мяне весяліць — гэта працэнты, якія не б’юцца ў 100% на ступень, якую нельга патлумачыць акругленнем.

Вось і зноў. На гэтым графіку за снежань 2021 былі згубленыя цэлыя 5%. У іншых перыядах сітуацыя часам не меней драматычная.

Гіпотэза, якая можа прыйсці да галавы – ёсць катэгорыя назіранняў, якую дропнулі, забылі паказаць на графіку і не сталі пералічваць працэнты. Чаму гэта малапраўдападобная гіпотэза можна зразумець, уважліва пачытаўшы графік.

Яшчэ раз. Памылкі ў аналізе даных робяць усе, гэта нармальна. Што ненармальна, гэта іхняя колькасць і пастаянства ў прэзентацыях Вардамацкага
Дзеля справы развіцця беларускага сегменту тг каналаў,

Дзялюся парачкай калянавуковых, калястатыстычных і адукацыйных каналаў

🔸adu.place

Канал пра адукацыйныя магчымасці для беларускай моладзі

🔸Вось, што я знайшоў у Вікіпэдыі

Канал пра рандомныя цікавыя факты з інтэрнэтаў. У тым ліку пра графікі, графікі я паважаю

🔸Адвечна думка🤔/Adwieczna dumka🤔

Канал аб філасофіі, сацыялогіі і беларускай літаратуры.

🔸Arte et humanitate

Пра выяўленчае мастацтва. Мала чаго ведаю пра мастацтвы, дапамагае мне адчуць сябе не прамым як слуп аналізатараў лічбаў, а чалавекам цывілізаваным, культурным
У беларускай сацыялогіі мяне турбуюць не толькі даныя Вардамацкага.

Вы маглі сустракаць апытанні Chatham House — пра падтрымку вайны ва Ўкраіне і г.д.

Ужо год з іхнімі выбаркамі адбываецца трансфармацыя, а менаівта расце колькасць людзей сталага ўзросту і падае колькасць усіх астатніх. Даволі драматычна — з 14% да 24%. Па іншых сацыя-дэмаграфічных паказчыках назіраецца падобнае, проста не настолькі драматычнае.

Праблема ці гэта? На маю думку — так. У СМІ часта абмяркоўваюць змены ў некалькі працэнтных пунктаў. Калі адказ на пытанне змяніўся на 3 працэнтныя пункты, а колькасць пенсіянераў у выбарцы — на 10, у мяне няма ўпэўненасці, што дынаміка, якую я бачу, не тлумачыцца (няхай і часткова) дэмаграфічнай трансфармацыяй іхніх выбарак. Так, даныя ў іх пераўзважаныя, каб быць больш падобнымі на дэмаграфію краіны. Але можна і выбарку ў 90% пенсіянераў пераўзважыць, было б жаданне. Фундаментальную праблему гэта не вырашае.

Тым не меней, яны вялікія малайцы, што выкладаюць свае данныя ў публічны доступ. У адрозненні ад іншых нашых сацыяльных вучоных.

Код для пабудовы графіка — тут.
Працягваю сачыць за прыгодамі даных Вардамацага. Бачу, што паспрабавалі выправіць. Бачу, што не атрымалася.

Вырашыў дапамагчы рабятам, інакш гэта доўга будзе цягнуцца. Калі ў каго-небудзь ёсць знаёмыя ў "Беларускай аналітычнай майстэрні" — перадайце, калі ласка
Як мянялася псіхалагічнае здароўе старшакласнікаў у залежнасці ад палітычнай арыентацыі

Гісторыя даволі простая: прыкладна да 2010-ых ліберальныя школьнікі і школьнікі кансерватыўныя адчувалі сябе аднолькава. А пасля 2010, у ліберальных старшакласнікаў пачынаюцца заўважныя праблемы з менталачкай.

Ну напрыклад: у 2000 годзе, прыкладна 20% усіх школьнікаў лічылі, што жыццё бессэнсоўнае. У 2020 годзе, кансерватыўныя старшакласнікі засталіся на 20%, а ліберальныя дабраліся да 40%. Аналагічна па амаль усіх пытаннях.

Чаму менавіта 2010? Цяжка сказаць. Напрыклад, гэта перыяд масавага выбуху сацыяльных сетак і смартфонаў.

У мяне заняло пэўны час знайсці, адкуль гэтыя даныя. Я на 80% упэўнены, што адсюль
Адна з маіх любіх гісторый пра паводзіны людзей і статыстыку —яна пра рост мужчын на сайтах і прыладах для знаёмстваў.

Чытаем першы графік: у Bumble мужчыны з ростам 6 футаў (~183 см) трапляюць у дыяпазон пошуку ~60% жанчын. А вось мужчыны на прыступку ніжэй, 5'11 (гэта на ~2.5 см менш) — ужо толькі 30%. Аналагічна, толькі ў іншы бок, пры пераходзе ад 6'11 да 7.

Чытаем другі графік: рост, які пазначаюць самі мужчыны (блакітная плошча) супраць рэальнага размеркавання росту мужчын (чырвоная лінія). Тое, што пазначаны рост заўважна вышэй сярэдняга па краіне гэта ладна — мабыць анлайн-дэйтынгам займаюцца больш высокія мужчыны. Што забаўна, гэта правал у ростах, які пачынаецца пасля 5'9 (~175 см) і скончваецца пікам роўна на 6 футах.

Як кажуць эканамісты: попыт, прапанова і асіметрыя інфармацыі.

Таксама рэкамендаваў б амерыканскім мужчынам крыху ніжэй 6 футаў пераязджаць у краіны з метрычнай сістэмай — упэўнены, што там пералом прыходзіцца на 180 санціметраў. Прыгожыя лікі — гэта важна.
Паўтары гады таму я вам распавядаў, як зорка Ted Talks фальсіфікаваў даныя сваіх эксперыментаў. Але гісторыя робіцца яшчэ лепш.

У паперы, пра якую ідзе размова, насамрэч некалькі эксперыментаў. З рознымі аўтарамі. І вось ускрылася, што ў адным з эксперыментаў, які быў праведзены іншай аўтаркай, таксама фальсіфікавалі даныя.

Яшчэ раз: у адной і той жа навуковай паперы, якая аналізуе несумленнасць, ёсць некалькі незалежных эксперыментаў, у кожным з якіх фальсіфікавалі даныя.

На гэтым смешнае не заканчваецца. Злавілі прафесарку Гарварда за руку роўна такім ж чынам, як папярэдняга фальсіфікатара — праз аналіз даных у эксэль-файлах. З іх бачна, што яна рукамі дадала туды новых удзельнікаў і змяніла ім значэнні пераменных так, каб атрымаць вынікі на карысць сваёй гіпотэзы.

Робіцца ці гэтая гісторыя яшчэ лепш? Канешне. Яна вырашыла падаць на рабят, якія выкрылі фальсіфікацыю, у суд. Сума пытання — 25 мільёнаў. Я пагартаў па дыяганалі пазоў і адна з яе асноўных прэтэнзій у тым, што рабяты, якія выкрылі фальсіфікацыі — мужчыны. Каб не было адчування, што я жартую, я прымацаваў скрыншот.

А некаторыя яшчэ лічаць, што акадэмія — гэта нудна.
Мой любімы аргумент у калянавуковых дэбатах — “гэта не можа быць праўдай таму што не можа быць праўдай”.

Гучыць не вельмі акадэмічна, га? Сачыце за рукамі. У 2011 годзе была апублікаваная папера пра суддзяў і ўмоўна-датэрміновае вызваленне з турмаў. Апынулася, што напачатку працы яны выносяць станоўчыя вердыкты ў 65% выпадкаў. А перад самым абедам — толькі ў 5%! А пасля абеду зноў вяртаюцца роўна на 65%! Гіпотэза, якую прыдумалі аўтары, прыгожая ў сваёй банальнасці: суддзі проста галодныя перад абедам. Галодныя і злыя.

На аўтараў адразу накінуліся крытыкі. Нехта рабіў сімуляцыі, нехта шукаў памылкі ў аналізе, нехта рабіў свой. Памылкі знайшлі, альтэрнатыўныя тлумачэнні прыдумалі, усё як мае быць. Але больш за ўсё мне спадабалася лінія разважання Daniel Lakens:

Падзенне з 65 да 5% — гіганцкае, 13-кратнае
• Памер гэтага эфекту, у стандартызаваных статыстычных адзінках, амаль роўны розніцы паміж ростам мужчын і жанчын
• Калі вы запытаецеся ў сваёй бабулі хто вышэйшы — мужчыны ці жанчыны, бабуля будзе ведаць адказ
• Таму, такі моцны эфект могуць мець толькі трывіяльныя факты: факты, пра якія мы не толькі ў курсе, а вакол якіх пабудаванае нашае грамадства
• А раз пра галодных суддзяў (і спецыялістаў іншых прафесій) бабуля не ў курсе, эфект не можа быць настолькі вялікім

Падзенне ўсё яшчэ можа прысутнічаць, натуральна. Проста не да 5%, скажам, а да 55%. Гэта ўсё яшчэ цікава, проста мае іншыя практычныя наступствы.