NoML Digest
1.85K subscribers
76 photos
1 video
2 files
599 links
База знаний https://noml.club
Чат https://t.me/noml_community
YouTube https://www.youtube.com/@NoML_community

По всем вопросам к @psnurnitsyn
Download Telegram
В этот четверг, 11 ноября в 21:00 МСК дискутируем на тему графических интерфейсов вокруг ML и продвинутой аналитики.

Пристально посмотрим на весь жизненный цикл моделей и разберёмся, где действительно графический интерфейс упрощает работу или даже необходим, а где без кода все равно никак не обойтись.

К дискуссии уже обещают подключиться Максим Гончаров и Александр Собенников из GlowByte Advanced Analytics 😎, и вы подключайтесь!

Встречаемся в голосовом чате.
Классический пример интерфейса для данных и аналитики - инструменты BI. А тут коллеги как раз организуют конференцию GlowByte Tableau Adventure, которая пройдёт в онлайн формате 25 ноября с 15.00 до 17.00.

На конференции BI эксперты из Работа.ру, Райфайзен Банк, Самолет Девелопмент, GlowByte Consulting поделятся практическими кейсами применения Tableau в важнейших процессах компаний, обсудят лайфхаки по нетиповой визуализации сложных данных и расскажут о преимуществах и сложностях внедрения Data-Driven подхода.

За 2 часа, вы узнаете:
📌 Как вовлечь руководителей в реальное использование BI. Алексей Бурин, Райфайзен Банк.
📌 Сложности и нетривиальные подходы к визуализации данных по продажам недвижимости в Tableau. Валерия Мережникова, Самолет Девелопмент.
📌 Как стать Data-Driven компанией и почему Tableau один из ключевых элементов в этом процессе. Елена Артемьева, Работа.ру.
📌 О наиболее важных подходах и принципах создания дизайн-систем. Сможете определить, когда она становится критически важной для развития BI в компании. Екатерина Благирева, GlowByte.

Присоединяйтесь к нашему приключению в мире красивых данных!

Регистрируйтесь по ссылке и участвуйте в розыгрыше полезных для каждого аналитика призов от компании GlowByte=)
Тут недавно обнаружился новый термин: MLGUI🤦
📌 Building MLGUI, user interfaces for machine learning applications

Насколько я понял, это по сути то, что мы когда то обозвали аналитическими приложениями и у нас уже даже была дискуссия на эту тему:
🎙 запись голосового чата и анонс

Еще по поводу этого термина поучаствовал недавно вместе с другими авторами вот в этой статье:
📌 ML с человеческим лицом: могут ли интерфейсы сделать машинное обучение понятным и доступным
Статья получилась про интерфейсы вокруг ML в принципе, собственно что и хотим пообсуждать завтра в голосовом чате, подключайтесь=)

Мне кстати еще не очень нравится термин именно MLGUI, потому что тема важная не только в контексте проектов с использованием именно ML, а в целом в проектах с использованием сложной аналитики данных.
А вы что думаете? Раз уж вводить новые термины, MLGUI или лучше все таки DSGUI?
Еще немного мыслей, которые не совсем вошли в статью про MLGUI.

Как мы знаем, жизненный цикл модели (ЖЦМ) верхнеуровнево и упрощенно выглядит как-то так
1️⃣ Подготовка данных и фичей
2️⃣ Обучение модели и всякий прочий data science
3️⃣ Вывод полученных результатов в ПРОД
4️⃣ Использование модели в процессе принятия бизнес решений
5️⃣ Регулярные мониторинг и валидация модели (и данных) и соотвественно после того как модель рано или поздно деградирует или потеряет актуальность, возврат к шагу 1

В процессе этого ЖЦМ участвует много различного рода “пользователей”:
1️⃣ Инженеры данных, которые являются пользователями платформы данных и инструментов по обработке данных
2️⃣ Датасайнтисты/Специалисты по ML, которые являются пользователями ML платформы и инструментов по обучению моделей
3️⃣ ML и MLOps инженеры, которые отвечают за продуктивизацию конечного решения и являются пользователями MLOps инструментов
4️⃣ Собственно бизнес эксперты и аналитики которые как раз участвуют в процессах принятия решений при помощи DS/ML приложений
5️⃣ Все неравнодушные к судьбе модели и решений на ее основе

И у каждого из этих пользователей есть свой UI: и CLI, и API, и GUI. С написанием кода на Python, SQL и прочей Scala все понятно, это общепринятые рабочие инструменты специалистов по DS/ML. Но на каждом этапе и для каждой роли может быть и набор GUI:
1️⃣ Для инженеров данных есть свои NoCode и LowCode инструменты, а также наши любимые инструменты класса Feature Store, которые в том числе представляют и GUI для работы с данными на стороне датаинжинеров и датасайнтистов.
2️⃣ Для датасайнтистов есть и NoCode/LowCode инструменты для конструирования процесса аналитики, и различные инструменты для интерпретации результатов и прочей визуализации архитектур сетей, и решения класса AutoML тоже часто имеют в себе GUI и еще много чего.
3️⃣ Для MLOps инженеров в части задач именно вывода моделей и аналитики в ПРОД также есть GUI и в уже общепринятых DevOps инструментах, и в новых специализирвоанных MLOps инструментах.
4️⃣ Для использующих модели бизнес аналитиков, экспертов и инженеров - как раз аналитические приложения или DSGUI/MLGUI.
5️⃣ Ну а в случае дэшбордов мониторинга и различных инструментов для Model Performance и Observability GUI подразумевается само собой

В этом многообразии GUI вокруг ЖЦМ есть еще один пункт
🔄 Тот самый пока еще один XOps, который про обертку всего этого добра (мысли про который возникли тут). Пока DS команда небольшая и задач перед ней стоит не очень много, участники и роли могут работать со своими разрозненными инструментами как кому удобно: кто-то пишет код и скрипты, кто-то использует NoCode и AutoML, кто-то из бизнес аналитиков смотрит на данные через Excel, а кто-то просит MLGUI. Но с ростом команды и количества проектов появляется необходимость сквозного управления и всем этим тех. стеком и всеми бизнес процессами, которые над ним крутятся. И в идеале нужен единый интерфейс - точка входа для всех ролей, который как раз будет сшивать и многообразие инструментов и процессы решения бизнес задач.

Можно было бы ввести термин MLUX=), как раз про то как со всеми аспектами ML взаимодействуют разные роли, но его уже кто-то занял для другой темы: https://medium.com/ml-ux/what-is-ml-ux-71d5e6d6ce9


P.S.: А если вернуться к MLGUI/DSGUI, то тут тоже напрашивается свой Ops) Пока концепция аналитических приложений работает скорее в режиме прототипирования, то есть сделать по быстрому простое приложение и дать его в руки 1-3 бизнес пользователям которые его покрутят, без решения вопросов серьезной пользовательской нагрузки и инфобеза. Но сама по себе концепция таких быстро и просто собранных приложений на стороне команды DS вполне себе может претендовать на уровень ПРОД системы, с большей пользовательской нагрузкой и решенными вопросами ИБ. Так что ждем инструменты, на которых можно будет выстраивать такие фабрики аналитических приложений и вообще делать MLGUIOps)

В общем, подключайтесь в голосовому чату сегодня вечером, будем новые термины придумывать))
В контексте вот этого обсуждения обещали статью с деталями про опыт внедрения Kubeflow в варианте on prem. Cтатья доехала)
📌 Опыт внедрения Kubeflow в кластере Kubernetes

🐓🐓🐓
На этой неделе у нас выходит подкаст по необычной теме: "Поведенческая экономика". Ведь каждый аналитик хоть раз в жизни да и сталкивался с предложением почитать книгу Даниэля Канемана "Думай медленно - решай быстро".

Выпуск появится завтра на всех основных площадках, а пока подборка от Натальи Тогановой (@nataliatoganova), что можно почитать по теме:

📌 Kahneman D. Thinking fast and slow. - Только не стоит забывать, что со времени написания книги прошло сколько-то лет и часть исследований, на которых она базируется были признаны слегка сфальсифицированными (например, идея фрейминга).
📌 Kahneman D., Sibony O., Sunstein C. Noise: A Flaw in Human Judgment. - Вышла в 21 году и свежий мастрид по теме.
📌 Thaler R.H., Sunstein C. Nudge: Improving Decisions About Health, Wealth, and Happiness. - Берите переизданную авторами книгу с поправками, где они учли развитие событий и вычеркнули все те исследования, которые были признаны ошибочными.
📌 Thaler R.H. Misbehaving: The Making of Behavioral Economics. - Местами хардкор. Но любимая глава это про то, как профессора делили кабинеты в новом здании. Глава эта в конце - но дочитайте, получите несказанное удовольствие.

Если вы любите экономику и как-то пршли мимо, то конечно же это книги: Akerlof G. и Shiller R. Хочется написать все, но приведем три:
📌 "Animal Spirits: How Human Psychology Drives the Economy, and Why It Matters for Global Capitalism"
📌 "Phishing for Phools: the Econmics of Manipulation and Deception"
📌 "Narrative Economics: How Stories Go Viral and Drive Major Economic Events".

Книги в которых есть много о том, как избегать байясов или хотя бы стремиться к этому, ведь именно по этому мы как аналитики должны стремиться:
📌 Rosling H., Roennlund A., Rosling O. Factfulness: Ten Reasons We're Wrong About the World -- and Why Things Are Better Than You Think. - Хорошая книга, поскольку на привычных и знакомых многим реалиях показывает, на сколько мы ошибаемся.
📌 Weinberg G., Mcann L. Super Thinking: The Big Book of Mental Models. В этой книге собраны концепции, к которым порой легко обратиться (или точнее обращаются), чтобы оценить какой-то процесс на вскидку. Так называемые rules of thumb.
📌 Levitin D. The Organized Mind: Thinking Straight in the Age of Information Overload. - В книге масса подходов к разным вопросам. Много всего дельного. Например, система как придумывать пароли от все возможных сервисов так, чтобы их не забывать.
📌 Harford T. How to Make the World Add Up: Ten Rules for Thinking Differently About Numbers. Прекрасные примеры, когда люди обсчитывались и ошибались в суждениях. Хорошее чтиво для выходного дня.
Ранее уже писал, что у нас планируется регулярный Семинар NoML.

Для начала еще одно небольшое нововведение по структуризации происходящего. Мы тут осознали, что в силу бэкграунда и сферы интересов особо активных участников сообщества, у нас есть вполне себе конечный список тем, на которые мы любим говорить больше всего. Пока выделю следующие:

Из методов:
✔️Математическая оптимизация
✔️Причинность и контролируемые эксперименты

Из предметных областей:
✔️Модели в кредитных рисках
✔️Анализ данных в задачах цепочек поставок
✔️PMQ (Predictive Maintenance and Quality) и вообще анализ данных в производстве

Из технологий:
MLOps/ModelOps вообще, но в особенности
✔️Feature Store и данные для ML
✔️Model Performance (валидация, мониторинг и прочие вопросы)

Поэтому возникла мысль попытаться выстроить семинары в некоторый последовательный рассказ по соответствующим темам, от простого к более сложному. Другим словами семинары будут сгруппированы в своего рода тематические треки по перечисленным выше темам. Список треков очень надеюсь будет расширяться со временем.


Собственно ближайший семинар у нас будет сразу на пересечении аж двух треков: оптимизация и PMQ:
😎 Александр Собенников (GlowByte AA) расскажет про "Оптимизацию графиков производства на примере отгурзки нефтепродуктов"

Семинар состоится 24 ноября, в 17:00 МСК, добавляйте таймблоки в календари, ссылка для подключения будет тут ближе к делу.

Ну и семинары будут записываться и отправляться в соответствущие плейлисты по трекам в наш канал YouTube, на который, кстати, надо подписаться, чтобы поскорее выполнились условия выдачи ему короткой ссылки вместо текущего UC1eotnzPk1aD8y85lrntE9Q)
Итак, в эту среду 24 ноября в 17:00 МСК собираемся на первый семинар NoML.

Докладывать будет 😎 Александр Собенников, руководитель направления PMQ, GlowByte Advanced Analytics.

Краткий план доклада:
📌 Введение в математическую оптимизацию
📌 Сведение задачи графикования к методам оптимизации
📌 Движки для решения задач программирования в ограничениях (CP - Constraint Programming) и смешанного целочисленного программирования (MIP - Mixed-Integer Programming)
📌 Пример реализации для задачи графикования отгрузки нефтепродуктов

Собираемся в Google Meet, ссылка для подключения:
https://meet.google.com/cyt-pnjn-dvi
В последнем выпуске подкаста Валентин затрагивал много вопросов вокруг анализа данных для маркетинга и клиентской аналитики. Пара книг по теме:

📚 G.S. Linoff, M.J.A. Berry - Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management
Когда то давно сам по этой книге знакомился с предметной областью, разделы именно про бизнес задачи вроде бы не потеряли актуальность.
📚 I.Katsov - Introduction to Algorithmic Marketing
А вот эту книгу коллеги очень рекомендуют.

Может быть у кого-то еще есть список рекомендаций полезных материалов по теме DS в маркетинге? Делитесь)
Обычно в начале и в конце года все кругом начинают особенно интенсивно писать и говорить про грядущие тренды. Если кто-то помнит, весной, как раз на заре NoML, мы тоже не отстали и обсудили тренды в области данных и аналитики по мотивам поста Gartner.

В преддверии приближающегося 2022 года снова будем обсуждать "тренды" в области анализа данных. В кавычках, потому что претендовать на точный прогноз глобальных трендов не будем, а то мы ведь в Гартнерах не работали) Будет интересно поделимся друг с другом мыслями про наши личные тренды, кто и на что собирается обратить внимание в своей работе в следующем году.

Собираемся в этот четверг, 9 декабря в 21:00 МСК в голосовом чате.
До встречи в эфире=)
Пройдемся по трендам, о которых пишет Gartner.

📌 The 4 Trends That Prevail on the Gartner Hype Cycle for AI
1) Операционализация ИИ
Все понятно)
2) Эффективное использование данных, моделей и вычислений
В тексте под этим трендом написано про Composite AI - составной подход конструирования решений на базе AI/ML. В таких приложениях у нас давно не одна модель и не одна технология, а аналитический каскад данных, предиктивных и оптимизационных моделей и бизнес правил.
3) Ответственный ИИ
И вообще как говорит Саша Бородин, "Используйте ML осознанно”).
А по теме осознанности: я все жду, когда хайп закончится, наступит и осознание и где-то даже разочарование со стороны бизнеса о возможностях ML/AI, и случится наконец выход на плато продуктивности.
4) Данные для ИИ
Andrew Ng говорит, что чтобы модели строить нужны данные норм)
А если серьезно интересно, что все заговорили про small data и wide data.

📌 Gartner Top Strategic Technology Trends for 2022
"12 стратегических трендов", но если взять проекцию на область данных и аналитики, многие тренды хорошо ложатся на свойства платформы и процессов data & analytics (D&A).
Trend 1: Data Fabric
Во-первых, это общий тренд в управлении корпоративными данными. Во-вторых, как когда то уже рассуждали, глобальные принципы Data Fabric находят очень хорошее применение локально, при проектировании Feature Store, например.
Trend 3: Privacy-Enhancing Computation
В контексте D&A формируется область Privacy AI или Privacy Analytics, основная задача: как организовать анализ данных без доступа к детальным индивидуальным данным. В ближайшие годы, например, точно увидим много кейсов применения гомоморфного шифрования в контексте анализа данных. Ну и инструменты и технологии Privacy Analytics станут неотъемлемой частью платформ D&A.
Кстати это прямо мой личный тренд на следующий год=)
Trend 4: Cloud-Native Platforms
Нужен облачный ModelOps и облачные платформы D&A)
Trend 5: Composable Applications
Проекции на D&A видится целых 2:
1) Сами корпоративные платформы для анализа данных стали сильно композитными, если вспомнить как сейчас много решений и инструментов, закрывающих ту или иную задачу жизненного цикла аналитики, то становится понятно что платформа D&A в каждом случае собирается по отдельным кусочкам.
2) Сами платформы для управления жизненным циклом аналитики должны оперировать композитными и составными решениями, опять же, модель больше не одна модель, а аналитический каскад данных, моделей и бизнес правил.
Trend 6: Decision Intelligence
Взгляд на задачи анализ данных и управление жизненным циклом аналитики через призму решаемой бизнес задачи.
Нужен Decision Ops))
Trend 7: Hyperautomation
В контексте D&A хотим заавтоматизировать ModelOps настолько насколько это возможно)
Trend 8: AI Engineering
Очередной инжиниринг для тех кому не хватило DE и MLE;-)
Trend 11: Autonomic Systems
Опять же на задачи конструирования приложений на базе технологий непрерывного дообучения и прочего RL можно и нужно смотреть в контексте общей платформы для анализа данных и жизненного цикла моделей. Причем работает в обе стороны: тут и задачи построения автономно работающих систем решаются во многом за счет платформы, и сами такие задачи выдвигают новые требования к платформам управления моделями и аналитикой.
Trend 12: Generative AI
Тут и так понятно)

В общем, подводя итог всему перечисленному, можно выделить главный тренд: становление понимания полноты ModelOps и вообще Data & Analytics платформ, как стека технологий, так и методологических процессов над ним.
Коллеги подготовили статью с перечислением бизнес кейсов графовой аналитики:
📌 Графовый анализ - обзор и области применения


Кстати, интересно, в трендах ли еще графы как универсальный супер мега инструмент, который может улучшить решение любой бизнес задачи (см., например, тут - Trend No. 8: Graph relates everything)? Кажется, что скорее очень хорошо работает для отдельно взятых нишевых задач, но серебряной пулей точно не является. Что думаете?
Интересно, что все любят высказывать прогнозы трендов, но про оценку качества своих предсказаний редко кто говорит.

Вот бы все также делали ретроспективу:
📌 2021 AI Predictions: What We Got Right And Wrong

И тут же какие-то тренды на 2022:
📌 The 5 Biggest Data Science Trends In 2022
⚡️⚡️⚡️Оформили программу нашего внезапного предновогоднего митапа по теме Feature Store.
Встречаемся очно в Москве 28 декабря в 18:00.

Детали и регистрация по ссылке. В программе:

😎 Иван Аникин, Team Lead ML Engineering, Big Data Lenta
FeatureStore - больше, чем просто фичи

😎 Сергей Ярымов, Data Engineer в МТС Big Data
Опыт построения корпоративного Feature Store

🎅 Дед Мороз
Расскажет что-то про Feature Store

😎 Спикеры, а также в лучших традициях наших голосовых чатов, все желающие
Круглый стол: Feature Store - хайп или необходимость

🍾🥂 Фуршет и свободное общение

Регистриуйтесь и приходите!
Выпуск подкаста Дайте Данных с Полиной Полуниной затрагивает тему "Как попасть в Data Science". Поэтому мы решили сделать подборку связанную как с переходом в DS, так и с любыми изменениями в профессиональной жизни. (Спасибо, @nataliatoganova=))

🎙 Есть множество классных подкастов, в которых можно послушать истории перехода в ИТ и в аналитику данных: IT-шниками не рождаются, Becoming a Data Scientist, Каждый может.

✔️ Практически у всех ключевых игроков на рынке дополнительного образования в области аналитики данных и Data Science есть прекрасные сайты, сообщества, каналы, блоги и т.п. с большим количеством полезной информации. (Мы просто не знаем, на кого дать ссылку, чтобы другие не обиделись.... гугл в помощь)))


Поскольку нехватки в личных историях и советах по переходу в профессию нет, то мы решили накидать просто литературы, которая немного об изменениях, немного о переходах и в любом случае - с хорошим чувством юмора и сможет поддержать вас когда фит не придиктиться.

📌 Адам Грант "Подумайте еще раз. Сила знания о незнании" - Эту книжку надо читать, если вдруг вам мешает жить мысль о том, что "свое мнение нельзя менять ни в коем случае". Можно и это даже порой полезно. Поэтому если интересует data science непременно стоит попробовать.
📌 Scott Adams "How to Fail at Almost Everything and Still Win Big: Kind of the Story of My Life" - Кажется, эту книгу все еще не перевели на русский. А зря. Это одна из книг автора комиксов про Гилберта, в которой он рассказывает, как постоянно терпел неудачи в жизни и все равно двигался вперед. Очень смешная.
📌 Елена Резанова "Никогда-нибудь" - Кажется, уже классика жанра российского производства об изменениях. Коротко, весело и по делу.
📌 Уильям Ирвин "Радость жизни. Философия стоицизма для XXI века" - Если все перечисленное выше не помогло и код все еще не пишется, то современное прочтение стоиков всегда в кассу.

Да, если вы хотите подборку более серьезных книг по DS и связанным вещам - пишите, составим😉