NoML Digest
1.86K subscribers
76 photos
1 video
2 files
600 links
База знаний https://noml.club
Чат https://t.me/noml_community
YouTube https://www.youtube.com/@NoML_community

По всем вопросам к @psnurnitsyn
Download Telegram
Периодически мониторю какие-то рассылки и подписки по ключевым словам MLOps и ModelOps. Тема на хайпе, пишут про MLOps все подряд, и в результате последнее время 99% этих статей состоят просто из каких-то рандомных перестановок предложений со словами ML, DevOps, MLOps, грустных историй про то, что те несчастные 80% ML моделей все так никак и не могут дойти до прода, ну и еще про то, почему у CDO или CIO есть очередные N причин уделить внимание MLOps в этом году.

Но среди этого потока иногда попадается что-то полезное. Хочу порекомендовать вот этот текст:
📌 Ville Tuulos, Hugo Bowne-Anderson - MLOps and DevOps: Why Data Makes It Different

Во-первых, в статье аргументы про различие DevOps и MLOps, а именно почему у парадигмы data-centric programming свой особый путь. Вопрос про границы между DevOps и MLOps и то, является ли последний подмножеством первого, интересный, надеюсь сегодня его как следует обсудим в голосовом чатике=)

Во-вторых, хорошее выделение слоёв ML проектов и как следствие в принципе платформы для анализа данных:
- Data
- Compute
- Orchestration
- Versioning
- Software Architecture
- Model Operations
- Feature Engineering
- Model Development
И плюс важный тезис, про который в целом как-то мало говорят, а именно про процессы A/B тестирования и экспериментирования, которые распространяются на несколько слоев и проекта и платформы.

И в-третьих, еще один важный тезис, про который тоже мало говорят: “Wrapping The Stack” (так и переведём, обёртывание=)).
В каждом слое есть много инструментов, которые хорошо решают свою частную задачу общего проекта по анализу данных. При этом возникает потребность обернуть весь этот стек инструментов в единое решение так, чтобы, во-первых, команды анализа данных могли сосредоточиться на последних слоях платформы и абстрагироваться от более технических слоев, а, во-вторых, сделать взаимодействие стека инструментов этих слоев более бесшовным.
Если этого достичь, то можно надеяться на то, что команды анализа данных будут более эффективно решать бизнес задачи целиком, от проверки гипотез и прототипирования до внедрения и улучшения в процессе эксплуатации.
В качестве примеров таких обёрток авторы приводят инструменты типа Metaflow и Kubeflow.

Дальше хочу уже от себя добавить про необходимость еще одного уровня обёрток, который призван соединить не только технические слои ML, но и бизнес контекст решаемой задачи. Такая обёртка позволит оперировать сущностями более высокого уровня, чем датасет, фичи и модель, а именно: группа связанных моделей, сквозные эксперименты и правила принятия решений в конечном бизнес процессе.

После последней мысли вспоминается, во-первых, вопрос про разницу между терминами MLOps и ModelOps, а во-вторых, напрашивается еще один XOps, который как раз про операционализацию процесса принятия решений на базе ML и аналитики. До этого вопроса тоже быть дойдем в нашей дискуссии сегодня, подключайтесь!

Ну и собственно ждем больше статей на тему эффективного обёртывания ML в домашних условиях)
Про сумасшедший ландшафт MLOps инструментов.

📌 Ресурс The State of MLOps. И небольшая статья с аналитикой по данным из этого ресурса:
The state of MLOps in 2021 is dominated by startups
Статья, правда, начинается с фразы "87% of data science projects never make it into production"🤦

📌 Еще один ресурс со сводной информацией про инструменты MLOps: MLOps.toys.

📌 Тут не только про ML, но в принципе про данные и аналитику: MAD Landscape. И статья в придачу:
The 2021 machine learning, AI, and data landscape

📌 Также напомню, что есть отдельный ресурс про Feature Store
Правда сводная табличка про проекты FS кажется немного мертвой…


О том, что мы планируем с этим всем делать (по крайней мере в части MLOps) напишу на следующей неделе😉
Всем привет!

У нас небольшие изменения по происходящему в этом канале.

Теперь, будет так: каждую неделю есть одно основное событие и связанная с ним подборка материалов. Список событий, у нас на текущий момент, состоит из войсчата и подкаста. То есть теперь на неделе, когда выходит подкаст, у нас не будет голосового чата.

Список видов событий мы планируем расширять, например, совсем скоро у нас появятся онлайн семинары с презентациями, погружением в технические детали и в общем все, как многие просили) Первый семинар запланирован на 24 ноября, ближе к делу напишем анонс. К началу года планируем выйти на регулярность семинаров раз в две недели.

Еще из изменений: войсчаты больше не будем записывать, надеемся, так будет более расслабленная и неформальная обстановка с возможностью пофлудить на около MLные темы.

Собственно на этой неделе у нас новый выпуск подкаста, как появится на основных платформах, напишем дополнительно)

А еще мы завели канал на YouTube, там тоже есть подкаст, и там будут появляться записи онлайн семинаров.
Коллеги из МКБ приглашают принять участие в хакатоне для специалистов по Data Science:


Московский кредитный банк (МКБ) организует онлайн хакатон для молодых специалистов по Data Science. Если ты студент последних курсов или начинающий специалист, прояви свои таланты и выиграй отличные призы!  В хакатоне предстоит построить модель оценки вероятности выполнения обязательств клиентом банка при получении банковской гарантии. Победителей определяем в два этапа:
1️⃣ Шортлист из 10 решений будет выбран по специальной метрике с помощью искусственного интеллекта.
2️⃣ Тройку победителей выберет комиссия экспертов.

Что на кону:
MacBook Pro, MacBook Air или iPhone.
Предложение присоединиться к уникальному коллективу одного из крупнейших банков России.

Старт Хакатона – 01.11.2021, Финиш – 30.11.2021.

Подробности по ссылке:  

Попробуй свои силы в новом хакатоне от МКБ!
В этот четверг, 11 ноября в 21:00 МСК дискутируем на тему графических интерфейсов вокруг ML и продвинутой аналитики.

Пристально посмотрим на весь жизненный цикл моделей и разберёмся, где действительно графический интерфейс упрощает работу или даже необходим, а где без кода все равно никак не обойтись.

К дискуссии уже обещают подключиться Максим Гончаров и Александр Собенников из GlowByte Advanced Analytics 😎, и вы подключайтесь!

Встречаемся в голосовом чате.
Классический пример интерфейса для данных и аналитики - инструменты BI. А тут коллеги как раз организуют конференцию GlowByte Tableau Adventure, которая пройдёт в онлайн формате 25 ноября с 15.00 до 17.00.

На конференции BI эксперты из Работа.ру, Райфайзен Банк, Самолет Девелопмент, GlowByte Consulting поделятся практическими кейсами применения Tableau в важнейших процессах компаний, обсудят лайфхаки по нетиповой визуализации сложных данных и расскажут о преимуществах и сложностях внедрения Data-Driven подхода.

За 2 часа, вы узнаете:
📌 Как вовлечь руководителей в реальное использование BI. Алексей Бурин, Райфайзен Банк.
📌 Сложности и нетривиальные подходы к визуализации данных по продажам недвижимости в Tableau. Валерия Мережникова, Самолет Девелопмент.
📌 Как стать Data-Driven компанией и почему Tableau один из ключевых элементов в этом процессе. Елена Артемьева, Работа.ру.
📌 О наиболее важных подходах и принципах создания дизайн-систем. Сможете определить, когда она становится критически важной для развития BI в компании. Екатерина Благирева, GlowByte.

Присоединяйтесь к нашему приключению в мире красивых данных!

Регистрируйтесь по ссылке и участвуйте в розыгрыше полезных для каждого аналитика призов от компании GlowByte=)
Тут недавно обнаружился новый термин: MLGUI🤦
📌 Building MLGUI, user interfaces for machine learning applications

Насколько я понял, это по сути то, что мы когда то обозвали аналитическими приложениями и у нас уже даже была дискуссия на эту тему:
🎙 запись голосового чата и анонс

Еще по поводу этого термина поучаствовал недавно вместе с другими авторами вот в этой статье:
📌 ML с человеческим лицом: могут ли интерфейсы сделать машинное обучение понятным и доступным
Статья получилась про интерфейсы вокруг ML в принципе, собственно что и хотим пообсуждать завтра в голосовом чате, подключайтесь=)

Мне кстати еще не очень нравится термин именно MLGUI, потому что тема важная не только в контексте проектов с использованием именно ML, а в целом в проектах с использованием сложной аналитики данных.
А вы что думаете? Раз уж вводить новые термины, MLGUI или лучше все таки DSGUI?
Еще немного мыслей, которые не совсем вошли в статью про MLGUI.

Как мы знаем, жизненный цикл модели (ЖЦМ) верхнеуровнево и упрощенно выглядит как-то так
1️⃣ Подготовка данных и фичей
2️⃣ Обучение модели и всякий прочий data science
3️⃣ Вывод полученных результатов в ПРОД
4️⃣ Использование модели в процессе принятия бизнес решений
5️⃣ Регулярные мониторинг и валидация модели (и данных) и соотвественно после того как модель рано или поздно деградирует или потеряет актуальность, возврат к шагу 1

В процессе этого ЖЦМ участвует много различного рода “пользователей”:
1️⃣ Инженеры данных, которые являются пользователями платформы данных и инструментов по обработке данных
2️⃣ Датасайнтисты/Специалисты по ML, которые являются пользователями ML платформы и инструментов по обучению моделей
3️⃣ ML и MLOps инженеры, которые отвечают за продуктивизацию конечного решения и являются пользователями MLOps инструментов
4️⃣ Собственно бизнес эксперты и аналитики которые как раз участвуют в процессах принятия решений при помощи DS/ML приложений
5️⃣ Все неравнодушные к судьбе модели и решений на ее основе

И у каждого из этих пользователей есть свой UI: и CLI, и API, и GUI. С написанием кода на Python, SQL и прочей Scala все понятно, это общепринятые рабочие инструменты специалистов по DS/ML. Но на каждом этапе и для каждой роли может быть и набор GUI:
1️⃣ Для инженеров данных есть свои NoCode и LowCode инструменты, а также наши любимые инструменты класса Feature Store, которые в том числе представляют и GUI для работы с данными на стороне датаинжинеров и датасайнтистов.
2️⃣ Для датасайнтистов есть и NoCode/LowCode инструменты для конструирования процесса аналитики, и различные инструменты для интерпретации результатов и прочей визуализации архитектур сетей, и решения класса AutoML тоже часто имеют в себе GUI и еще много чего.
3️⃣ Для MLOps инженеров в части задач именно вывода моделей и аналитики в ПРОД также есть GUI и в уже общепринятых DevOps инструментах, и в новых специализирвоанных MLOps инструментах.
4️⃣ Для использующих модели бизнес аналитиков, экспертов и инженеров - как раз аналитические приложения или DSGUI/MLGUI.
5️⃣ Ну а в случае дэшбордов мониторинга и различных инструментов для Model Performance и Observability GUI подразумевается само собой

В этом многообразии GUI вокруг ЖЦМ есть еще один пункт
🔄 Тот самый пока еще один XOps, который про обертку всего этого добра (мысли про который возникли тут). Пока DS команда небольшая и задач перед ней стоит не очень много, участники и роли могут работать со своими разрозненными инструментами как кому удобно: кто-то пишет код и скрипты, кто-то использует NoCode и AutoML, кто-то из бизнес аналитиков смотрит на данные через Excel, а кто-то просит MLGUI. Но с ростом команды и количества проектов появляется необходимость сквозного управления и всем этим тех. стеком и всеми бизнес процессами, которые над ним крутятся. И в идеале нужен единый интерфейс - точка входа для всех ролей, который как раз будет сшивать и многообразие инструментов и процессы решения бизнес задач.

Можно было бы ввести термин MLUX=), как раз про то как со всеми аспектами ML взаимодействуют разные роли, но его уже кто-то занял для другой темы: https://medium.com/ml-ux/what-is-ml-ux-71d5e6d6ce9


P.S.: А если вернуться к MLGUI/DSGUI, то тут тоже напрашивается свой Ops) Пока концепция аналитических приложений работает скорее в режиме прототипирования, то есть сделать по быстрому простое приложение и дать его в руки 1-3 бизнес пользователям которые его покрутят, без решения вопросов серьезной пользовательской нагрузки и инфобеза. Но сама по себе концепция таких быстро и просто собранных приложений на стороне команды DS вполне себе может претендовать на уровень ПРОД системы, с большей пользовательской нагрузкой и решенными вопросами ИБ. Так что ждем инструменты, на которых можно будет выстраивать такие фабрики аналитических приложений и вообще делать MLGUIOps)

В общем, подключайтесь в голосовому чату сегодня вечером, будем новые термины придумывать))
В контексте вот этого обсуждения обещали статью с деталями про опыт внедрения Kubeflow в варианте on prem. Cтатья доехала)
📌 Опыт внедрения Kubeflow в кластере Kubernetes

🐓🐓🐓
На этой неделе у нас выходит подкаст по необычной теме: "Поведенческая экономика". Ведь каждый аналитик хоть раз в жизни да и сталкивался с предложением почитать книгу Даниэля Канемана "Думай медленно - решай быстро".

Выпуск появится завтра на всех основных площадках, а пока подборка от Натальи Тогановой (@nataliatoganova), что можно почитать по теме:

📌 Kahneman D. Thinking fast and slow. - Только не стоит забывать, что со времени написания книги прошло сколько-то лет и часть исследований, на которых она базируется были признаны слегка сфальсифицированными (например, идея фрейминга).
📌 Kahneman D., Sibony O., Sunstein C. Noise: A Flaw in Human Judgment. - Вышла в 21 году и свежий мастрид по теме.
📌 Thaler R.H., Sunstein C. Nudge: Improving Decisions About Health, Wealth, and Happiness. - Берите переизданную авторами книгу с поправками, где они учли развитие событий и вычеркнули все те исследования, которые были признаны ошибочными.
📌 Thaler R.H. Misbehaving: The Making of Behavioral Economics. - Местами хардкор. Но любимая глава это про то, как профессора делили кабинеты в новом здании. Глава эта в конце - но дочитайте, получите несказанное удовольствие.

Если вы любите экономику и как-то пршли мимо, то конечно же это книги: Akerlof G. и Shiller R. Хочется написать все, но приведем три:
📌 "Animal Spirits: How Human Psychology Drives the Economy, and Why It Matters for Global Capitalism"
📌 "Phishing for Phools: the Econmics of Manipulation and Deception"
📌 "Narrative Economics: How Stories Go Viral and Drive Major Economic Events".

Книги в которых есть много о том, как избегать байясов или хотя бы стремиться к этому, ведь именно по этому мы как аналитики должны стремиться:
📌 Rosling H., Roennlund A., Rosling O. Factfulness: Ten Reasons We're Wrong About the World -- and Why Things Are Better Than You Think. - Хорошая книга, поскольку на привычных и знакомых многим реалиях показывает, на сколько мы ошибаемся.
📌 Weinberg G., Mcann L. Super Thinking: The Big Book of Mental Models. В этой книге собраны концепции, к которым порой легко обратиться (или точнее обращаются), чтобы оценить какой-то процесс на вскидку. Так называемые rules of thumb.
📌 Levitin D. The Organized Mind: Thinking Straight in the Age of Information Overload. - В книге масса подходов к разным вопросам. Много всего дельного. Например, система как придумывать пароли от все возможных сервисов так, чтобы их не забывать.
📌 Harford T. How to Make the World Add Up: Ten Rules for Thinking Differently About Numbers. Прекрасные примеры, когда люди обсчитывались и ошибались в суждениях. Хорошее чтиво для выходного дня.
Ранее уже писал, что у нас планируется регулярный Семинар NoML.

Для начала еще одно небольшое нововведение по структуризации происходящего. Мы тут осознали, что в силу бэкграунда и сферы интересов особо активных участников сообщества, у нас есть вполне себе конечный список тем, на которые мы любим говорить больше всего. Пока выделю следующие:

Из методов:
✔️Математическая оптимизация
✔️Причинность и контролируемые эксперименты

Из предметных областей:
✔️Модели в кредитных рисках
✔️Анализ данных в задачах цепочек поставок
✔️PMQ (Predictive Maintenance and Quality) и вообще анализ данных в производстве

Из технологий:
MLOps/ModelOps вообще, но в особенности
✔️Feature Store и данные для ML
✔️Model Performance (валидация, мониторинг и прочие вопросы)

Поэтому возникла мысль попытаться выстроить семинары в некоторый последовательный рассказ по соответствующим темам, от простого к более сложному. Другим словами семинары будут сгруппированы в своего рода тематические треки по перечисленным выше темам. Список треков очень надеюсь будет расширяться со временем.


Собственно ближайший семинар у нас будет сразу на пересечении аж двух треков: оптимизация и PMQ:
😎 Александр Собенников (GlowByte AA) расскажет про "Оптимизацию графиков производства на примере отгурзки нефтепродуктов"

Семинар состоится 24 ноября, в 17:00 МСК, добавляйте таймблоки в календари, ссылка для подключения будет тут ближе к делу.

Ну и семинары будут записываться и отправляться в соответствущие плейлисты по трекам в наш канал YouTube, на который, кстати, надо подписаться, чтобы поскорее выполнились условия выдачи ему короткой ссылки вместо текущего UC1eotnzPk1aD8y85lrntE9Q)
Итак, в эту среду 24 ноября в 17:00 МСК собираемся на первый семинар NoML.

Докладывать будет 😎 Александр Собенников, руководитель направления PMQ, GlowByte Advanced Analytics.

Краткий план доклада:
📌 Введение в математическую оптимизацию
📌 Сведение задачи графикования к методам оптимизации
📌 Движки для решения задач программирования в ограничениях (CP - Constraint Programming) и смешанного целочисленного программирования (MIP - Mixed-Integer Programming)
📌 Пример реализации для задачи графикования отгрузки нефтепродуктов

Собираемся в Google Meet, ссылка для подключения:
https://meet.google.com/cyt-pnjn-dvi
В последнем выпуске подкаста Валентин затрагивал много вопросов вокруг анализа данных для маркетинга и клиентской аналитики. Пара книг по теме:

📚 G.S. Linoff, M.J.A. Berry - Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management
Когда то давно сам по этой книге знакомился с предметной областью, разделы именно про бизнес задачи вроде бы не потеряли актуальность.
📚 I.Katsov - Introduction to Algorithmic Marketing
А вот эту книгу коллеги очень рекомендуют.

Может быть у кого-то еще есть список рекомендаций полезных материалов по теме DS в маркетинге? Делитесь)