NoML Digest

Про захватывающие истории с Kubeflow можно начать читать в статье Антона)
🚀 Как мы в Банке «Санкт-Петербург» внедряли платформу машинного обучения

vc.ru

Как мы в Банке «Санкт-Петербург» внедряли платформу машинного обучения — Машинное обучение на vc.ru

Работа с моделями машинного обучения в Банке «Санкт-Петербург» ведется с 2010 года. Первопроходцами в этой области были подразделения по работе с кредитными и банковскими рисками, которые реализуют и поддерживают модели кредитного скоринга физических и юридических…

699 viewsPavel Snurnitsyn, 09:15

NoML Digest

Периодически мониторю какие-то рассылки и подписки по ключевым словам MLOps и ModelOps. Тема на хайпе, пишут про MLOps все подряд, и в результате последнее время 99% этих статей состоят просто из каких-то рандомных перестановок предложений со словами ML, DevOps, MLOps, грустных историй про то, что те несчастные 80% ML моделей все так никак и не могут дойти до прода, ну и еще про то, почему у CDO или CIO есть очередные N причин уделить внимание MLOps в этом году.

Но среди этого потока иногда попадается что-то полезное. Хочу порекомендовать вот этот текст:
📌 Ville Tuulos, Hugo Bowne-Anderson - MLOps and DevOps: Why Data Makes It Different

Во-первых, в статье аргументы про различие DevOps и MLOps, а именно почему у парадигмы data-centric programming свой особый путь. Вопрос про границы между DevOps и MLOps и то, является ли последний подмножеством первого, интересный, надеюсь сегодня его как следует обсудим в голосовом чатике=)

Во-вторых, хорошее выделение слоёв ML проектов и как следствие в принципе платформы для анализа данных:
- Data
- Compute
- Orchestration
- Versioning
- Software Architecture
- Model Operations
- Feature Engineering
- Model Development
И плюс важный тезис, про который в целом как-то мало говорят, а именно про процессы A/B тестирования и экспериментирования, которые распространяются на несколько слоев и проекта и платформы.

И в-третьих, еще один важный тезис, про который тоже мало говорят: “Wrapping The Stack” (так и переведём, обёртывание=)).
В каждом слое есть много инструментов, которые хорошо решают свою частную задачу общего проекта по анализу данных. При этом возникает потребность обернуть весь этот стек инструментов в единое решение так, чтобы, во-первых, команды анализа данных могли сосредоточиться на последних слоях платформы и абстрагироваться от более технических слоев, а, во-вторых, сделать взаимодействие стека инструментов этих слоев более бесшовным.
Если этого достичь, то можно надеяться на то, что команды анализа данных будут более эффективно решать бизнес задачи целиком, от проверки гипотез и прототипирования до внедрения и улучшения в процессе эксплуатации.
В качестве примеров таких обёрток авторы приводят инструменты типа Metaflow и Kubeflow.

Дальше хочу уже от себя добавить про необходимость еще одного уровня обёрток, который призван соединить не только технические слои ML, но и бизнес контекст решаемой задачи. Такая обёртка позволит оперировать сущностями более высокого уровня, чем датасет, фичи и модель, а именно: группа связанных моделей, сквозные эксперименты и правила принятия решений в конечном бизнес процессе.

После последней мысли вспоминается, во-первых, вопрос про разницу между терминами MLOps и ModelOps, а во-вторых, напрашивается еще один XOps, который как раз про операционализацию процесса принятия решений на базе ML и аналитики. До этого вопроса тоже быть дойдем в нашей дискуссии сегодня, подключайтесь!

Ну и собственно ждем больше статей на тему эффективного обёртывания ML в домашних условиях)

O’Reilly Media

MLOps and DevOps: Why Data Makes It Different

Machine Learning’s deployment stack is maturing

713 viewsPavel Snurnitsyn, 15:49

NoML Digest

State of MLOps

NoML Community

787 viewsPavel Snurnitsyn, 19:39

NoML Digest

Про сумасшедший ландшафт MLOps инструментов.

📌 Ресурс The State of MLOps. И небольшая статья с аналитикой по данным из этого ресурса:
The state of MLOps in 2021 is dominated by startups
Статья, правда, начинается с фразы "87% of data science projects never make it into production"🤦

📌 Еще один ресурс со сводной информацией про инструменты MLOps: MLOps.toys.

📌 Тут не только про ML, но в принципе про данные и аналитику: MAD Landscape. И статья в придачу:
The 2021 machine learning, AI, and data landscape

📌 Также напомню, что есть отдельный ресурс про Feature Store
Правда сводная табличка про проекты FS кажется немного мертвой…

О том, что мы планируем с этим всем делать (по крайней мере в части MLOps) напишу на следующей неделе😉

908 viewsPavel Snurnitsyn, 08:08

NoML Digest

Всем привет!

У нас небольшие изменения по происходящему в этом канале.

Теперь, будет так: каждую неделю есть одно основное событие и связанная с ним подборка материалов. Список событий, у нас на текущий момент, состоит из войсчата и подкаста. То есть теперь на неделе, когда выходит подкаст, у нас не будет голосового чата.

Список видов событий мы планируем расширять, например, совсем скоро у нас появятся онлайн семинары с презентациями, погружением в технические детали и в общем все, как многие просили) Первый семинар запланирован на 24 ноября, ближе к делу напишем анонс. К началу года планируем выйти на регулярность семинаров раз в две недели.

Еще из изменений: войсчаты больше не будем записывать, надеемся, так будет более расслабленная и неформальная обстановка с возможностью пофлудить на около MLные темы.

Собственно на этой неделе у нас новый выпуск подкаста, как появится на основных платформах, напишем дополнительно)

А еще мы завели канал на YouTube, там тоже есть подкаст, и там будут появляться записи онлайн семинаров.

702 viewsPavel Snurnitsyn, 17:21

NoML Digest

Пятый выпуск Дайте Данных появился на всех основных площадках.

В гостях 😎Сергей Путятинский, Заместитель председателя правления Московского кредитного банка.

📌 Anchor
📌 Яндекс Музыка
📌 Apple Podcasts
📌 YouTube

Anchor

Выпуск пятый: “ML в банке: о вызовах, успехах и экспериментах” by Дайте данных

Чем ML в банке сегодня отличается от того, что было десять-пятнадцать лет назад? С какими вызовами сталкиваются компании при переходе на data driven подход? В каких задачах сейчас используют ML и будет использовать в будущем?
Об этом Александр Бородин беседует…

786 viewsPavel Snurnitsyn, 12:43

NoML Digest

Коллеги из МКБ приглашают принять участие в хакатоне для специалистов по Data Science:

Московский кредитный банк (МКБ) организует онлайн хакатон для молодых специалистов по Data Science. Если ты студент последних курсов или начинающий специалист, прояви свои таланты и выиграй отличные призы! В хакатоне предстоит построить модель оценки вероятности выполнения обязательств клиентом банка при получении банковской гарантии. Победителей определяем в два этапа:
1️⃣ Шортлист из 10 решений будет выбран по специальной метрике с помощью искусственного интеллекта.
2️⃣ Тройку победителей выберет комиссия экспертов.

Что на кону:
✅ MacBook Pro, MacBook Air или iPhone.
✅ Предложение присоединиться к уникальному коллективу одного из крупнейших банков России.

Старт Хакатона – 01.11.2021, Финиш – 30.11.2021.

Подробности по ссылке:

Попробуй свои силы в новом хакатоне от МКБ!

1.1K viewsPavel Snurnitsyn, edited 12:52

NoML Digest

В этот четверг, 11 ноября в 21:00 МСК дискутируем на тему графических интерфейсов вокруг ML и продвинутой аналитики.

Пристально посмотрим на весь жизненный цикл моделей и разберёмся, где действительно графический интерфейс упрощает работу или даже необходим, а где без кода все равно никак не обойтись.

К дискуссии уже обещают подключиться Максим Гончаров и Александр Собенников из GlowByte Advanced Analytics 😎, и вы подключайтесь!

Встречаемся в голосовом чате.

801 viewsPavel Snurnitsyn, 16:58

NoML Digest

Классический пример интерфейса для данных и аналитики - инструменты BI. А тут коллеги как раз организуют конференцию GlowByte Tableau Adventure, которая пройдёт в онлайн формате 25 ноября с 15.00 до 17.00.

На конференции BI эксперты из Работа.ру, Райфайзен Банк, Самолет Девелопмент, GlowByte Consulting поделятся практическими кейсами применения Tableau в важнейших процессах компаний, обсудят лайфхаки по нетиповой визуализации сложных данных и расскажут о преимуществах и сложностях внедрения Data-Driven подхода.

За 2 часа, вы узнаете:
📌 Как вовлечь руководителей в реальное использование BI. Алексей Бурин, Райфайзен Банк.
📌 Сложности и нетривиальные подходы к визуализации данных по продажам недвижимости в Tableau. Валерия Мережникова, Самолет Девелопмент.
📌 Как стать Data-Driven компанией и почему Tableau один из ключевых элементов в этом процессе. Елена Артемьева, Работа.ру.
📌 О наиболее важных подходах и принципах создания дизайн-систем. Сможете определить, когда она становится критически важной для развития BI в компании. Екатерина Благирева, GlowByte.

Присоединяйтесь к нашему приключению в мире красивых данных!

Регистрируйтесь по ссылке и участвуйте в розыгрыше полезных для каждого аналитика призов от компании GlowByte=)

Glowbyteconsulting

Digital-конференция Tableau Adventure от GlowByte

Tableau Adventure — это бесплатное событие, на котором эксперты сферы BI поделятся своим опытом и расскажут о новых трендах практики Self-service BI и Data Driven-решениях

754 viewsPavel Snurnitsyn, 10:14

NoML Digest

Тут недавно обнаружился новый термин: MLGUI🤦
📌 Building MLGUI, user interfaces for machine learning applications

Насколько я понял, это по сути то, что мы когда то обозвали аналитическими приложениями и у нас уже даже была дискуссия на эту тему:
🎙 запись голосового чата и анонс

Еще по поводу этого термина поучаствовал недавно вместе с другими авторами вот в этой статье:
📌 ML с человеческим лицом: могут ли интерфейсы сделать машинное обучение понятным и доступным
Статья получилась про интерфейсы вокруг ML в принципе, собственно что и хотим пообсуждать завтра в голосовом чате, подключайтесь=)

Мне кстати еще не очень нравится термин именно MLGUI, потому что тема важная не только в контексте проектов с использованием именно ML, а в целом в проектах с использованием сложной аналитики данных.
А вы что думаете? Раз уж вводить новые термины, MLGUI или лучше все таки DSGUI?

VentureBeat

Building MLGUI, user interfaces for machine learning applications

In this interview, KPMG's Philip Vollet talks about why building user interfaces is necessary to unlock AI's true potential.

678 viewsPavel Snurnitsyn, 07:38

NoML Digest

Еще немного мыслей, которые не совсем вошли в статью про MLGUI.

Как мы знаем, жизненный цикл модели (ЖЦМ) верхнеуровнево и упрощенно выглядит как-то так
1️⃣ Подготовка данных и фичей
2️⃣ Обучение модели и всякий прочий data science
3️⃣ Вывод полученных результатов в ПРОД
4️⃣ Использование модели в процессе принятия бизнес решений
5️⃣ Регулярные мониторинг и валидация модели (и данных) и соотвественно после того как модель рано или поздно деградирует или потеряет актуальность, возврат к шагу 1

В процессе этого ЖЦМ участвует много различного рода “пользователей”:
1️⃣ Инженеры данных, которые являются пользователями платформы данных и инструментов по обработке данных
2️⃣ Датасайнтисты/Специалисты по ML, которые являются пользователями ML платформы и инструментов по обучению моделей
3️⃣ ML и MLOps инженеры, которые отвечают за продуктивизацию конечного решения и являются пользователями MLOps инструментов
4️⃣ Собственно бизнес эксперты и аналитики которые как раз участвуют в процессах принятия решений при помощи DS/ML приложений
5️⃣ Все неравнодушные к судьбе модели и решений на ее основе

И у каждого из этих пользователей есть свой UI: и CLI, и API, и GUI. С написанием кода на Python, SQL и прочей Scala все понятно, это общепринятые рабочие инструменты специалистов по DS/ML. Но на каждом этапе и для каждой роли может быть и набор GUI:
1️⃣ Для инженеров данных есть свои NoCode и LowCode инструменты, а также наши любимые инструменты класса Feature Store, которые в том числе представляют и GUI для работы с данными на стороне датаинжинеров и датасайнтистов.
2️⃣ Для датасайнтистов есть и NoCode/LowCode инструменты для конструирования процесса аналитики, и различные инструменты для интерпретации результатов и прочей визуализации архитектур сетей, и решения класса AutoML тоже часто имеют в себе GUI и еще много чего.
3️⃣ Для MLOps инженеров в части задач именно вывода моделей и аналитики в ПРОД также есть GUI и в уже общепринятых DevOps инструментах, и в новых специализирвоанных MLOps инструментах.
4️⃣ Для использующих модели бизнес аналитиков, экспертов и инженеров - как раз аналитические приложения или DSGUI/MLGUI.
5️⃣ Ну а в случае дэшбордов мониторинга и различных инструментов для Model Performance и Observability GUI подразумевается само собой

В этом многообразии GUI вокруг ЖЦМ есть еще один пункт
🔄 Тот самый пока еще один XOps, который про обертку всего этого добра (мысли про который возникли тут). Пока DS команда небольшая и задач перед ней стоит не очень много, участники и роли могут работать со своими разрозненными инструментами как кому удобно: кто-то пишет код и скрипты, кто-то использует NoCode и AutoML, кто-то из бизнес аналитиков смотрит на данные через Excel, а кто-то просит MLGUI. Но с ростом команды и количества проектов появляется необходимость сквозного управления и всем этим тех. стеком и всеми бизнес процессами, которые над ним крутятся. И в идеале нужен единый интерфейс - точка входа для всех ролей, который как раз будет сшивать и многообразие инструментов и процессы решения бизнес задач.

Можно было бы ввести термин MLUX=), как раз про то как со всеми аспектами ML взаимодействуют разные роли, но его уже кто-то занял для другой темы: https://medium.com/ml-ux/what-is-ml-ux-71d5e6d6ce9

P.S.: А если вернуться к MLGUI/DSGUI, то тут тоже напрашивается свой Ops) Пока концепция аналитических приложений работает скорее в режиме прототипирования, то есть сделать по быстрому простое приложение и дать его в руки 1-3 бизнес пользователям которые его покрутят, без решения вопросов серьезной пользовательской нагрузки и инфобеза. Но сама по себе концепция таких быстро и просто собранных приложений на стороне команды DS вполне себе может претендовать на уровень ПРОД системы, с большей пользовательской нагрузкой и решенными вопросами ИБ. Так что ждем инструменты, на которых можно будет выстраивать такие фабрики аналитических приложений и вообще делать MLGUIOps)

В общем, подключайтесь в голосовому чату сегодня вечером, будем новые термины придумывать))

692 viewsPavel Snurnitsyn, 11:14

NoML Digest

Статьи про инструменты Яндекса, про которые Игорь говорил:
📌 Познаём Нирвану – универсальную вычислительную платформу Яндекса
📌 Ранжирование в Яндексе: как поставить машинное обучение на поток

708 viewsPavel Snurnitsyn, 19:33

NoML Digest

В контексте вот этого обсуждения обещали статью с деталями про опыт внедрения Kubeflow в варианте on prem. Cтатья доехала)
📌 Опыт внедрения Kubeflow в кластере Kubernetes

🐓🐓🐓

711 viewsPavel Snurnitsyn, 13:43

NoML Digest

На этой неделе у нас выходит подкаст по необычной теме: "Поведенческая экономика". Ведь каждый аналитик хоть раз в жизни да и сталкивался с предложением почитать книгу Даниэля Канемана "Думай медленно - решай быстро".

Выпуск появится завтра на всех основных площадках, а пока подборка от Натальи Тогановой (@nataliatoganova), что можно почитать по теме:

📌 Kahneman D. Thinking fast and slow. - Только не стоит забывать, что со времени написания книги прошло сколько-то лет и часть исследований, на которых она базируется были признаны слегка сфальсифицированными (например, идея фрейминга).
📌 Kahneman D., Sibony O., Sunstein C. Noise: A Flaw in Human Judgment. - Вышла в 21 году и свежий мастрид по теме.
📌 Thaler R.H., Sunstein C. Nudge: Improving Decisions About Health, Wealth, and Happiness. - Берите переизданную авторами книгу с поправками, где они учли развитие событий и вычеркнули все те исследования, которые были признаны ошибочными.
📌 Thaler R.H. Misbehaving: The Making of Behavioral Economics. - Местами хардкор. Но любимая глава это про то, как профессора делили кабинеты в новом здании. Глава эта в конце - но дочитайте, получите несказанное удовольствие.

Если вы любите экономику и как-то пршли мимо, то конечно же это книги: Akerlof G. и Shiller R. Хочется написать все, но приведем три:
📌 "Animal Spirits: How Human Psychology Drives the Economy, and Why It Matters for Global Capitalism"
📌 "Phishing for Phools: the Econmics of Manipulation and Deception"
📌 "Narrative Economics: How Stories Go Viral and Drive Major Economic Events".

Книги в которых есть много о том, как избегать байясов или хотя бы стремиться к этому, ведь именно по этому мы как аналитики должны стремиться:
📌 Rosling H., Roennlund A., Rosling O. Factfulness: Ten Reasons We're Wrong About the World -- and Why Things Are Better Than You Think. - Хорошая книга, поскольку на привычных и знакомых многим реалиях показывает, на сколько мы ошибаемся.
📌 Weinberg G., Mcann L. Super Thinking: The Big Book of Mental Models. В этой книге собраны концепции, к которым порой легко обратиться (или точнее обращаются), чтобы оценить какой-то процесс на вскидку. Так называемые rules of thumb.
📌 Levitin D. The Organized Mind: Thinking Straight in the Age of Information Overload. - В книге масса подходов к разным вопросам. Много всего дельного. Например, система как придумывать пароли от все возможных сервисов так, чтобы их не забывать.
📌 Harford T. How to Make the World Add Up: Ten Rules for Thinking Differently About Numbers. Прекрасные примеры, когда люди обсчитывались и ошибались в суждениях. Хорошее чтиво для выходного дня.

735 viewsPavel Snurnitsyn, 10:11

NoML Digest

Выпуск подкаста Дайте Данных появился на всех основных площадках.
В гостях 😎Алексей Захаров, доцент Высшей школы экономики, кандидат экономических наук.

📌 Anchor
📌 Яндекс Музыка
📌 Apple Podcasts
📌 YouTube

Anchor

Выпуск шестой: “Поведенческая экономика или Почему нам всем советуют почитать Даниэла Канемана” by Дайте данных

Как экономическое поведение человека искажает идеальную картину мира, которая закладывается в моделирование? Стоит ли это учитывать в работе с большими данными? Как влияет финансовая грамотность на поведение человека? Можно ли понять отношение к риску по…

752 viewsPavel Snurnitsyn, 08:08

NoML Digest

Ранее уже писал, что у нас планируется регулярный Семинар NoML.

Для начала еще одно небольшое нововведение по структуризации происходящего. Мы тут осознали, что в силу бэкграунда и сферы интересов особо активных участников сообщества, у нас есть вполне себе конечный список тем, на которые мы любим говорить больше всего. Пока выделю следующие:

Из методов:
✔️Математическая оптимизация
✔️Причинность и контролируемые эксперименты

Из предметных областей:
✔️Модели в кредитных рисках
✔️Анализ данных в задачах цепочек поставок
✔️PMQ (Predictive Maintenance and Quality) и вообще анализ данных в производстве

Из технологий:
MLOps/ModelOps вообще, но в особенности
✔️Feature Store и данные для ML
✔️Model Performance (валидация, мониторинг и прочие вопросы)

Поэтому возникла мысль попытаться выстроить семинары в некоторый последовательный рассказ по соответствующим темам, от простого к более сложному. Другим словами семинары будут сгруппированы в своего рода тематические треки по перечисленным выше темам. Список треков очень надеюсь будет расширяться со временем.

Собственно ближайший семинар у нас будет сразу на пересечении аж двух треков: оптимизация и PMQ:
😎 Александр Собенников (GlowByte AA) расскажет про "Оптимизацию графиков производства на примере отгурзки нефтепродуктов"

Семинар состоится 24 ноября, в 17:00 МСК, добавляйте таймблоки в календари, ссылка для подключения будет тут ближе к делу.

Ну и семинары будут записываться и отправляться в соответствущие плейлисты по трекам в наш канал YouTube, на который, кстати, надо подписаться, чтобы поскорее выполнились условия выдачи ему короткой ссылки вместо текущего UC1eotnzPk1aD8y85lrntE9Q)

894 viewsPavel Snurnitsyn, 16:54

NoML Digest

Итак, в эту среду 24 ноября в 17:00 МСК собираемся на первый семинар NoML.

Докладывать будет 😎 Александр Собенников, руководитель направления PMQ, GlowByte Advanced Analytics.

Краткий план доклада:
📌 Введение в математическую оптимизацию
📌 Сведение задачи графикования к методам оптимизации
📌 Движки для решения задач программирования в ограничениях (CP - Constraint Programming) и смешанного целочисленного программирования (MIP - Mixed-Integer Programming)
📌 Пример реализации для задачи графикования отгрузки нефтепродуктов

Собираемся в Google Meet, ссылка для подключения:
https://meet.google.com/cyt-pnjn-dvi

1.1K viewsPavel Snurnitsyn, 11:35

NoML Digest

2021_11_24_Оптимизация_отгрузки_нефтепродуктов_на_НПЗ.pdf

1 MB

Слайды и запись семинара

1.2K viewsPavel Snurnitsyn, 18:59

NoML Digest

Новый выпуск подкаста Дайте Данных появился на всех основных площадках. В гостях 😎 Валентин Маренич, Head of DS, T1A.
📌 Anchor
📌 Яндекс Музыка
📌 Apple Podcasts
📌 YouTube

Anchor

Выпуск седьмой: “Data science в целевом маркетинге: задачи, подходы и тренды” by Дайте данных

Как DS помогает решать задачи целевого маркетинга? Каким образом подход customer journey связан с персонализацией предложений? Как проводить эксперименты на customer journey? Влияет ли местный менталитет на бизнес?
Об этом Александр Бородин беседует с руководителем…

1.1K viewsPavel Snurnitsyn, 07:59

NoML Digest

В последнем выпуске подкаста Валентин затрагивал много вопросов вокруг анализа данных для маркетинга и клиентской аналитики. Пара книг по теме:

📚 G.S. Linoff, M.J.A. Berry - Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management
Когда то давно сам по этой книге знакомился с предметной областью, разделы именно про бизнес задачи вроде бы не потеряли актуальность.
📚 I.Katsov - Introduction to Algorithmic Marketing
А вот эту книгу коллеги очень рекомендуют.

Может быть у кого-то еще есть список рекомендаций полезных материалов по теме DS в маркетинге? Делитесь)

699 viewsPavel Snurnitsyn, 15:13

About

Blog

Apps

Platform