NoML Digest
1.89K subscribers
76 photos
1 video
2 files
606 links
База знаний https://noml.club
Чат https://t.me/noml_community
YouTube https://www.youtube.com/@NoML_community

По всем вопросам к @psnurnitsyn
Download Telegram
Всем, кто был сегодня с нами, еще раз спасибо!
А вот рекомендации посмотреть про рекомендации, о которых сегодня говорили=)
📺 Дзен-митап: алгоритмы и рекомендации
📺 Tinkoff AI. RecSys
Forwarded from Personalization_ru (Anna Ambrozevich)
Жара в самом разгаре🔫 А мы делимся подборкой статей про рекомендации на Netflix.
Знали ли вы, что в 2013 году Netflix получил награду Эмми за “Технологию персонализированных рекомендаций для выбора видео”🏆, а что они предложили награду в 1 млн долларов💰 той команде, которая сможет улучшить нативный рекомендательный движок Netflix Cinematch?
И что, в конце концов, они пошли еще дальше и персонализировали обложки для фильмов для разных сегментов пользователей. Все секреты в статьях ниже (eng):
- история персонализации Netflix https://marker.medium.com/a-brief-history-of-netflix-personalization-1f2debf010a1
- персонализация домашней страницы от Netflix https://netflixtechblog.com/learning-a-personalized-homepage-aa8ec670359a
- персонализация обложек фильмов от Netflix https://netflixtechblog.com/artwork-personalization-c589f074ad76
В этот четверг, 1 июля в 21:00 МСК будем разбираться чем MLOps отличается от ModelOps, что такое жизненный цикл моделей ML и зачем им управлять, а также, как выстраивать работу Data Science команды.

Затронем следующие вопросы:
Управление или управление моделями: Model Management vs Governance?
Что такое модельный риск, и почему этот термин становится актуальным не только для финансовых институтов?
Какие бывают методологии управления DS/ML проектами? Что выбрать: CRISP-DM, SEMMA, KDD или что-то еще?
Какие есть роли в реальных Data Science проектах помимо Data Engineer, Data Scientist и ML Engineer? И как эти роли распределены между бизнесом и IT?

Участники дискуссии - команда GlowByte Advanced Analytics:
😎 Андрей Гаркавый
😎 Михаил Зайцев
😎 Александр Кухтинов
😎 Павел Снурницын

Встречаемся, как обычно, здесь в голосовом чате.
Коллеги из команды ModelOps GlowByte Advanced Analytics написали небольшой пост
🐓🐓🐓 Как и зачем управлять ML-моделями?
(Про кур не спрашивайте, кто не понял тот поймёт🐣)
MLOps - то что захватывает меня последнее время, но у меня много претензий к текущим решениям и продуктам.

Расскажите про ваши открытия и библиотеки, даже если они давно известны, в комментарии к этому посту.

А в четверг будет онлайн-митап. Если у вас нет MLOps или вы уже опытный в этом, подключайтесь посмотреть. Уверен, что будет интересно. А мой коллега, Роман, расскажет про MLOps в Lamoda.
Про правильный ответ на вопрос, есть ли разница между терминами MLOps и ModelOps.
Если конечно можно так говорить, в конце концов это лишь игра определений.

В своих материалах Gartner все таки разделяет эти понятия, область ModelOps более широкая чем MLOps:
“AI model operationalization (ModelOps) is primarily focused on the governance and life cycle management of all AI and decision models (including models based on machine learning, knowledge graphs, rules, optimization, linguistics and agents). In contrast to MLOps, which focuses only on the operationalization of ML models, and AIOps which is AI for IT Operations, ModelOps focuses on the operationalization of all AI and decision models.”
Источник цитаты, а также целый вебинар на эту тему
ModelOps vs MLOps – What’s the difference and why should you care

Кстати, на сайте компании ModelOp достаточно много интересных и полезных ресурсов по теме ModelOps/MLOps:
📄 Статьи
📺 Вебинары
📕 Всевозможные отчеты о состоянии MLOps
❗️ и даже (хороший ход) пример ModelOps RFP Requirements
Чувствую после этого поста придется потом самому и отрабатывать эти требования😅🤦👨‍💻

Ну и еще пара текстов про ModelOps vs MLOps
📌 At last, a way to build artificial intelligence with business results in mind: ModelOps
📌 ModelOps vs. MLOps
📌 И конечно же истина всех истин - Wikipedia🎓🎓🎓
С самого начала становления области анализа данных и его применения для индустриальных задач появилась потребность формализовать подходы аналитики. Результатом стали разнообразные методологии управления процессом, который сейчас приянато называть Data Science.

Например, про такие методологии, как KDD, CRISP-DM SEMMA и их сравнение можно почитать здесь:
📌 Data Science project management methodologies
а еще есть TDSP:
📌 How to run a Data Science Team: TDSP and CRISP Methodologies
и другая экзотика, например, ASUM-DM.

На мой взгляд идеальной методологии, по которой можно было бы работать с задачами DS как по шаблону, не существует. В каждом случае каждой конкретной команды хорошим подходом будет взять лучшее из перечисленных методологий, добавить практики согласно своему опыту и потребностям и получить методологию процесса анализа данных с учетом специфики своей области и индустрии.

А еще полученная методология DS должна вкладываться в методологию проектного управления реализации конечного ML/AI решения. Хороший пример - подход LeanDS:
📌 Гибкое управление DS продуктами
На этой неделе случилась накладка с темой, а потом еще одна накладка с запасной темой, а потом … Ну вы поняли) Поэтому придется импровизировать

Недавно натыкался на такой текст
AI For Business: Myths And Realities
и возникла мысль устроить завтра обсуждение на тему мифы и реальность в ML/DS проектах.

На мой внезапный призыв любезно откликнулся Максим Гончаров (руководитель направления прогнозной и оптимизационной аналитики, GlowByte AA), так что нас уже двое и дискуссии быть)

А с какими мифами ML/DS сталкивались вы?
Пишите в чат и приходите завтра (8 июля) дискутировать, как обычно в 21:00 МСК в голосовом чате.
В этот четверг, 15 июля, в 21:00 МСК нас ждет эпичная битва за Царство ML/DS: R vs. Python💥

В повестке встречи:
🔥 Стоит ли изучать R для DS/ML в 2021?
🔥 Известен такой тезис: “Если ML и AI то Python, если статистика и анализ данных то R”. Попробуем разобраться поподробнее что лучше в каких задачах.
🔥 Действительно ли вопрос стоит как R vs. Python? Или оптимальным вариантом является построение гетерогенной среды, в которой для решения одной задачи используется и Python, и R и даже Julia?
🔥 Какие организационные и технические вызовы возникают в связи с предыдущим пунктом? Как достичь воспроизводимости результатов внутри команды DS и выстроить унифицированные MLOps процессы совместно с IT в условиях такой гетерогенной среды моделирования?

Учатсники дискуссии:
🥷Андрей Макеев, бизнес-архитектор по аналитике, Комус;
🥷Максим Гончаров, руководитель направления прогнозной и оптимизационной аналитики, GlowByte Advanced Analytics;
🥷🥷🥷А также все желающие

Встречаемся, как обычно, здесь в голосовом чате.
С чем из перечисленного приходилось сталкиваться в контексте задач DS/ML?
Anonymous Poll
89%
Python
43%
R
18%
C/C++
11%
Java
16%
Scala
3%
Julia
19%
MATLAB
32%
SAS
16%
SPSS
6%
Другое
Python vs. R
NoML Community
Data Warehouse, Data Lake, Data Vault, Data Lakehouse, Data Fabric, Data Mesh, Data Lab, Data Hub, DataOps, Data Governance ... ну и конечно же Big Data=)

В следующий четверг, 22 июля в 21:00 МСК совместно с авторами канала Клуб CDO будем разбираться, что означают все эти слова, и как заложить крепкий фундамент для успешных ML/DS проектов в виде современной Data Management платформы. В повестке встречи следующее:
📌 Эволюция подходов в технологиях построения Data Management систем и методологиях Data Governance.
📌 Плюсы и минус централизации и децентрализации управления корпоративными данными, как обычно будем искать истину где-то посередине)
📌 Технологические аспекты и грани децентрализованной обработки и хранения данных, вспомним про Data Federation и обсудим новомодный Data Fabric.
📌 Как Ops добрался до данных и аналитики: процессы, роли и инструменты DataOps.
📌 Без качественных данных качественную ML модель не построить. Как решается задачи Data Quality с точки зрения современных технологий и методологий.

Наши эксперты-спикеры:
😎 Денис Афанасьев, Head of TechPlatforms в SberDevices, основатель CleverDATA
😎 Дмитрий Инокентьев, Архитектор Data платформ, GlowByte Consulting
😎 Сергей Абрамов, Head of Feature&ML Engineering, GlowByte Advanced Analytics
😎 Дмитрий Бутаков, Архитектор Data&ML платформ GlowByte Advanced Analytics

Встречаемся как всегда в голосовом чате нашего сообщества.
Forwarded from Клуб CDO (Denis Afanasev)
небольшая обхорная статья по теме Federated Learning, не менее популярная сейчас тема чем Data Mesh

https://towardsdatascience.com/federated-learning-a-new-ai-business-model-ec6b4141b1bf
Подборка статей из блога GlowByte от команд практики Data Management

📌 Про кейс DWH в Газпромбанке: Как построить современное аналитическое хранилище данных на базе Cloudera Hadoop
📌 Про гибкие хранилища, а именно, про подходы Data Vault и Anchor Model: Обзор гибких методологий проектирования DWH
📌 Про стриминг на Kafka: Почему стриминг на KSQL и Kafka Streams - это непросто
Forwarded from Клуб CDO (Denis Afanasev)
И еще немного про Data Mesh

Немного мыслей тут родилось про Data Mesh. Тема популярная, все начинают вокруг говорить о том, что они применяют этот подход, реализуют проекты и тд. Тем не менее все время не могу уловить какую “суть” этого подхода, какую то формулировку, которая в простой форме объяснит основное отличие от предыдущих концепций, типа Data Lake и тп. Читаешь статьи, вроде много букв везде, а вот понимание не складывается. И вот проштудировал еще раз основной источник на сайте Мартина Фаулера (см ниже) и вот родилось такое понимание:

Data Mesh в первую очередь это организационная концепция, а не техническая. Она говорит о том, что мы децентрализуем ОТВЕТСТВЕННОСТЬ за данные между разными командами, обеспечивая их нужным (даже централизованным) техническим инструментарием, для того, что бы они эту ответственность могли осуществлять.

Вот в чем суть - основные проблемы во всех больших проектах DHW/DL это больше организационные проблемы взаимодействия разных команд, а не техническое проблемы обработки данных, и Data Mesh предлагает нам концепцию, по которой каждая команда, которая производит данные, должна быть ответственной за переиспользование этих данных другими командами, что бы катализировать использования данных в организации.

Реализации этой концепции требует:
⁃ В первую очередь организации изменения - изменения культуры, формирования новых KPI, поддержки со стороны руководства и тд.
⁃ Во вторую очередь процессные изменения - процессы Data Goverence, обеспечивающие “правила игры” общие для всех команд
⁃ В третью очередь технические изменения - нужно эти команды обеспечить технической возможностью выполнять новую функцию (хранить данные обрабатывать), а так же поддержать технически функции типа Data Discovery и прочие из пункта 2. И это очень важно сделать при реализации данного подхода.

И еще раз подчеркну, что технические решения из третьего пункта могут быть вполне себе централизованными Data Lake, если это экономически и технически обосновано.

Вот такие у меня сложились персональные выводы на текущий момент.

https://martinfowler.com/articles/data-monolith-to-mesh.html