NoML Digest
1.88K subscribers
76 photos
1 video
2 files
604 links
База знаний https://noml.club
Чат https://t.me/noml_community
YouTube https://www.youtube.com/@NoML_community

По всем вопросам к @psnurnitsyn
Download Telegram
Цикл статей про моделирование компонент кредитного риска от коллег из GlowByte Advanced Analytics:

1) Введение
2) Компоненты PD, LGD, EAD
3) EAD или деньги в дефолте
4) LGD или жизнь после дефолта
Во вторник, 18 мая, в 21:00 МСК поговорим не только про BI=)

В приложениях на базе ML и продвинутой аналитики важной составляющей является визуализация и интерактивный анализ результатов на стороне бизнес пользователей этих приложений. Эта задача может решаться средствами BI инструментов, но иногда функционала классических дашбордов может оказаться недостаточно, особенно если речь идет про интерактивные перерасчеты с новыми параметрами, сценарный анализ и совсем нестандартные принципы визуализации.

В нашей экспертной комнате поговорим о том, как такие инструменты как R Shiny и Dash/plotly позволяют достаточно быстро и просто строить интерактивные аналитические приложения, которые раскрывают всю мощь продвинутой аналитики данных и машинного обучения перед бизнес пользователям.

На примерах индустриальных кейсов возникающих в банках, страховых компаниях, ритейле и промышленности разберем когда можно и нужно использовать BI, а когда лучше посмотреть в сторону аналитических приложений на R Shiny и/или Dash.

В дискуссии участвуют
- Андрей Макеев, Бизнес архитектор по аналитике, Комус;
- Александр Собенников, Руководитель направления прогнозной аналитики и оптимизации в промышленности, GlowByte Advanced Analytics;
- Андрей Иванов, Руководитель направления Supply Chain Intelligence, GlowByte Advanced Analytics.

Встречаемся в голосовом чате в Telegram.
Небольшая подборка статей из блога компании Appsilon по теме завтрашней экспертной комнаты:

Почему R Shiny
Dash vs Shiny
PowerBI vs Shiny
Tableau vs Shiny
Статья про R Shiny 2018 года, если оставить за скобками недостатки предыдущих версий R Shiny и утверждение, что для Python нет аналогов, то достаточно актуально

Насколько open-source экосистема R хороша для решения бизнес-задач?
И еще в тему, 26 мая планируется вебинар от RStudio на тему реализации отчетности средствами R: Rethink Reporting with Automation.
И напоследок, прежде чем перейдем к следующей теме, несколько туториалов по Python Dash:
1️⃣ Develop Data Visualization Interfaces in Python With Dash
2️⃣ How to Build a Reporting Dashboard using Dash and Plotly
3️⃣ Introducing JupyterDash
Во вторник, 25 мая, в 21:00 МСК встречаемся в войс чате в Telegram обсуждать продвинутую графовую аналитику 🚀🚀🚀.

В качестве интро позволю себе процитировать наш старый пост:
Графовая аналитика - это набор методов, которые ориентированы на анализ структуры связей между сущностями, а не на свойства сущностей. Примеры графов: связи между людьми в социальных сетях, связи банковских счетов через проходящие по ним переводы, структура владения группы компаний.

Методами графовой аналитики мы анализируем структуру связей и выявляем неочевидные связи.

В задачах машинного обучения графовая аналитика прежде всего позволяет строить более сильные предикторы — переменные, которые описывают окрестности интересующей нас сущности. Например мы можем получить ответы на вопросы: «Как влияет на кредитный рейтинг компании рейтинг её контрагентов или контрагентов контрагентов или в принципе всей цепочки поставок?».

Благодаря методам графовой аналитики мы можем ограничиваться не только прямыми связями, но и окрестностями по связям различной длины.


В повестке экспертной комнаты:
🔹Что дает взгляд на бизнес задачи через призму графовой парадигмы?
🔹Зачем нужны специализированные графовые движки, такие как Neo4j или ArangoDB?
🔹Что и когда работает лучше: бизнес правила на интерпретируемых графовых атрибутах или нейросети на графах?

Эксперты-спикеры:
😎 Юлия Чехлова, ВТБ
😎 Владимир Дашковский, Газпромбанк
😎 Евгений Вилков, GlowByte
(список пока не окночательный, возможно кто-то еще присоединится)

Модератор:
🧐 Наталья Тоганова, GlowByte Advanced Analytics
Forwarded from Sberloga (🇻 🇱 🇦 🇩)
Ребята привет,
Майские "не рабочие" закончились и мы снова начинаем организовывать доклады по DataScience тематикам 👍 Скоро будет анонс 🥳
А пока можете ознакомиться с видео последних докладов:

Сергей Лавриков - Трэкинг экспериментов в MLFlow
Обсудили:
* как с помощью MLflow привнести в команду порядок в проведении ML экспериментов и какие от этого плюсы;
* общий обзор возможностей фреймворка;
* наглядная демонстрация real time.

Александр Пономаренко - Поиск перекрывающихся кластеров на графах
На докладе обсуждали метод поиска перекрывающихся кластеров в графе (Link Partitioning Around Mediods) https://arxiv.org/abs/1907.08731, https://github.com/aponom84/lpam-clustering
Суть метода: кластеризуются рёбра, а не вершины. Мы считаем, что вершина принадлежит нескольким сообществам, если она смежна с рёбрами из разных кластеров. Для кластеризации рёбер строится линейный графа, и на нём решается задача о p-медианах (facility location problem). Мы изучили как работает этот метод главным образом с двумя функциями расстояния: commute distance и с одиним из вариантов её коррекции – amplified commute distance.
Одно из преимущество метода – интуитивно понятный результат. Рёбра группируются вокруг некоторых центров.

Антон Костин - Философия на графах
Разбирали блокнот с кодом построения графа поверх текстовых эмбеддингов (fasttext).
На примере Louvain посмотрим, как алгоритмы модульности находят философские школы.
В задаче Link Prediction подумаем над неочевидными связями между разными школами и философами.
А также обсудим, будут ли студенты ВУЗов делать домашку по философии с использованием NLP
и дискретной математики (спойлер: на Физтехе уже начали)? Рассказывает преподаватель философии.
Ноутбуки и данные доступы на каггле:
https://www.kaggle.com/visualcomments/philosophy-ru-large

Курс Knowledge Graphs - Обсуждение Лекции 6 часть 2
Рекомендуем всем лекцию Вадима Сафронова (@VadymSafronov) - https://www.youtube.com/watch?v=2NemwwyK9x4 - она содержит (в том числе) краткий дайджест многих моментов известного стенфордского курса cs224w (от Лесковича)

@sberloga
Небольшая подборка бизнес кейсов использования графовой аналитики. Список не полный, вошло только то, с чем сами хоть как-то сталкивались. Материалы подобраны простые и не технические, с целью просто дать намек, в чем суть применения графовой аналитики в этих бизнес задачах.

В качестве введения, почему надо преклоняться перед графовой аналитикой: Top 5 Graph Analytics Takeaways from Gartner’s Data & Analytics Summit =)

Бизнес кейсы:
1️⃣ Анти-фрод
2️⃣ Противодействие отмыванию денег
3️⃣ Real-time рекомендательные системы
4️⃣ Профиль клиента 360
5️⃣ Логистика
6️⃣ Анализ ведомости материалов
7️⃣ Графы атак в кибербезопасности
8️⃣ Data Governance & Data Lineage
9️⃣ Анализ ИТ инфраструктуры

Делитесь бизнес задачами, с которыми вы сталкивались и считаете интересными, и приходите завтра на обсуждение!


P.S.: И еще один интересный кейс, но к своему удивлению не нашел нормального текста на эту тему: применение графовой аналитики для анализа клиентских путей (Customer Journey Analytics), по этой теме есть запись вебинара Neo4j.

P.P.S.: А еще много графовых задач есть в такой области как Process Mining, но про это когда нибудь потом...
Сегодня небольшая вводная подборка про технологии графовой аналитики.

Во-первых, в качестве ответа на вопрос “зачем вообще нужны специальные графовые движки”, пример расчета центральности на NetworkX и Neo4j.

Во-вторых, немного про сравнение различных графовых БД:
Comparing Graph Databases
Part I TigerGraph, Neo4j, Amazon Neptune
Part II ArangoDB, OrientDB, AnzoGraph

В-третьих, пара практических примеров
Neo4j Graph Data Science Library
Spark GraphFrames (будьте внимательны, немного старая статья)

И в-четвертых, есть книга Needham M., Hodler A., Graph Algorithms: Practical Examples in Apache Spark and Neo4j, 2020, O’Reilly, в которой подробно описаны и Neo4j и Spark GraphX.
Сегодня небольшая подборка про графы знаний:
🔸 Кратко: Knowledge Graphs: The Third Era of Computing (есть перевод)
🔸 Подробно, от введения в графы и до приложений таких, как концепция Data Fabric в управлении данными, можно почитать в отчёте O’Reily The Rise of the Knowledge Graph (правда нужен аккаунт)
🔸 Еще есть свежая книга по теме, сам пока не читал, но выглядит интересно: Kejriwal M., Knoblock C.A., Szekely P., Knowledge Graphs: Fundamentals, Techniques, and Applications

И в качестве перехода к нашей следующей теме, пара кейсов про графы знаний и чат-боты:
🔹 Knowledge Graphs For Successful Customer Service Automation
🔹 Knowledge Graph-based ChatBot
Во вторник, 1 июня, в 21:00 МСК встречаемся в голосовом чате в Telegram и обсуждаем последние тренды в области голосовых технологий и решений.

Поговорим про задачи в анализе и синтезе речи вообще и про возможности и последние достижения сервиса Yandex SpeechKit.

Эксперты-спикеры:
😎 Игорь Куралёнок, Руководитель подразделения AI&ML, Яндекс.Облако
😎Павел Егоров, Руководитель направления Deep Learning, GlowByte Advanced Analytics
Кстати, в ближайший понедельник, 31 мая будет митап about:cloud, на котором тоже будет про SpeechKit. Регистрация еще открыта.
А еще в следующий четверг, 3 июня у нас планируется вебинар про НЛП в СХ. И речь пойдет не про НейроЛингвистическое Программирование в Сельском Хозяйстве, как вы подумали, а про Natural Language Processing в Customer eXperience)
Что-то у нас на этой неделе не сложилось с рекомендациями интересных статей и ресурсов по теме NLP, поэтому напоследок, для тех, кто смотрел наш вебинААр:

🚀 История успеха, про которую говорил Никита: Уникальный голосовой бот для МегаФона снизил стоимость эффективного диалога с клиентом в 4 раза
🚀 И другая история успеха, правда не по теме NLP, но какая есть по теме CX: Перекрёсток и GlowByte составили аналитическую карту впечатлений посетителей в супермаркете
Наша следующая тема про то, как ML и продвинутая аналитика помогают предсказывать поломки и неисправности в оборудовании на производстве и не только.

8 июня в 21:00 МСК собираемся в голосовом чате в Telegram и обсуждаем следующие вопросы.

📌 Задачи прогнозного технического обслуживания оборудования и методы ML и продвинутой аналитики для их решения.
📌 Отличие от классических подходов превентивного обслуживания оборудования, преимущества, проблемы и актуальные вызовы.
📌 Кейсы применения в различных индустриях: от нефтяной и металлургической промышленности до транспорта и FMCG.
📌 Технологические аспекты решаемых задач: Edge Computing & TinyML, технологии хранения и обработки данных временных рядов и много другое.
📌 Что и в каких случаях выбирать: предлагаемые решения от самих производителей оборудования, универсальные или нишевые решения вендоров или собственная кастомная разработка и моделирование?
📌 Адаптации подходов предиктивного обслуживания в мире и в России, роль развития цифровизации производства.
📌 Что нужно знать специалистам по анализу данных в области Predictive Maintenance и в чем отличие от других областей? (Спойлер: почему аналитику нужно быть (не)много инженером).

Наши эксперты-спикеры:
😎 Александр Собенников, Руководитель направления аналитики в производстве, Glowbyte Advanced Analytics
😎 Александр Томилов, Руководитель направления IIoT, GlowByte
😎 Роман Созонов, Data Scientist, Glowbyte Advanced Analytics
🧐 а также все желающие присоединиться к дискуссии)
Список рекомендаций к прочтению начнем фундаментально, а именно две книги по теме предиктивного обслуживания:

1️⃣ Mobley R.K., An Introduction to Predictive Maintenance
2️⃣ Levitt J., Complete Guide to Preventive and Predictive Maintenance