NoML Digest
1.85K subscribers
76 photos
1 video
2 files
599 links
База знаний https://noml.club
Чат https://t.me/noml_community
YouTube https://www.youtube.com/@NoML_community

По всем вопросам к @psnurnitsyn
Download Telegram
11 августа намечается митап по теме ML Data Engineering: apply(meetup), организованный Tecton.ai. Заявленные темы выглядят интересно.
Недавно сходили на конференцию Scoring Case Forum. И наслушались про тенденции в скоринге, и сами сделали доклад про тренды анализа данных и моделирования в кредитных рисках. Продолжим рассуждать на эти темы в нашей экспертной комнате.

Собираемся в четверг, 5 августа в 21:00 МСК в голосовом чате и обсуждаем:
📌 Новое в скоринговых моделях: применяются все более сложные методы, адаптируются методы интерпретируемости и объяснимости, осваивается применение новых направлений: контролируемые эксперименты, causal inference, опережающие метрики, методы оптимизации, и в целом наблюдается переход от дескриптивной и прогнозной аналитики к прескриптивной.
📌 Новое в работе с данными для скоринга: новые источники данных и подходы по их анализу; преодоление барьера связанного с ограничениями структурированных данных.
📌 Опыт коронакризиса для стабильности скоринговых моделей: как поменялись подходы к валидации, оценке стабильности и калибровке? Как изменился ландшафт данных и ключевых источников данных? Как обучать модели в период неопределенности и изменяющемся пространстве целевых переменных?
📌 Проникновение методов моделирования кредитных рисков как в другие направления финансовых рисков, так и вообще из финансового сектора в другие индустрии: промышленность, телеком, ритейл.
А если останется время, поговорим еще на такие темы как управление модельным риском, валидация моделей и MLOps в контексте скоринга.

Участники дискуссии:
😎 Юлия Чехлова, Управляющий директор службы кредитных процедур КИБ и СБМ, ВТБ
😎 Дмитрий Сергиенко, Заместитель начальника Управления анализа розничных кредитных рисков, Банк России
😎 Алиса Пугачева, Бизнес-аналитик, эксперт по моделированию кредитных рисков, GlowByte Advanced Analytics
😎 Александр Бородин, Руководитель направления аналитики и моделирования в финансах и рисках, GlowByte Advanced Analytics
Записи докладов коллег из GlowByte Advanced Analytics на Scoring Case Forum:
📺 Александр Бородин и Алиса Пугачева - ML/DS тренды в скоринге
📺 Бонус: Александр Кухтинов и Владислав Даниленко - Мастер класс про 5 столпов платформы ML/MLOps=)
📌 Свежая статья от коллег из GlowByte Advanced Analytics про валидацию моделей.
📌 Также дублирую в канал статью из блога ВТБ про Model Performance Predictor. Спасибо @vkost за наводку=)
Отчёт от Deloitte, на который ссылался @alexander_borodin ближе к концу нашей дискуссии в прошедший четверг:
📄 Credit risk modeling during the COVID-19 pandemic: Why models malfunctioned and the need for challenger models

В отчёте речь про США и больший фокус все таки на CECL, но в целом есть что почерпнуть и для IFRS9. Рассмотрены и систематизированы ряд вызовов для моделей CECL и IFRS9, связанные с COVID-19: резкий экономический спад в ряде отраслей и рост безработицы, гос. поддержка ЮЛ и ФЛ и всплеск выплат, а также на порядок увеличивающаяся доля договоров, по которым происходит отсрочка платежа. Все это влияет на учет макроэкономических факторов и оценку рисков в парадигме CECL и IFRS9.

Во второй части отчёта рассмотрен кейс построения альтернативной модели (модели претендента) с подходом, который позволяет сгладить описанные эффекты и не отбрасывать модели в крайние/экстремальные прогнозы и за пределы их примости.


P.S.: Отчёт типа такого адресован скорее специалистам, уже работающим в теме рисков. Для тех, кто столкнется в тексте с не очень знакомыми терминами и кто хочет погрузиться в тему моделирования кредитных рисков, напоминаем про пару книг, которые рекомендовали когда-то ранее в канале:

📕 Введение в тему: Bart Baesens, Daniel Roesch, Harald Scheule. Credit Risk Analytics (2016) + дополнение на R: Credit Risk Analytics: The R Companion
📗 Дальнейшее погружение, как раз в IFRS9 и CECL: Bellini Tiziano. IFRS 9 and CECL Credit Risk Modelling and Validation (2019)
В этот четверг (12 августа) поговорим про методы оптимизации.

❗️ Внимание ❗️ обсуждение состоится в другое время, чем обычно, а именно в 15:00 МСК.

Теме оптимизационных методов уделяется как-то недостаточно внимания в современных приложениях наук о данных. При текущих тенденциях роста количества моделей, а также усложнения самих моделей и архитектур решения бизнес задач с применением ML можно ожидать, что методы оптимизации будут выходить на первый план. Мы уже писали не раз, что в нашей практике мы пропагандируем подход, согласно которому бизнес задачи в проектах ML/DS можно изначально сводить к задачам оптимизации, то есть декомпозировать рассматриваемый процесс принятия решений на отдельные компоненты, далее понимать в каких компонентах применимы прогнозные модели, а в каких - бизнес правила, какие есть управляющие воздействия и ограничения. А финальное принятие решения (на самом деле серия связанных решений) делается на основе оптимизационной модели, которая работает поверх этих компонент.

Темы, про которые хотим рассказать:

🟧 Бизнес-кейсы, в которых чаще всего возникают оптимизационные задачи. Особенности постановки оптимизационных задач для:
🔸 целевого маркетинга;
🔸 ценообразования, планирования промо, ассортиментного планирования;
🔸 транспорта, логистики и управления запасами;
🔸 графикования и составления сложных расписаний.

🟧 Как оптимизаторы работают с прогнозными моделями? Когда лучше иметь заранее рассчитанные отклики среды, а когда необходим интерактивный вызов прогнозной модели? Как работать с моделями "черными ящиками"?

🟧 Классификация оптимизационных солверов по задачам:
🔸 смешанно целочисленные линейные;
🔸 комбинаторные;
🔸 непрерывно-нелинейные;
🔸 смешанно-целочисленные нелинейные;
🔸 невыпуклые и недифференцируемые;
🔸 а также глобальная оптимизация с помощью генетических методов и методов колонии активных агентов

🟧 Использование методов оптимизация в Reinforcement Learning для непрерывного расчета оптимальных воздействий

🟧 Оригинальные идеи и наработки направления прогнозной и оптимизационной аналитики GlowByte AA в области MINLP и комбинаторной “black box” - оптимизации

В эфире:
😎 Максим Гончаров, самый главный за прогнозную и оптимизационную аналитику в GlowByte Advanced Analytics

Встречаемся как обычно в голосовом чате.
В качестве связи с темой прошлой недели, немного про методы оптимизации для задач кредитный рисков.

Во-первых, натолкнулся на такую дипломную работу: Determining an Optimal Loan Limit Strategy for SME Lending, в которой рассматривается задача оптимизации лимитов для МСБ в шведском финтехе Froda Företagslån. Текст простой, но хорош тем, что там дано краткое и понятное введение и в основы линейного программирование, и в кредитные риски и скоринг.

В целом про то, как возникает оптимизационная задача в управлении кредитным портфелем, все довольно просто. Есть цели: оптимизировать общую доходность портфеля,
минимизировать ожидаемые кредитные потери, максимизировать уровень одобрения, есть различного рода финансовые ограничения (например, общий объём портфеля), есть задача анализа чувствительности в контексте динамической адаптации процесса принятия решения при изменении кредитной стратегии или макроэкономической ситуации. Но какого то хорошего текста, кроме этого диплома, в котором все это рассказано, я к своему удивлению я не нашел.

В тексте рассматриваются две оптимизационные модели: максимизировать уровень одобрения, максимизировать доходность портфеля, плюс есть немного про анализ чувствительности. Также в рассматриваемом примере не учитываются характеристики и риск-компоненты на уровне детальных сделок, риск-компоненты берутся по однородным классам. После нашего завтрашнего обсуждения думаю станет понятно, как учесть индивидуальные харктеристики сделок и прогнозные модели на PD, LGD и EAD в оптимизационной задаче=)

Во-вторых, небольшая статья
Loan portfolio optimization using Genetic Algorithm: A case of credit constraints про похожую оптимизационную задачу в контексте принятия кредитных решений но на базе генетического алгоритма.
В этот четверг (19 августа) поговорим про такую тему, как валидация моделей. Встречаемся как обычно в 21:00 МСК в голосовом чате.

По понятным причинам направление валидации моделей очень хорошо развито в области моделирования для рисков в финансовом секторе. Поговорим с экспертами в этой области и постараемся сделать так, чтобы было интересно и полезно и для тех, кто работает в других индустриях и направлениях. Опыт по выстраивания процессов валидации и вообще контроля качества моделирования отлично переносится на многие решения на базе ML.

Темы к обсуждению:
📌 Что такое валидация моделей, в чем отличие от мониторинга моделей и почему валидация так важна в контексте задач оценки кредитных рисков?
📌 Особенности проведения валидации регуляторных и нерегуляторных моделей компонент кредитных рисков (PD/LGD/EAD) для розничного и корпоративного кредитования.
📌 Почему важно использовать не только количественные, но и качественные метрики? Какие вообще типы валидации можно выделить?
📌 Опыт применения подходов Model Performance Predictor для мониторинга и валидации моделей.
📌 Валидация как часть общего процесса контроля качества решений на базе моделей и аналитики, который также включает модельный мониторинг, контроль и валидацию качества данных и управление модельным риском.
📌 Как строить процессы и команду валидации? Зачем может быть нужен отдельный отдел или департамент валидации моделей?

Эксперты-спикеры:
😎 Алексей Чебыкин, Директор центра валидации, Банк Открытие
😎 Виктор Черников, Начальник отдела качества моделирования, Альфа-Банк
😎 Александр Бородин, Руководитель направления моделирования в финансах и рисках, GlowByte Advanced Analytics
Скоро 1 сентября, хотим поговорить про образование в Data Science. Обсудим и фундаментальную сторону: какой должен быть идеальный бэкграунд для работы в DS, и развитие: где и как повышать свою квалификацию состоявшимся специалистам, и переходы в DS из не очень на первый взгляд близких областей. Встречаемся 26 августа в 21:00 МСК в голосовом чате.

Более детальный анонс будет немного позже.
Итак, в этот четверг, 26 августа в 21:00 МСК встречаемся в голосовом чате и обсуждаем тему образования в DS.

Вопросы к обсуждению:
DS - это навык или профессия? Где, что и как изучать, чтобы стать идеальным специалистом в DS?
Классическая формулировка: Data Science находится на стыке математики, информатики и экспертизы в предметной области. Насколько хорошо раскрыты все три составляющие и в университетских программах по DS и в специализациях по повышению квалификации?
Обязательно ли тратить годы на изучение математики и информатики в университетах, и можно ли не имея технического бэкграунда освоить DS по курсам и специализациям на образовательных платформах?
Стоит ли гнаться за хайповыми и модными технологиями при входе в науки о данных? Почему big data и нейронки - это не всё, что нужно знать о мире DS?
Как в больших компаниях решается вопрос нехватки кадров должного уровня, помимо найма готовых специалистов: мотивация сотрудников заниматься самообучением, покупка внешних курсов, организация внутреннего обучения?
Любого ли уровня и размера компании могут заниматься ростом и развитием своих сотрудников? От какого размера команды и уровня развития DS это рентабельно и возможно?
Как организовать процессы внутреннего обучения и обмена опытом в командах DS?

Эксперты-спикеры
😎 Артём Глазунов, МегаФон, Team Lead DS
😎 Дмитрий Канатников, Яндекс, Служба клиентского опыта
😎 Александр Бородин, GlowByte Advanced Analytics, Руководитель направления в финансах и рисках
😎 Дмитрий Забавин, GlowByte Advanced Analytics, Team Lead DS
🧐 А также все желающие

До связи!
Вчера в обсуждении был небольшой спойлер, что в недрах команды GlowByte Advanced Analytics готовятся курсы и специализация по Data Science и продвинутой аналитике.

На прошлой неделе Дмитрий Забавин провёл совместное с Нетологией мероприятие, на котором рассказал, о чем мог бы быть курс про DS в маркетинге: Как data science помогает маркетингу. Там все бесплатно, но надо зарегистрироваться.

Про курсы будем придерживать в курсе)
Подборка ресурсов для изучения DS/ML от участников прошедшей в четверг дискуссии.

Артём Глазунов @artglazunov:
🖥 Специализация на Coursera Deep Learning. Прекрасная специализация для всех, вне зависимости от уровня. Пропитана духом Стэнфорда и любовью к ML
🖥 Специализация на Coursera Algorithms. Алгоритмы нужны, это факт. А в этой специализации есть задачки и для матёрых специалистов. При этом подача живая и увлекательная.
🖥 Курс на Coursera Эконометрика. Не мог обойти этот волшебный курс стороной…

Дмитрий Забавин @dmitry_zabavin:
📺 YouTube-канал StatQuest with Josh Starmer. Основы статистики и алгоритмов машинного обучения в очень простой форме и с подробными пошаговыми иллюстрациями.
📚 Книга Джоэл Грас, Data Science. Наука о данных с нуля. Подробный разбор основных алгоритмов машинного обучения с примерами того, как можно было бы эти алгоритмы реализовать самостоятельно на Python: лучший способ понять "как это работает" и бесценный образец кода на Python.
📚 Книга Дж. Вандер Плас, Python для сложных задач. Наука о данных и машинное обучение. Для дальнейшего развития: обзор множества алгоритмов обработки данных и машинного обучения - с примерами использования наиболее распространенных библиотек.
📚 Книга Франсуа Шолле, Глубокое обучение на Python. Cамое понятное погружение в глубокое обучение.
Forwarded from Natalia Toganova
В этот четверг, 02 сентября в 21:00 МСК встречаемся в голосовом чате. Говорить будем о 🔥 подкастах 🔥, о необходимости публичности для компаний и отдельных специалистов.

Выпуск приурочен к запуску нашего подкаста "Дайте данных" на следующей неделе.

Вопросы и темы:
Какая идея стоит за подкастом?
Цели подкаста и творческая смелость
Помогает ли подкаст добиться бизнес целей?
На сколько необходимо присутствовать в публичном пространстве - в соцсетях и не только?

Спикеры
😎 Александр Головин, Автор подкаста КритМышь, сооснователь студии Две Дорожки
😎 Александр Бородин, GlowByte Advanced Analytics, Руководитель направления в финансах и рисках
😎 Ирина Мефедова, GlowByte, Менеджер по PR&Marketing
🧐 А также все желающие

Вести будет Наталья Тоганова, GlowByte Advanced Analytics, бизнес-аналитик

До связи!
Forwarded from Natalia Toganova
Обычно мы публикуем reading-list 📚 по теме предстоящей встречи. Но в этот раз это будет hearing-list 🎧.

Этот список весьма субъективен. Ниже ссылка на опросник, добавьте свои любимые подкасты, мы обработаем и сделаем публикацию после встречи.

💻ИТ, анализ и близкое к этому:
✔️IT-шниками не рождаются
✔️Запуск завтра
✔️Деньги любят техно
✔️Podlodka
✔️— ждем запуска Данные люди (есть одноименный чат)
✔️Data Framed
✔️Data Viz Today

💜Разное, связанное с работой, с наукой и на подумать о жизни:
✔️Так вышло
✔️Критмышь
✔️НОРМ
✔️Экономика на слух
✔️Work Life / Adam Grant

‼️Опрос https://forms.gle/S8ujfMwXQgfoFSEW9
Ура! Первый выпуск нашего подкаста 🔥Дайте Данных🔥 появился на основных платформах:
🎙 Яндекс Музыка
🎙 Apple Podcasts
Подписывайтесь и ставьте лайки и много звёздочек=)
Почти по всех крупных организациях выделены отдельные департаменты и подразделения с централизованной функцией анализа данных. Во многих компаниях происходят процессы цифровой трансформации, в рамках которых также планируется выделение функции анализа данных и Data Science в отдельное подразделение.

Решили собрать круглый стол и поделиться опытом как выстраивать процессы и внутри таких DS подразделений, и в части их взаимодействия с другими структурами внутри организаций.

Встречаемся в этот четверг, 9 сентября в ❗️19:00❗️ МСК голосовом чате и обсуждаем следующие вопросы:

Организационная структура подразделения DS, фиксированные команды по предметным областям или технологиям? Или полный agile и все занимаются всем и знают всё?
Как взаимодействовать с бизнес партнерами и бизнес заказчиками? Где находится роль бизнес аналитика: в DS, у заказчика, или у всех есть свои бизнес аналитики?
Какие вообще есть роли помимо Data Engineer, Data Scientist и ML Engineer в таких DS подразделениях?
Как организовать обмен опытом и знаниями внутри DS подразделения?
Зачем заниматься R&D и как организовать этот процесс?
Какова роль внешних консультантов и чем они могут помочь, помимо подготовки 500-страничных презентаций про цифровую трансформацию?))

Эксперты-спикеры:
😎 Мария Калашникова, Газпромбанк, Вице-президент, Начальник Департамента анализа данных и моделирования
😎 Ирина Голощапова, Лента, Head of Data Science
😎 Наиль Макуев, МТС, Менеджера продукта «Big Data МТС Банка»
😎 Алексей Чернобровов, Консультант по Data Science и монетизации данных
😎 Павел Снурницын, GlowByte, руководитель практики Advanced Analytics