NoML Digest
1.85K subscribers
76 photos
1 video
2 files
594 links
База знаний https://noml.club
Чат https://t.me/noml_community
YouTube https://www.youtube.com/@NoML_community

По всем вопросам к @psnurnitsyn
Download Telegram
Активные спикеры в сегодняшнем обсуждении Feature Store:
😎 Сергей Ярымов, дата инженер, МТС
😎 Сергей Абрамов, руководитель направления Feature Store (или FeatureOps, или еще как-то, мы так и не определились с названием🤦), GlowByte Advanced Analytics
😎 Ольга Королькова, эксперт направления описанного выше, GlowByte Advanced Analytics
Доклад про кейс построения FS в МТС на конференции SmartData на следующей неделе:
📌 14 октября 20:00, Как мы строим Feature Store, Сергей Ярымов, Data Engineer в МТС Big Data

Вообще конференция платная, но на Community Day 14 октября регистрация бесплатная, так что регистрируйтесь, Сергей вчера сказал, что будет интересно=)
📌 Еще пара статей про FS:
1️⃣ MLOps: The Role of Feature Stores
2️⃣ MLOps: Building a Feature Store? Here are the top things to keep in mind
FeatureOps и ProductionOps - все таки есть новые экземпляры XOps=)
Вторая статья прямо сильно перекликается с вопросами, которые вчера поднимали.

📌 И кейс Feature Store для Edge:
A Streaming Feature Store Based on Flink and the AWS SageMaker Feature Store API
Недавняя подборка статей из канала Клуб CDO, все близко к нашей теме этой недели:
📌Features are the New Data
📌A Guide to DataOps: The New Age of Data Management
📌Видеозапись серии вебинаров The A-Z of Data — блок MLOps
📌Обзор программы SmartData 2021
📌How Streaming Data Works - Overview, Examples, and Architecture
📌What Is Data Engineering? Skills and Tools Required
Какое-то время назад кругом бродил вот такой пост:
Призрак бродит по планете, призрак трансгуманизма. Манифест Джека Кларка на Stanford HAI.

По мотивам этих мыслей родилась идея обсудить тему "Больших моделей" или Foundation Models. Время пришло=)
Встречаемся в этот четверг, 14 октября, в 21:00 МСК в голосовом чате
Детальный анонс будет немного позже.

P.S.: Если останется время, то новый роман Пелевина тоже можно будет обсудить
На следующей неделе можно будет пофайнтюнить "большую модель", а именно в рамках Yandex Scale Workshop Week состоится мероприятие при участии команды GlowByte Advanced Analytics:
💻 Создание QA-ассистента для чата с помощью Yandex DataSphere
Ведущий воркшопа: 😎 Александр Волков, Data Scientist в направлении глубокого обучения GlowByte Advanced Analytics.
Мероприятие состоится 18 октября в 18:00 МСК.


О мероприятии:

Разработаем QA-ассистента — генератор ответов на типовые вопросы, который может упростить общение с клиентами любого бизнеса. Рассмотрим, как создать подобную модель с помощью DataSphere, и обсудим другие современные подходы к генерации текста.

Как будет устроена работа над моделью:

- соберём сообщения из Telegram-чата и отфильтруем по вопросам и ответам — так сформируем обучающую и валидационную выборки;
- проведём fine-tuning языковой модели на этих данных на основе архитектуры трансформеров.

Работать будем в консоли, поэтому количество мест ограничено. Для прохождения заданий вам предоставят тестовое облако.

Присоединяйтесь!
Напоминаю, что завтра, 14 октября в 21:00 МСК в нашем голосовом чате обсуждаем тему Foundation Models.

Повестка встречи:
Что означает термин "Foundation Model"?
Какие преимущества и проблемы больших моделей?
Как большие модели используются в Яндексе и SberDevices?
Какие задачи умеют решать большие модели?
Стохастические попугаи: почему мы все еще далеки от Artificial General Intelligence?
Какие тренды развития больших моделей? Что будет дальше?

Эксперты участники дискуссии:
😎Игорь Куралёнок, руководитель подразделения AI&ML, Яндекс Облако
😎Денис Афанасьев, Head of TechPlatforms в SberDevices
😎Павел Егоров, руководитель направления Deep Learning, GlowByte Advanced Analytics
📺 Тот самый доклад про большие модели (первые 23 минуты)
Jack Clark - Big Model: What Has Happened, Where Are We Going, and Who Gets to Build Them
в рамках воркшопа Центра по исследованию больших моделей в Стэнфорде

📄Та самая 160 страничная публикация того самого центра
On the Opportunities and Risks of Foundation Models
(сам никак не дочитаю, будет чем заняться вечером перед нашей дискусией)
🦜🦜🦜 Про стохастических попугаев:

📄 Публикация: On the Dangers of Stochastic Parrots: Can Language Models Be Too Big
📺 Доклад от одного из соавторов с последующим обсуждением
🔥(Не)много критики
📄Еще публикация в сторону контроля и регулирование сферы ИИ: Why and How Governments Should Monitor AI Development
⚡️И тут еще пролетали новости, что в Китае уже собрались регулировать)

Тоже хорошая тема к обсуждению на сегодняшней дискуссии)
Подключайтесь!
Игорь Куралёнок😎 из Яндекс.Облака снова звучит в наших наушниках=)
Это я к тому, что новый выпуск подкаста Дайте Данных вышел на всех основных платформах:
📌 Anchor
📌 Apple Podcasts
📌 Яндекс Музыка
📌 Spotify
На этой неделе - любимая тема MLOps=)

В четверг, 28 октября в 21:00 МСК в нашем голосовом чате планируем обсудить тему технологической зрелости и области MLOps в целом, и инструментария в частности (в особенности с открытым исходным кодом).
В качестве примера поделимся захватывающими историями про опыт промышленного внедрения Kubeflow.

К дискуссии уже обещают подключиться:
😎Антон Недосеков, архитектор цифровых решений управления корпоративной архитектуры Банка «Санкт-Петербург»,
😎Григорий Шутов, архитектор ML платформ практики Advanced Analytics в GlowByte,

и вы подключайтесь послушать и поговорить!
Периодически мониторю какие-то рассылки и подписки по ключевым словам MLOps и ModelOps. Тема на хайпе, пишут про MLOps все подряд, и в результате последнее время 99% этих статей состоят просто из каких-то рандомных перестановок предложений со словами ML, DevOps, MLOps, грустных историй про то, что те несчастные 80% ML моделей все так никак и не могут дойти до прода, ну и еще про то, почему у CDO или CIO есть очередные N причин уделить внимание MLOps в этом году.

Но среди этого потока иногда попадается что-то полезное. Хочу порекомендовать вот этот текст:
📌 Ville Tuulos, Hugo Bowne-Anderson - MLOps and DevOps: Why Data Makes It Different

Во-первых, в статье аргументы про различие DevOps и MLOps, а именно почему у парадигмы data-centric programming свой особый путь. Вопрос про границы между DevOps и MLOps и то, является ли последний подмножеством первого, интересный, надеюсь сегодня его как следует обсудим в голосовом чатике=)

Во-вторых, хорошее выделение слоёв ML проектов и как следствие в принципе платформы для анализа данных:
- Data
- Compute
- Orchestration
- Versioning
- Software Architecture
- Model Operations
- Feature Engineering
- Model Development
И плюс важный тезис, про который в целом как-то мало говорят, а именно про процессы A/B тестирования и экспериментирования, которые распространяются на несколько слоев и проекта и платформы.

И в-третьих, еще один важный тезис, про который тоже мало говорят: “Wrapping The Stack” (так и переведём, обёртывание=)).
В каждом слое есть много инструментов, которые хорошо решают свою частную задачу общего проекта по анализу данных. При этом возникает потребность обернуть весь этот стек инструментов в единое решение так, чтобы, во-первых, команды анализа данных могли сосредоточиться на последних слоях платформы и абстрагироваться от более технических слоев, а, во-вторых, сделать взаимодействие стека инструментов этих слоев более бесшовным.
Если этого достичь, то можно надеяться на то, что команды анализа данных будут более эффективно решать бизнес задачи целиком, от проверки гипотез и прототипирования до внедрения и улучшения в процессе эксплуатации.
В качестве примеров таких обёрток авторы приводят инструменты типа Metaflow и Kubeflow.

Дальше хочу уже от себя добавить про необходимость еще одного уровня обёрток, который призван соединить не только технические слои ML, но и бизнес контекст решаемой задачи. Такая обёртка позволит оперировать сущностями более высокого уровня, чем датасет, фичи и модель, а именно: группа связанных моделей, сквозные эксперименты и правила принятия решений в конечном бизнес процессе.

После последней мысли вспоминается, во-первых, вопрос про разницу между терминами MLOps и ModelOps, а во-вторых, напрашивается еще один XOps, который как раз про операционализацию процесса принятия решений на базе ML и аналитики. До этого вопроса тоже быть дойдем в нашей дискуссии сегодня, подключайтесь!

Ну и собственно ждем больше статей на тему эффективного обёртывания ML в домашних условиях)
Про сумасшедший ландшафт MLOps инструментов.

📌 Ресурс The State of MLOps. И небольшая статья с аналитикой по данным из этого ресурса:
The state of MLOps in 2021 is dominated by startups
Статья, правда, начинается с фразы "87% of data science projects never make it into production"🤦

📌 Еще один ресурс со сводной информацией про инструменты MLOps: MLOps.toys.

📌 Тут не только про ML, но в принципе про данные и аналитику: MAD Landscape. И статья в придачу:
The 2021 machine learning, AI, and data landscape

📌 Также напомню, что есть отдельный ресурс про Feature Store
Правда сводная табличка про проекты FS кажется немного мертвой…


О том, что мы планируем с этим всем делать (по крайней мере в части MLOps) напишу на следующей неделе😉
Всем привет!

У нас небольшие изменения по происходящему в этом канале.

Теперь, будет так: каждую неделю есть одно основное событие и связанная с ним подборка материалов. Список событий, у нас на текущий момент, состоит из войсчата и подкаста. То есть теперь на неделе, когда выходит подкаст, у нас не будет голосового чата.

Список видов событий мы планируем расширять, например, совсем скоро у нас появятся онлайн семинары с презентациями, погружением в технические детали и в общем все, как многие просили) Первый семинар запланирован на 24 ноября, ближе к делу напишем анонс. К началу года планируем выйти на регулярность семинаров раз в две недели.

Еще из изменений: войсчаты больше не будем записывать, надеемся, так будет более расслабленная и неформальная обстановка с возможностью пофлудить на около MLные темы.

Собственно на этой неделе у нас новый выпуск подкаста, как появится на основных платформах, напишем дополнительно)

А еще мы завели канал на YouTube, там тоже есть подкаст, и там будут появляться записи онлайн семинаров.
Коллеги из МКБ приглашают принять участие в хакатоне для специалистов по Data Science:


Московский кредитный банк (МКБ) организует онлайн хакатон для молодых специалистов по Data Science. Если ты студент последних курсов или начинающий специалист, прояви свои таланты и выиграй отличные призы!  В хакатоне предстоит построить модель оценки вероятности выполнения обязательств клиентом банка при получении банковской гарантии. Победителей определяем в два этапа:
1️⃣ Шортлист из 10 решений будет выбран по специальной метрике с помощью искусственного интеллекта.
2️⃣ Тройку победителей выберет комиссия экспертов.

Что на кону:
MacBook Pro, MacBook Air или iPhone.
Предложение присоединиться к уникальному коллективу одного из крупнейших банков России.

Старт Хакатона – 01.11.2021, Финиш – 30.11.2021.

Подробности по ссылке:  

Попробуй свои силы в новом хакатоне от МКБ!