NoML Digest
1.84K subscribers
76 photos
1 video
2 files
592 links
База знаний https://noml.club
Чат https://t.me/noml_community
YouTube https://www.youtube.com/@NoML_community

По всем вопросам к @psnurnitsyn
Download Telegram
Облака
NoML Community
Тема Feature Store очень активно развивается, почувствовали острую необходимость снова поговорить и про FS и вообще про данные в DS и ML (что и как обсуждали в прошлый раз).

В этот четверг (7 октября) в 21:00 по Москве собираемся в голосовом чате и обсуждаем следующие вопросы:

Как выглядит процесс подготовки данных для ML, кто его основные участники? То есть снова о том, кто такие DE и MLE и чем они должны заниматься?=)
Область Feature Store сравнительно новая и находится на этапе становления, какими свойствами должен обладать FS? Какие задачи может решить FS, а какие нет?
Как Feature Store встраивается и в процесс построения решений на базе продвинутой аналитики и в платформу Data&ML?
Что делать? Пробовать решения на рынке или строить свое?

Подключайтесь и послушать и поговорить!
Коллеги из GlowByte Advanced Analytics описали свое видение технологии FS:
👊 Как поссорились Инженер и Ученый. Статья про данные для ML и FeatureStore

Читайте, ставьте лайки и подключайтесь в четверг обсуждать и задавать вопросы авторам:
😎 Ольге Корольковой и
😎 Сергею Абрамову

🐣🐓🤔
Дополнение к предыдущему списку решений Feature Store, за которыми активно следит команда GlowByte Advanced Analytics:
🔹Splice Machine
🔹Molecula FeatureBase
🔹Databricks Feature Store
🔹Google Vertex AI Feature Store

Кстати, я так и не понял, занимаются ли в Iterative.ai (кодовое слово DVC) разработкой решения класса Feature Store? Где-то мелькали какие-то такие заявления со ссылками вот на этот пост: MLOps startup Iterative.ai nabs $20M.

А с чем сталкивались вы? Пишите в комментариях, добавляйтесь в чат, если вас там вдруг нет, и приходите обсуждать в этот четверг🎙
Кратко про развитие концепции Feature Store и по сути еще одно перечисление основных игроков на рынке этой технологии:
📌 Feature Store Milestones

Также на следующей неделе, 12-13 октября, намечается целая конференция
📌 Feature Store Summit

Среди докладов вроде бы как и кейсы представителей индустрий (Spotify, Twitter, Redis, Vanguard, Bosch, Varo, OLX, Uber, Via, Wildlife Studios, Stanford), и доклады от разработчиков решений FS и не только (Hopsworks, Salesforce, Iguazio, Amazon, Kaskada, Databricks, Rasgo, Galileo, Gantry, Microsoft, getML). Соотношение 50/50, что в целом не плохо)
Активные спикеры в сегодняшнем обсуждении Feature Store:
😎 Сергей Ярымов, дата инженер, МТС
😎 Сергей Абрамов, руководитель направления Feature Store (или FeatureOps, или еще как-то, мы так и не определились с названием🤦), GlowByte Advanced Analytics
😎 Ольга Королькова, эксперт направления описанного выше, GlowByte Advanced Analytics
Доклад про кейс построения FS в МТС на конференции SmartData на следующей неделе:
📌 14 октября 20:00, Как мы строим Feature Store, Сергей Ярымов, Data Engineer в МТС Big Data

Вообще конференция платная, но на Community Day 14 октября регистрация бесплатная, так что регистрируйтесь, Сергей вчера сказал, что будет интересно=)
📌 Еще пара статей про FS:
1️⃣ MLOps: The Role of Feature Stores
2️⃣ MLOps: Building a Feature Store? Here are the top things to keep in mind
FeatureOps и ProductionOps - все таки есть новые экземпляры XOps=)
Вторая статья прямо сильно перекликается с вопросами, которые вчера поднимали.

📌 И кейс Feature Store для Edge:
A Streaming Feature Store Based on Flink and the AWS SageMaker Feature Store API
Недавняя подборка статей из канала Клуб CDO, все близко к нашей теме этой недели:
📌Features are the New Data
📌A Guide to DataOps: The New Age of Data Management
📌Видеозапись серии вебинаров The A-Z of Data — блок MLOps
📌Обзор программы SmartData 2021
📌How Streaming Data Works - Overview, Examples, and Architecture
📌What Is Data Engineering? Skills and Tools Required
Какое-то время назад кругом бродил вот такой пост:
Призрак бродит по планете, призрак трансгуманизма. Манифест Джека Кларка на Stanford HAI.

По мотивам этих мыслей родилась идея обсудить тему "Больших моделей" или Foundation Models. Время пришло=)
Встречаемся в этот четверг, 14 октября, в 21:00 МСК в голосовом чате
Детальный анонс будет немного позже.

P.S.: Если останется время, то новый роман Пелевина тоже можно будет обсудить
На следующей неделе можно будет пофайнтюнить "большую модель", а именно в рамках Yandex Scale Workshop Week состоится мероприятие при участии команды GlowByte Advanced Analytics:
💻 Создание QA-ассистента для чата с помощью Yandex DataSphere
Ведущий воркшопа: 😎 Александр Волков, Data Scientist в направлении глубокого обучения GlowByte Advanced Analytics.
Мероприятие состоится 18 октября в 18:00 МСК.


О мероприятии:

Разработаем QA-ассистента — генератор ответов на типовые вопросы, который может упростить общение с клиентами любого бизнеса. Рассмотрим, как создать подобную модель с помощью DataSphere, и обсудим другие современные подходы к генерации текста.

Как будет устроена работа над моделью:

- соберём сообщения из Telegram-чата и отфильтруем по вопросам и ответам — так сформируем обучающую и валидационную выборки;
- проведём fine-tuning языковой модели на этих данных на основе архитектуры трансформеров.

Работать будем в консоли, поэтому количество мест ограничено. Для прохождения заданий вам предоставят тестовое облако.

Присоединяйтесь!
Напоминаю, что завтра, 14 октября в 21:00 МСК в нашем голосовом чате обсуждаем тему Foundation Models.

Повестка встречи:
Что означает термин "Foundation Model"?
Какие преимущества и проблемы больших моделей?
Как большие модели используются в Яндексе и SberDevices?
Какие задачи умеют решать большие модели?
Стохастические попугаи: почему мы все еще далеки от Artificial General Intelligence?
Какие тренды развития больших моделей? Что будет дальше?

Эксперты участники дискуссии:
😎Игорь Куралёнок, руководитель подразделения AI&ML, Яндекс Облако
😎Денис Афанасьев, Head of TechPlatforms в SberDevices
😎Павел Егоров, руководитель направления Deep Learning, GlowByte Advanced Analytics
📺 Тот самый доклад про большие модели (первые 23 минуты)
Jack Clark - Big Model: What Has Happened, Where Are We Going, and Who Gets to Build Them
в рамках воркшопа Центра по исследованию больших моделей в Стэнфорде

📄Та самая 160 страничная публикация того самого центра
On the Opportunities and Risks of Foundation Models
(сам никак не дочитаю, будет чем заняться вечером перед нашей дискусией)
🦜🦜🦜 Про стохастических попугаев:

📄 Публикация: On the Dangers of Stochastic Parrots: Can Language Models Be Too Big
📺 Доклад от одного из соавторов с последующим обсуждением
🔥(Не)много критики
📄Еще публикация в сторону контроля и регулирование сферы ИИ: Why and How Governments Should Monitor AI Development
⚡️И тут еще пролетали новости, что в Китае уже собрались регулировать)

Тоже хорошая тема к обсуждению на сегодняшней дискуссии)
Подключайтесь!
Игорь Куралёнок😎 из Яндекс.Облака снова звучит в наших наушниках=)
Это я к тому, что новый выпуск подкаста Дайте Данных вышел на всех основных платформах:
📌 Anchor
📌 Apple Podcasts
📌 Яндекс Музыка
📌 Spotify
На этой неделе - любимая тема MLOps=)

В четверг, 28 октября в 21:00 МСК в нашем голосовом чате планируем обсудить тему технологической зрелости и области MLOps в целом, и инструментария в частности (в особенности с открытым исходным кодом).
В качестве примера поделимся захватывающими историями про опыт промышленного внедрения Kubeflow.

К дискуссии уже обещают подключиться:
😎Антон Недосеков, архитектор цифровых решений управления корпоративной архитектуры Банка «Санкт-Петербург»,
😎Григорий Шутов, архитектор ML платформ практики Advanced Analytics в GlowByte,

и вы подключайтесь послушать и поговорить!