NoML Digest
1.85K subscribers
76 photos
1 video
2 files
595 links
База знаний https://noml.club
Чат https://t.me/noml_community
YouTube https://www.youtube.com/@NoML_community

По всем вопросам к @psnurnitsyn
Download Telegram
Коллеги из GlowByte Advanced Analytics описали свое видение технологии FS:
👊 Как поссорились Инженер и Ученый. Статья про данные для ML и FeatureStore

Читайте, ставьте лайки и подключайтесь в четверг обсуждать и задавать вопросы авторам:
😎 Ольге Корольковой и
😎 Сергею Абрамову

🐣🐓🤔
Дополнение к предыдущему списку решений Feature Store, за которыми активно следит команда GlowByte Advanced Analytics:
🔹Splice Machine
🔹Molecula FeatureBase
🔹Databricks Feature Store
🔹Google Vertex AI Feature Store

Кстати, я так и не понял, занимаются ли в Iterative.ai (кодовое слово DVC) разработкой решения класса Feature Store? Где-то мелькали какие-то такие заявления со ссылками вот на этот пост: MLOps startup Iterative.ai nabs $20M.

А с чем сталкивались вы? Пишите в комментариях, добавляйтесь в чат, если вас там вдруг нет, и приходите обсуждать в этот четверг🎙
Кратко про развитие концепции Feature Store и по сути еще одно перечисление основных игроков на рынке этой технологии:
📌 Feature Store Milestones

Также на следующей неделе, 12-13 октября, намечается целая конференция
📌 Feature Store Summit

Среди докладов вроде бы как и кейсы представителей индустрий (Spotify, Twitter, Redis, Vanguard, Bosch, Varo, OLX, Uber, Via, Wildlife Studios, Stanford), и доклады от разработчиков решений FS и не только (Hopsworks, Salesforce, Iguazio, Amazon, Kaskada, Databricks, Rasgo, Galileo, Gantry, Microsoft, getML). Соотношение 50/50, что в целом не плохо)
Активные спикеры в сегодняшнем обсуждении Feature Store:
😎 Сергей Ярымов, дата инженер, МТС
😎 Сергей Абрамов, руководитель направления Feature Store (или FeatureOps, или еще как-то, мы так и не определились с названием🤦), GlowByte Advanced Analytics
😎 Ольга Королькова, эксперт направления описанного выше, GlowByte Advanced Analytics
Доклад про кейс построения FS в МТС на конференции SmartData на следующей неделе:
📌 14 октября 20:00, Как мы строим Feature Store, Сергей Ярымов, Data Engineer в МТС Big Data

Вообще конференция платная, но на Community Day 14 октября регистрация бесплатная, так что регистрируйтесь, Сергей вчера сказал, что будет интересно=)
📌 Еще пара статей про FS:
1️⃣ MLOps: The Role of Feature Stores
2️⃣ MLOps: Building a Feature Store? Here are the top things to keep in mind
FeatureOps и ProductionOps - все таки есть новые экземпляры XOps=)
Вторая статья прямо сильно перекликается с вопросами, которые вчера поднимали.

📌 И кейс Feature Store для Edge:
A Streaming Feature Store Based on Flink and the AWS SageMaker Feature Store API
Недавняя подборка статей из канала Клуб CDO, все близко к нашей теме этой недели:
📌Features are the New Data
📌A Guide to DataOps: The New Age of Data Management
📌Видеозапись серии вебинаров The A-Z of Data — блок MLOps
📌Обзор программы SmartData 2021
📌How Streaming Data Works - Overview, Examples, and Architecture
📌What Is Data Engineering? Skills and Tools Required
Какое-то время назад кругом бродил вот такой пост:
Призрак бродит по планете, призрак трансгуманизма. Манифест Джека Кларка на Stanford HAI.

По мотивам этих мыслей родилась идея обсудить тему "Больших моделей" или Foundation Models. Время пришло=)
Встречаемся в этот четверг, 14 октября, в 21:00 МСК в голосовом чате
Детальный анонс будет немного позже.

P.S.: Если останется время, то новый роман Пелевина тоже можно будет обсудить
На следующей неделе можно будет пофайнтюнить "большую модель", а именно в рамках Yandex Scale Workshop Week состоится мероприятие при участии команды GlowByte Advanced Analytics:
💻 Создание QA-ассистента для чата с помощью Yandex DataSphere
Ведущий воркшопа: 😎 Александр Волков, Data Scientist в направлении глубокого обучения GlowByte Advanced Analytics.
Мероприятие состоится 18 октября в 18:00 МСК.


О мероприятии:

Разработаем QA-ассистента — генератор ответов на типовые вопросы, который может упростить общение с клиентами любого бизнеса. Рассмотрим, как создать подобную модель с помощью DataSphere, и обсудим другие современные подходы к генерации текста.

Как будет устроена работа над моделью:

- соберём сообщения из Telegram-чата и отфильтруем по вопросам и ответам — так сформируем обучающую и валидационную выборки;
- проведём fine-tuning языковой модели на этих данных на основе архитектуры трансформеров.

Работать будем в консоли, поэтому количество мест ограничено. Для прохождения заданий вам предоставят тестовое облако.

Присоединяйтесь!
Напоминаю, что завтра, 14 октября в 21:00 МСК в нашем голосовом чате обсуждаем тему Foundation Models.

Повестка встречи:
Что означает термин "Foundation Model"?
Какие преимущества и проблемы больших моделей?
Как большие модели используются в Яндексе и SberDevices?
Какие задачи умеют решать большие модели?
Стохастические попугаи: почему мы все еще далеки от Artificial General Intelligence?
Какие тренды развития больших моделей? Что будет дальше?

Эксперты участники дискуссии:
😎Игорь Куралёнок, руководитель подразделения AI&ML, Яндекс Облако
😎Денис Афанасьев, Head of TechPlatforms в SberDevices
😎Павел Егоров, руководитель направления Deep Learning, GlowByte Advanced Analytics
📺 Тот самый доклад про большие модели (первые 23 минуты)
Jack Clark - Big Model: What Has Happened, Where Are We Going, and Who Gets to Build Them
в рамках воркшопа Центра по исследованию больших моделей в Стэнфорде

📄Та самая 160 страничная публикация того самого центра
On the Opportunities and Risks of Foundation Models
(сам никак не дочитаю, будет чем заняться вечером перед нашей дискусией)
🦜🦜🦜 Про стохастических попугаев:

📄 Публикация: On the Dangers of Stochastic Parrots: Can Language Models Be Too Big
📺 Доклад от одного из соавторов с последующим обсуждением
🔥(Не)много критики
📄Еще публикация в сторону контроля и регулирование сферы ИИ: Why and How Governments Should Monitor AI Development
⚡️И тут еще пролетали новости, что в Китае уже собрались регулировать)

Тоже хорошая тема к обсуждению на сегодняшней дискуссии)
Подключайтесь!
Игорь Куралёнок😎 из Яндекс.Облака снова звучит в наших наушниках=)
Это я к тому, что новый выпуск подкаста Дайте Данных вышел на всех основных платформах:
📌 Anchor
📌 Apple Podcasts
📌 Яндекс Музыка
📌 Spotify
На этой неделе - любимая тема MLOps=)

В четверг, 28 октября в 21:00 МСК в нашем голосовом чате планируем обсудить тему технологической зрелости и области MLOps в целом, и инструментария в частности (в особенности с открытым исходным кодом).
В качестве примера поделимся захватывающими историями про опыт промышленного внедрения Kubeflow.

К дискуссии уже обещают подключиться:
😎Антон Недосеков, архитектор цифровых решений управления корпоративной архитектуры Банка «Санкт-Петербург»,
😎Григорий Шутов, архитектор ML платформ практики Advanced Analytics в GlowByte,

и вы подключайтесь послушать и поговорить!
Периодически мониторю какие-то рассылки и подписки по ключевым словам MLOps и ModelOps. Тема на хайпе, пишут про MLOps все подряд, и в результате последнее время 99% этих статей состоят просто из каких-то рандомных перестановок предложений со словами ML, DevOps, MLOps, грустных историй про то, что те несчастные 80% ML моделей все так никак и не могут дойти до прода, ну и еще про то, почему у CDO или CIO есть очередные N причин уделить внимание MLOps в этом году.

Но среди этого потока иногда попадается что-то полезное. Хочу порекомендовать вот этот текст:
📌 Ville Tuulos, Hugo Bowne-Anderson - MLOps and DevOps: Why Data Makes It Different

Во-первых, в статье аргументы про различие DevOps и MLOps, а именно почему у парадигмы data-centric programming свой особый путь. Вопрос про границы между DevOps и MLOps и то, является ли последний подмножеством первого, интересный, надеюсь сегодня его как следует обсудим в голосовом чатике=)

Во-вторых, хорошее выделение слоёв ML проектов и как следствие в принципе платформы для анализа данных:
- Data
- Compute
- Orchestration
- Versioning
- Software Architecture
- Model Operations
- Feature Engineering
- Model Development
И плюс важный тезис, про который в целом как-то мало говорят, а именно про процессы A/B тестирования и экспериментирования, которые распространяются на несколько слоев и проекта и платформы.

И в-третьих, еще один важный тезис, про который тоже мало говорят: “Wrapping The Stack” (так и переведём, обёртывание=)).
В каждом слое есть много инструментов, которые хорошо решают свою частную задачу общего проекта по анализу данных. При этом возникает потребность обернуть весь этот стек инструментов в единое решение так, чтобы, во-первых, команды анализа данных могли сосредоточиться на последних слоях платформы и абстрагироваться от более технических слоев, а, во-вторых, сделать взаимодействие стека инструментов этих слоев более бесшовным.
Если этого достичь, то можно надеяться на то, что команды анализа данных будут более эффективно решать бизнес задачи целиком, от проверки гипотез и прототипирования до внедрения и улучшения в процессе эксплуатации.
В качестве примеров таких обёрток авторы приводят инструменты типа Metaflow и Kubeflow.

Дальше хочу уже от себя добавить про необходимость еще одного уровня обёрток, который призван соединить не только технические слои ML, но и бизнес контекст решаемой задачи. Такая обёртка позволит оперировать сущностями более высокого уровня, чем датасет, фичи и модель, а именно: группа связанных моделей, сквозные эксперименты и правила принятия решений в конечном бизнес процессе.

После последней мысли вспоминается, во-первых, вопрос про разницу между терминами MLOps и ModelOps, а во-вторых, напрашивается еще один XOps, который как раз про операционализацию процесса принятия решений на базе ML и аналитики. До этого вопроса тоже быть дойдем в нашей дискуссии сегодня, подключайтесь!

Ну и собственно ждем больше статей на тему эффективного обёртывания ML в домашних условиях)