NoML Digest

Коллеги из GlowByte Advanced Analytics описали свое видение технологии FS:
👊 Как поссорились Инженер и Ученый. Статья про данные для ML и FeatureStore

Читайте, ставьте лайки и подключайтесь в четверг обсуждать и задавать вопросы авторам:
😎 Ольге Корольковой и
😎 Сергею Абрамову

🐣🐓🤔

772 viewsPavel Snurnitsyn, 15:27

NoML Digest

Дополнение к предыдущему списку решений Feature Store, за которыми активно следит команда GlowByte Advanced Analytics:
🔹Splice Machine
🔹Molecula FeatureBase
🔹Databricks Feature Store
🔹Google Vertex AI Feature Store

Кстати, я так и не понял, занимаются ли в Iterative.ai (кодовое слово DVC) разработкой решения класса Feature Store? Где-то мелькали какие-то такие заявления со ссылками вот на этот пост: MLOps startup Iterative.ai nabs $20M.

А с чем сталкивались вы? Пишите в комментариях, добавляйтесь в чат, если вас там вдруг нет, и приходите обсуждать в этот четверг🎙

684 viewsPavel Snurnitsyn, 14:00

NoML Digest

Тем временем новый выпуск подкаста Дайте Данных появился на всех основных платформах. Максим Гончаров вещает про кейсы применения методов оптимизации в различных индустриях 🏪🏭🏦🚊🏗🎦

Anchor

Третий выпуск: "Как принимать решения в условиях неопределенности?" by Дайте данных

Всегда ли нужна оптимизация? Как найти решение, удовлетворяющее требованиям клиента, если эти требования разнонаправленные? Как оптимизационный и прогнозный подходы в паре могут влиять на бизнес-стратегию? Как можно использовать ML в таких нестандартных местах…

665 viewsPavel Snurnitsyn, 19:39

NoML Digest

Кратко про развитие концепции Feature Store и по сути еще одно перечисление основных игроков на рынке этой технологии:
📌 Feature Store Milestones

Также на следующей неделе, 12-13 октября, намечается целая конференция
📌 Feature Store Summit

Среди докладов вроде бы как и кейсы представителей индустрий (Spotify, Twitter, Redis, Vanguard, Bosch, Varo, OLX, Uber, Via, Wildlife Studios, Stanford), и доклады от разработчиков решений FS и не только (Hopsworks, Salesforce, Iguazio, Amazon, Kaskada, Databricks, Rasgo, Galileo, Gantry, Microsoft, getML). Соотношение 50/50, что в целом не плохо)

681 viewsPavel Snurnitsyn, 15:44

NoML Digest

Активные спикеры в сегодняшнем обсуждении Feature Store:
😎 Сергей Ярымов, дата инженер, МТС
😎 Сергей Абрамов, руководитель направления Feature Store (или FeatureOps, или еще как-то, мы так и не определились с названием🤦), GlowByte Advanced Analytics
😎 Ольга Королькова, эксперт направления описанного выше, GlowByte Advanced Analytics

664 viewsPavel Snurnitsyn, 18:09

NoML Digest

Feature Store vol.2

NoML Community

704 viewsPavel Snurnitsyn, 19:23

NoML Digest

Доклад про кейс построения FS в МТС на конференции SmartData на следующей неделе:
📌 14 октября 20:00, Как мы строим Feature Store, Сергей Ярымов, Data Engineer в МТС Big Data

Вообще конференция платная, но на Community Day 14 октября регистрация бесплатная, так что регистрируйтесь, Сергей вчера сказал, что будет интересно=)

770 viewsPavel Snurnitsyn, 08:20

NoML Digest

📌 Еще пара статей про FS:
1️⃣ MLOps: The Role of Feature Stores
2️⃣ MLOps: Building a Feature Store? Here are the top things to keep in mind
FeatureOps и ProductionOps - все таки есть новые экземпляры XOps=)
Вторая статья прямо сильно перекликается с вопросами, которые вчера поднимали.

📌 И кейс Feature Store для Edge:
A Streaming Feature Store Based on Flink and the AWS SageMaker Feature Store API

870 viewsPavel Snurnitsyn, 13:01

NoML Digest

Недавняя подборка статей из канала Клуб CDO, все близко к нашей теме этой недели:
📌Features are the New Data
📌A Guide to DataOps: The New Age of Data Management
📌Видеозапись серии вебинаров The A-Z of Data — блок MLOps
📌Обзор программы SmartData 2021
📌How Streaming Data Works - Overview, Examples, and Architecture
📌What Is Data Engineering? Skills and Tools Required

914 viewsPavel Snurnitsyn, 15:39

NoML Digest

Какое-то время назад кругом бродил вот такой пост:
Призрак бродит по планете, призрак трансгуманизма. Манифест Джека Кларка на Stanford HAI.

По мотивам этих мыслей родилась идея обсудить тему "Больших моделей" или Foundation Models. Время пришло=)
Встречаемся в этот четверг, 14 октября, в 21:00 МСК в голосовом чате
Детальный анонс будет немного позже.

P.S.: Если останется время, то новый роман Пелевина тоже можно будет обсудить

Малоизвестное интересное

Призрак бродит по планете, призрак трансгуманизма.
Манифест Джека Кларка на Stanford HAI.
Два весьма знаменательных события этой недели – (1) в литературе и (2) в разработке ИИ, - удивительным образом сошлись в своем базовом тезисе.
• Первое событие –…

668 viewsPavel Snurnitsyn, 11:56

NoML Digest

На следующей неделе можно будет пофайнтюнить "большую модель", а именно в рамках Yandex Scale Workshop Week состоится мероприятие при участии команды GlowByte Advanced Analytics:
💻 Создание QA-ассистента для чата с помощью Yandex DataSphere
Ведущий воркшопа: 😎 Александр Волков, Data Scientist в направлении глубокого обучения GlowByte Advanced Analytics.
Мероприятие состоится 18 октября в 18:00 МСК.

О мероприятии:

Разработаем QA-ассистента — генератор ответов на типовые вопросы, который может упростить общение с клиентами любого бизнеса. Рассмотрим, как создать подобную модель с помощью DataSphere, и обсудим другие современные подходы к генерации текста.

Как будет устроена работа над моделью:

- соберём сообщения из Telegram-чата и отфильтруем по вопросам и ответам — так сформируем обучающую и валидационную выборки;
- проведём fine-tuning языковой модели на этих данных на основе архитектуры трансформеров.

Работать будем в консоли, поэтому количество мест ограничено. Для прохождения заданий вам предоставят тестовое облако.

Присоединяйтесь!

644 viewsPavel Snurnitsyn, 08:57

NoML Digest

Напоминаю, что завтра, 14 октября в 21:00 МСК в нашем голосовом чате обсуждаем тему Foundation Models.

Повестка встречи:
❓Что означает термин "Foundation Model"?
❓Какие преимущества и проблемы больших моделей?
❓Как большие модели используются в Яндексе и SberDevices?
❓Какие задачи умеют решать большие модели?
❓Стохастические попугаи: почему мы все еще далеки от Artificial General Intelligence?
❓Какие тренды развития больших моделей? Что будет дальше?

Эксперты участники дискуссии:
😎Игорь Куралёнок, руководитель подразделения AI&ML, Яндекс Облако
😎Денис Афанасьев, Head of TechPlatforms в SberDevices
😎Павел Егоров, руководитель направления Deep Learning, GlowByte Advanced Analytics

937 viewsPavel Snurnitsyn, edited 10:55

NoML Digest

📺 Тот самый доклад про большие модели (первые 23 минуты)
Jack Clark - Big Model: What Has Happened, Where Are We Going, and Who Gets to Build Them
в рамках воркшопа Центра по исследованию больших моделей в Стэнфорде

📄Та самая 160 страничная публикация того самого центра
On the Opportunities and Risks of Foundation Models
(сам никак не дочитаю, будет чем заняться вечером перед нашей дискусией)

746 viewsPavel Snurnitsyn, 18:00

NoML Digest

🦜🦜🦜 Про стохастических попугаев:

📄 Публикация: On the Dangers of Stochastic Parrots: Can Language Models Be Too Big
📺 Доклад от одного из соавторов с последующим обсуждением
🔥(Не)много критики

779 viewsPavel Snurnitsyn, edited 11:16

NoML Digest

📄Еще публикация в сторону контроля и регулирование сферы ИИ: Why and How Governments Should Monitor AI Development
⚡️И тут еще пролетали новости, что в Китае уже собрались регулировать)

Тоже хорошая тема к обсуждению на сегодняшней дискуссии)
Подключайтесь!

813 viewsPavel Snurnitsyn, edited 17:36

NoML Digest

Foundation Models

NoML Community

892 viewsPavel Snurnitsyn, 19:40

NoML Digest

Игорь Куралёнок😎 из Яндекс.Облака снова звучит в наших наушниках=)
Это я к тому, что новый выпуск подкаста Дайте Данных вышел на всех основных платформах:
📌 Anchor
📌 Apple Podcasts
📌 Яндекс Музыка
📌 Spotify

1.4K viewsPavel Snurnitsyn, 16:00

NoML Digest

На этой неделе - любимая тема MLOps=)

В четверг, 28 октября в 21:00 МСК в нашем голосовом чате планируем обсудить тему технологической зрелости и области MLOps в целом, и инструментария в частности (в особенности с открытым исходным кодом).
В качестве примера поделимся захватывающими историями про опыт промышленного внедрения Kubeflow.

К дискуссии уже обещают подключиться:
😎Антон Недосеков, архитектор цифровых решений управления корпоративной архитектуры Банка «Санкт-Петербург»,
😎Григорий Шутов, архитектор ML платформ практики Advanced Analytics в GlowByte,

и вы подключайтесь послушать и поговорить!

765 viewsPavel Snurnitsyn, 16:42

NoML Digest

Про захватывающие истории с Kubeflow можно начать читать в статье Антона)
🚀 Как мы в Банке «Санкт-Петербург» внедряли платформу машинного обучения

vc.ru

Как мы в Банке «Санкт-Петербург» внедряли платформу машинного обучения — Машинное обучение на vc.ru

Работа с моделями машинного обучения в Банке «Санкт-Петербург» ведется с 2010 года. Первопроходцами в этой области были подразделения по работе с кредитными и банковскими рисками, которые реализуют и поддерживают модели кредитного скоринга физических и юридических…

698 viewsPavel Snurnitsyn, 09:15

NoML Digest

Периодически мониторю какие-то рассылки и подписки по ключевым словам MLOps и ModelOps. Тема на хайпе, пишут про MLOps все подряд, и в результате последнее время 99% этих статей состоят просто из каких-то рандомных перестановок предложений со словами ML, DevOps, MLOps, грустных историй про то, что те несчастные 80% ML моделей все так никак и не могут дойти до прода, ну и еще про то, почему у CDO или CIO есть очередные N причин уделить внимание MLOps в этом году.

Но среди этого потока иногда попадается что-то полезное. Хочу порекомендовать вот этот текст:
📌 Ville Tuulos, Hugo Bowne-Anderson - MLOps and DevOps: Why Data Makes It Different

Во-первых, в статье аргументы про различие DevOps и MLOps, а именно почему у парадигмы data-centric programming свой особый путь. Вопрос про границы между DevOps и MLOps и то, является ли последний подмножеством первого, интересный, надеюсь сегодня его как следует обсудим в голосовом чатике=)

Во-вторых, хорошее выделение слоёв ML проектов и как следствие в принципе платформы для анализа данных:
- Data
- Compute
- Orchestration
- Versioning
- Software Architecture
- Model Operations
- Feature Engineering
- Model Development
И плюс важный тезис, про который в целом как-то мало говорят, а именно про процессы A/B тестирования и экспериментирования, которые распространяются на несколько слоев и проекта и платформы.

И в-третьих, еще один важный тезис, про который тоже мало говорят: “Wrapping The Stack” (так и переведём, обёртывание=)).
В каждом слое есть много инструментов, которые хорошо решают свою частную задачу общего проекта по анализу данных. При этом возникает потребность обернуть весь этот стек инструментов в единое решение так, чтобы, во-первых, команды анализа данных могли сосредоточиться на последних слоях платформы и абстрагироваться от более технических слоев, а, во-вторых, сделать взаимодействие стека инструментов этих слоев более бесшовным.
Если этого достичь, то можно надеяться на то, что команды анализа данных будут более эффективно решать бизнес задачи целиком, от проверки гипотез и прототипирования до внедрения и улучшения в процессе эксплуатации.
В качестве примеров таких обёрток авторы приводят инструменты типа Metaflow и Kubeflow.

Дальше хочу уже от себя добавить про необходимость еще одного уровня обёрток, который призван соединить не только технические слои ML, но и бизнес контекст решаемой задачи. Такая обёртка позволит оперировать сущностями более высокого уровня, чем датасет, фичи и модель, а именно: группа связанных моделей, сквозные эксперименты и правила принятия решений в конечном бизнес процессе.

После последней мысли вспоминается, во-первых, вопрос про разницу между терминами MLOps и ModelOps, а во-вторых, напрашивается еще один XOps, который как раз про операционализацию процесса принятия решений на базе ML и аналитики. До этого вопроса тоже быть дойдем в нашей дискуссии сегодня, подключайтесь!

Ну и собственно ждем больше статей на тему эффективного обёртывания ML в домашних условиях)

O’Reilly Media

MLOps and DevOps: Why Data Makes It Different

Machine Learning’s deployment stack is maturing

713 viewsPavel Snurnitsyn, 15:49

NoML Digest

State of MLOps

NoML Community

787 viewsPavel Snurnitsyn, 19:39

About

Blog

Apps

Platform