Клуб CDO
2.71K subscribers
329 photos
19 videos
82 files
1.34K links
Сообщество профессионалов в области работы с данными и искуственным интеллектом
Download Telegram
Рабочее место D-people

Очередное интервью в рамках премии CDO Awards - CDO Сбербанка Бориса Рабиновича о проекте “Фабрика данных”

Проект на рынке очень известный, но информации мало, что делает этот материал особенно интересным. Но кроме этого должен отметить, что проект реально очень крутой и прорывной в области демократизации данных, особенно с учетом масштаба такой организации, как Сбербанк.

Основные факты:
Ключевой эффект проекта — сокращение времени дата-сайентиста на построение модели с трех месяцев до дней. Аналитикам доступна “витрина данных” — дата-сеты, построенные на основе копий систем — источников информации, с полным описанием атрибутного состава и другой необходимой информации, а так же максимально быстрая и автоматизированная организация “песочницы” для работы с данными - магазин инфраструктуры, где можно выбрать виртуальный сервер необходимой конфигурации — с нужным числом ядер, объемом памяти и «начинкой». Заказываешь — и в течение часа разворачивается Hadoop и создается твой персональный сервер. Специально для тебя! Получается новый клиентский опыт: развернув сервер, заказываешь данные в супермаркете, получаешь права доступа — и эти данные автоматически отгружаются на твой сервер.
К платформе на текущий момент подключены более 250 источников внутренних и внешних данных. Платформа состоит из более 100 элементов и сервисов, таких как компонент загрузки данных в реальном времени, журналирование действий пользователя, аудит, проверка прав доступа, карта данных как средство навигации, механизм проверки качества данных, механизм распространения данных и т. п. В «Фабрике данных» около 12 Пбайт полезных данных, а с учетом репликаций — около 40 Пбайт.
Отдельно в банке разработана и утверждена политика по управлению корпоративными данными —документ, свод правил, вокруг которого выстраиваются организационная вертикаль CDO, набор процессов управления данными, роли, их функции и взаимодействие друг с другом (CDO банка и блоков, владельцы предметных областей, менеджеры данных, дата-стюарды, дата-инженеры, архитекторы по работе с данными и др.).
Технологический стэк: основное хранение данных осуществляется в Hadoop в сборке от Cloudera, Apache Kafka, Spark, Oracle Golden Gate, OpenStack/OpenShift + собственная разработка на Java, фронтенд сделан на JavaScript + сделали свою сборку стека Hadoop, назвали ее Sberbank Data Platform, также будет собственная сборка реляционной БД Greenplum.

Основные сложности проекта:
Во-первых, надо было сделать так, чтобы созданные инновационные компоненты стабильно работали с нужной функциональностью и нужными объемами данных. Через это надо было пройти, набить шишек и масштабироваться.

Во-вторых, нужно было поменять процессы банка так, чтобы права доступа и согласования стало возможно заказывать и получать автоматизированно и чтобы все эти механизмы были узаконены. Вывод компонентов в эксплуатацию потребовал изменения регламентов по порядку проведения приемо-сдаточных испытаний и по правилам вывода моделей — это был большой труд.

Но наиболее сложной была человеческая история: необходимо было убедить людей в том, что мы делаем действительно нужные, полезные и перспективные вещи. Добиться, чтобы люди начали доверять созданному нами решению, стали амбассадорами нового бренда и начали «переманивать» коллег выходить из привычных им систем, убеждать их в том, что новое решение эффективнее и за ним будущее.

https://www.computerworld.ru/cio/articles/040221-Tsifrovye-lyudi-Sbera?fbclid=IwAR3lrbDCEJoMC8d10GHhGspl4BKEsGE1423ELxZ2N8CCPNX91FO1G_rofEk
Абсолютно фееричный доклад Константина Анохина с конференции OpenTalk 2021 про недостающие элементы доминирующего сейчас нейросетевого подхода к моделированию ИИ. Must see, очень интересно и доступно даже не профессионалам.

PS запись пиратская, пока официальную не выложили.

https://www.youtube.com/watch?v=LH-_NnFZIE8&list=WL&index=6&t=1s
nlpin2020-210204134144.pdf
1.5 MB
Презентация Григория Сапунова “NLP in 2020”

Презентация с доклада на OpenTalk.AI 2021 про основные вехи 2020 года в области NLP.
Собственно основные вехи:
⁃ Появление супер больших языковых моделей и, в частности, GPT-3
⁃ Тенденция к тому, что увеличение размера модели ведет к уменьшению количества данных, необходимых для обучения
⁃ Обучать большие модели не только дорого для людей, но и для природы, в силу выделения CO2 дата-центрами
⁃ Большинство языковых моделей являются мульта-языковыми
⁃ Языковые модели преодолели очередной барьер в сравнении с человеком в “понимании” общих и открытых вопросов (benchmarks типа SuperGLUE и тп)
⁃ Архитектуры языковых моделей продолжают развиваться: внедрение трансформеров, памяти и тп
⁃ Демократизацию использования языковых моделей дрейвят облака и доступное в них API, которое делают крупные компании

Полная презентация во вложении
вдруг кому то пригодится
Разработка_ИТ_стратегии_в_крупных_компаниях_t_me_it_ace_geronimus.pdf
8.7 MB
Как делать классическую ИТ-стратегию с примерами - лучший учебный материал в русскоязычном интернет (по моему мнению)

Посмотрел все источники по тому как создавать ИТ-стратегию на русском языке.

Считаю этот лучшим с точки зрения возможности применения на практике - и с точки зрения подачи материала, и примеров.

Документ правда старый: некоторые вещи уже так не делаются как по контенту (ну типа в ИТ-инфраструктуре уже другие подходы), так и по визуализации. Но это все можно найти в других источниках. А с точки зрения «как делать калссическую ИТ-стратегию» прямо нравится.

P.S. Под «классической» ИТ-стратегией понимаю стратегию от целей бизнеса, а не когда мы помогаем сформулировать цели бизнеса с помощью ИТ.

#практика #итстратегия #кейс #геронимус #лучшее
via @it_ace

💬 Комментировать
OFFTOPIC: ИМХО просто отличная книга по личной эффективности.

https://www.litres.ru/bred-stalberg/na-pike/
С праздником всех причастных!
Всем привет! Пока готовиться обзор очередной статьи, сделаю анонс моей лекции, вдруг кому то будет интересно

https://mba.mgimo.ru/announce/afanasev
Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics

Интересная статья от сотрудников компании Databricks, которые предлагаю новую концепцию организации хранения и обработки данных, которую называют Likehouse.

Идея вот в чем: доминирующая на рынке концепция DataLake (для хранения) + DHW (для обработки) несмотря на свой шаг вперед относительно концепции чистого DWH все еще обладает рядом недостатков и требует компромисса между надежность, стоимостью и возможностями аналитики (что начинает быть довольно важным фактором). Поэтому вместо того, что бы разнести хранение и обработку данных в разные системы и организовать перемещение данных между ними (все равно сохраняется элемент ETL), Databricks предлагает совместить все функции в виде:

1. Слоя хранения данных на базе S3/HDFS, но хранить данные в структурированном формате Parquet
2. Слоя мета данных, описывающим данные, отвечающем за индексирование, кэш и тд
3. Слоя доступа к данным в виде API в системам BI и фреймворка обработки данных таким как Tensorflow/Pandas и тд

За счет такой комбинации предлагается не только обеспечить оптимальное TCO, но и сохранить основные качества ACID системы и SQL-like скорость работы (через метаданные, кэш и тд)

Исходная статья ниже
Близится наступление знакового события в области управления данными - вручение премии CDO Awards 21. Уже сформирован полный перечень номинанотов и подготовлены обзоры/интерью про заявленные проекты.

Часть из них я отмечал в постах выше, а полный перечень и все интервью представленны тут: https://www.osp.ru/lp/cdoaward2021#nominees
Поздравляю всех причастных с праздником!
2021-AI-Index-Report_Master.pdf
13.8 MB
Вышел свежий отчет от Stanford - 2021 AI INDEX REPORT
Внимание, 222 страницы!
Forwarded from AI Meetups (Николай Крупий)
19 марта, 19:00 — 21:30 МСК

Дзен-митап: алгоритмы и рекомендации. Онлайн

Зарегистрироваться
Будет #трансляция

При внедрении рекомендательных систем зачастую приходится учитывать особенности продукта. Например, гарантировать конкретной публикации определенное число показов, ограничить число показов сверху, совместить разные подборки с рекомендациями. В этих случаях для решения оптимизационных задач применяются и стандартные рекомендательные методы, и алгоритмы.

В пятницу, 19 марта, мы обсудим конкретные кейсы: как в ivi персонализируют главную страницу с помощью многоруких бандитов или как в Дзене создали систему для динамического распределения трафика. А также погрузимся в актуальные стратегии ценообразования.
После докладов повторим предновогодний опыт и разыграем десяток подарков в квесте про рекомендации.