Клуб CDO

Ранее уже упоминал статью "How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh"

https://martinfowler.com/articles/data-monolith-to-mesh.html

а тут обнаружил перевод на Хабре: https://habr.com/ru/post/495670/

martinfowler.com

How to Move Beyond a Monolithic Data Lake to a Distributed Data
Mesh

There are problems with the centralized data lake. A future data mesh needs domains, self-service platforms, and product thinking.

963 viewsDenis Afanasev, edited 18:33

👍 5 👎💬

Клуб CDO

Еще из залежей Хабра - статья с детальным описанием аналитического хранилища Газпромбанка, которое было разработано компанией Glowbyte.

Достаточно детально описывается архитектуры, технологический стек.

https://habr.com/ru/company/glowbyte/blog/554834/

Хабр

Как построить современное аналитическое хранилище данных на базе Cloudera Hadoop

Привет. В конце прошлого года GlowByte и Газпромбанк сделали большой совместный доклад на конференции Big Data Days, посвященный созданию современного аналитического хранилища данных на базе...

886 viewsDenis Afanasev, 15:48

Клуб CDO

Минутка рекламы - 20 мая на конференции SmartDev 21 мы (команда SberDevices) анонсируем много новых разработок, которые выводим на рынок. В частности моя команда (технологические платформы) анонсирует сервисы

- SmartSpeech (платформа распознавания/генерации речи)
- SmartBIO (платформа биодинтификации)
- Layer (платформа распознавания в видеопотоке товаров, актеров, предметов и локаций)
- SmartHome для разработчиков (платформа умного дома с интеграцией со сторониими устройствами)
- коммуникационная платформа Jazz

А мои коллеги расскажут много интересного про виртуального асисстента Салют, сервиса CV, AR и тд

Приходите

https://smartdev21.ru

1.0K viewsDenis Afanasev, 08:13

Клуб CDO

Сори, за задержку с публикациями, подготовка и проведение конференции заняли довольно много времени. Материалы в подгтовке, а пока вот запись нашего блока конференции:

https://www.youtube.com/watch?v=WxRNLjDAyv4

804 viewsDenis Afanasev, 07:13

👍 4 👎💬

Клуб CDO

Друзья, и еще одна корпоративная, но важная новость. Команда SberDevices сегодня открывает доступ к датасету Golos — самому большому размеченному вручную набору речевых данных на русском языке, включающему 1240 часов аудиоданных, а также обученную на них модель распознавания речи, которая показывает точность, сравнимую с человеческой.

Вы можете использовать его абсолютно открыто, мы постарались сделать максимально удобную лицензию для разработчиков в области речевых технологий.

Кроме самих данным мы так же делаем доступной обученную на них модель распознавания речи. Она обучалась с использованием мощностей суперкомпьютера «Кристофари» от Сбера на 16 видеокартах Nvidia Tesla V100 в течение 8 дней. Доступная для использования акустическая модель QuartzNet 15x5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos.

Мы надеемся, что датасет Golos даст возможность научному сообществу России двигаться ещё быстрее в совершенствовании русскоязычных речевых технологий.

https://github.com/sberdevices/golos

1.4K viewsDenis Afanasev, 09:53

MIT выпустил беспланую книгу "Algorithms for Decision Making". Очень объемное описание всей математики, лежащей под катопом систем поддержки принятия решений, прогнозирования и тп, включая даже такие темы как мультиагентные системы, соллоборативные агенты и тп.

Книжка во вложении

1.5K viewsDenis Afanasev, 09:09

👍 13 👎💬

Клуб CDO

technology-radar-vol-24-en.pdf

12.7 MB

Как то я вот прощелкал отличный информационный инструмент, позволяющий быть в курсе технологических трендов в ИТ, и только сейчас обратил внимание на https://www.thoughtworks.com/radar

Для таких же как я делюсь ссылкой и свежим обзором технологий.

1.1K viewsDenis Afanasev, 06:11

👍 10 👎💬

Клуб CDO

Рекомендация книги. Хочу обратить ваше внимание на книгу Романа Зыкова, основателя компании RetailRocket, в которой отвечал за функцию работы с данными и разработке системы рекомендации. Книга совсем новая, называется "Роман с Data Science. Как монетизировать большие данные" и предназначена для думающих читателей, которые хотят попробовать свои силы в области анализа данных и создавать сервисы на их основе. Она будет вам полезна, если вы менеджер, который хочет ставить задачи аналитике и управлять ею. Если вы инвестор, с ней вам будет легче понять потенциал стартапа. Те, кто «пилит» свой стартап, найдут здесь рекомендации, как выбрать подходящие технологии и набрать команду. А начинающим специалистам книга поможет расширить кругозор и начать применять практики, о которых они раньше не задумывались, и это выделит их среди профессионалов такой непростой и изменчивой области.

https://www.piter.com/collection/all/product/roman-s-data-science-kak-monetizirovat-bolshie-dannye

www.piter.com

Роман с Data Science. Как монетизировать большие данные

Как довести проекты машинного обучения (machine learning) и искусственного интеллекта до топового уровня

843 viewsDenis Afanasev, 09:20

👍 7 👎💬

Клуб CDO

https://www.computerworld.ru/cio/news/310521-S7-Airlines-vnedrila-katalog-dannyh?fbclid=IwAR30XablKhPwvkN2FqVQukWY9WNSFctN76iczxjSiLF9qHsaT6AmqShXhKQ

Вестник цифровой трансформации | «Директор информационной службы»

S7 Airlines построила каталог данных

Авиакомпания S7 Airlines завершила проект по созданию корпоративного каталога данных. Каталог позволит S7 Airlines в разы сократить трудозатраты и время аналитиков и руководителей на поиск данных.

706 viewsDenis Afanasev, 09:08

👍 3 👎💬

Клуб CDO

Forwarded from Инжиниринг Данных (Dmitry Anoshin)

Несмотря на то, что Delta Lake ,книга выйдет в Апреле 2022, уже сейчас можно получить к ней доступ на O'Reilly
https://www.oreilly.com/library/view/delta-lake-the/9781098104580/

721 viewsDenis Afanasev, 06:51

Клуб CDO

Forwarded from Data Events (Yuliya Bazarova)

Уже завтра приглашаем на Tinkoff. AI meetup!⚡️
В этот раз направим все внимание на рекомендательные системы.

Поговорим:
— об аналитике пользовательских покупок: предсказании потребностей и роли в этом машинного обучения. Расскажем каким SOTA подходам действительно можно верить.
— о персонализированном кэшбэке: как в ранжировании спецпредложений для клиента помогают наработки в области глубокого обучения и почему одних лишь сеток недостаточно для хорошей персонализации.

Соберем круглый стол экспертов из Тинькофф, Яндекса и Сбера – обсудим опыт компаний использования рекомендательных систем.

🕖Встречаемся 3 июня в 19:00 по московскому времени
Регистрация: https://l.tinkoff.ru/ai-recsys-21

794 viewsDenis Afanasev, 17:20

Клуб CDO

Summary книги Чистый Agile

Наконец-то осилил добить небольшое саммари в виде цитат из Мега книги “Чистый Agile. Основы гибкости” от Роберта Мартина.
Просто must red всем, кто связан с разработкой ПО вне зависимости от роли и должности. В книге не только изложена суть того, что мы называем Agile, но и в целом о профессии разработчика ПО и о тех принципах, которым следуют настоящие профессионалы своего дела.

Для тех, у кого совсем нет времени, вот тут документ с основными цитатами: https://www.dropbox.com/s/sm91e4f71enjjxl/%D0%A7%D0%B8%D1%81%D1%82%D1%8B%D0%B9%20Agile%20summary%20short.pdf?dl=0

Для тех, кто хочет увидеть цитаты в контексте книги вот тут они с фотографиями страниц: https://www.dropbox.com/s/6h8iipmd2b69q6k/%D0%A7%D0%B8%D1%81%D1%82%D1%8B%D0%B9%20Agile%20summary.pdf?dl=0

А для тех, что хочет почитать в выходные, ссылка на саму книгу: https://www.litres.ru/robert-s-martin/chistyy-agile-osnovy-gibkosti/chitat-onlayn/

Dropbox

Чистый Agile summary short.pdf

Shared with Dropbox

834 viewsDenis Afanasev, edited 17:52

👍 9 👎💬

Клуб CDO

утащил тут слайд из соседних каналов

726 viewsDenis Afanasev, 15:21

👍 6 👎💬

Клуб CDO

Forwarded from Data engineering events (Николай Крупий)

🎯29 июня — Аналитическая платформа для бизнеса

На вебинаре поговорим о том, как строить собственное хранилище данных на базе платформы Yandex.Cloud.

О чем расскажем:
🔵 Как организовать сбор и анализ данных в компании, чтобы создать внешнее хранилище данных и объединить информацию из нескольких источников.
🔵 Как загружать обновления в потоковом режиме, чтобы строить витрины и управлять жизненным циклом данных и аналитическими отчетами.
🔵 Как определить подходящую архитектуру для корпоративной аналитической системы.

Кому будет полезен:
✅ Архитекторам данных и техническим директорам — чтобы выбирать подходящие инструменты и технические решения;
✅ Дата-инженерам — чтобы лучше понимать, как реализовать тот или иной сценарий в облаке;
✅ Специалистам по бизнес-аналитике — чтобы быть в курсе самых новых технологий.

Регистрация →

715 viewsDenis Afanasev, 09:47

Клуб CDO

https://habr.com/ru/company/otus/blog/559320/

Хабр

5 вещей о наблюдаемости данных, которые должен знать каждый дата-инженер

Как быть уверенным в своих рабочих процессах, конвейер за конвейером В преддверии старта онлайн-курса "Data Engineer" подготовили перевод материала. Если вы начинающий дата-инженер, вот несколько...

787 viewsDenis Afanasev, 14:52

👍 3 👎💬

Клуб CDO

https://habr.com/ru/company/leroy_merlin/blog/561072/

Хабр

Платформа данных в Леруа Мерлен – 2 года, сотни источников и более 2.000 пользователей

Всем привет! На сегодняшний день данные и всё связанное с ними (ML, AI, DataMining, etc) это самый хайповый тренд в IT-индустрии. Все - от ритейлеров до компаний Илона Маска - работают (или пытаются...

758 viewsDenis Afanasev, 15:09

👍 8 👎💬

Клуб CDO

Интересный факт: результаты исследований Стэндфордского университета показали, что рост вычислительной мощности, которая используется для обучения ИИ, уже более семи лет опережает закон Мура.

До 2012 года объем вычислительных мощностей для ИИ довольно точно следовал закону Мура удвоение каждые два года. После 2012 года удвоение происходило уже каждые 3,4 месяца. Таким образом, с 2012 года доступные мощности выросли в 300 тысяч раз, а если бы рост следовал закону Мура, то только в 7 раз. На примере датасета ImageNet, можно показать, что за 18 месяцев время, необходимое для обучения системы классификации изображений на облачной инфраструктуре, сократилось с 3 часов в октябре 2017 года до 88 секунд в июле 2019 года.

Модели ResNet в октябре 2017 года для достижения точности выше 93% требовалось 13 дней обучения, что обходилось в $2 323. Обучение, проведенное в сентябре 2018 года с точностью классификации изображений чуть выше 93%, стоило менее $13 и заняло менее 4 часов.

https://openai.com/blog/ai-and-compute/

Openai

AI and compute

We’re releasing an analysis showing that since 2012, the amount of compute used in the largest AI training runs has been increasing exponentially with a 3.4-month doubling time (by comparison, Moore’s Law had a 2-year doubling period)[^footnote-correction].…

806 viewsDenis Afanasev, 13:38

👍 10 👎💬

Клуб CDO

и еще одна интресная статья

https://habr.com/ru/company/vivid_money/blog/562138/

Хабр

Как мы используем Kafka Streams в команде хранилища данных Vivid Money?

Привет! Меня зовут Андрей Серебрянский, я дата инженер в команде Data Operations. Наша команда отвечает за наполнение нашего хранилища на Snowflake, а также за то, чтобы у остальных команд были...

655 viewsDenis Afanasev, 11:40

👍 3 👎💬

Клуб CDO

Вот и первый прецедент

596 viewsDenis Afanasev, 05:22

👍 1 👎💬

Клуб CDO

Forwarded from Все о блокчейн, мозге и WEB 3.0 в России и мире

⚡️С 1-ого сентября Китай национализирует большие данные, собираемые всеми техгигантами в мире

Власти Китая обеспокоены тем, что технологические гиганты могут использовать свои возможности для создания альтернативных центров силы в однопартийной стране. Более того, власти опасаются, что китайские техниганты могут делиться данными с иностранными партнерами, что подрывает национальную безопасность Поднебесной.

Яркий пример озабоченности властей - остановка запланированного IPO Ant Group - финтех гиганта Джека Ма в конце прошлого года.

Многие страны думают над тем, как регулировать большие данные. Европа создаёт правовое поле, где необходимость конфиденциальности данных - превыше всего. А в США нет единого федерального закона о защите данных.

А власти Китая считают, что данные, собранные бизнесом, - национальный актив, который можно использовать или ограничивать в зависимости от потребностей государства, в следующих сферах:

1. управление финансовыми рисками,
2. отслеживание вспышек вирусов,
3. реализация экономических задач государства
4. слежение за преступниками и политическими оппонентами.

Ключевым элементом госрегулирования Пекина является несколько законов, один из которых был принят в прошлый четверг, а другой - в апреле. Новое законодательство даст правительству все полномочия, связанные со сбором, хранением, использованием и передачей данных.

Новый закон о безопасности данных вступит в силу 1 сентября, он включает в себя разделение данных, собираемых бизнесом, на те с насколько они важны государству.

Согласно, новому законодательству данные, собираемые частным бизнесом, должны передаваться в правительство Китая не только китайскими компаниями, но и иностранными. В прошлом году власти официально потребовали локализации данных всех иностранных компаний, которые хотят работать в Китае. Таким образом, Apple, Tesla, Citigroup, BlackRock уже передают данные, так как построили в Китае свои ЦОДы.

Новые правила работы техгигантов в Китае в итоге создадут несколько проблем:

1. Замедлится технологический прогресс иностранных компаний. Например, невозможность отправить определенные данные обратно в США, ИИ Tesla не сможет улучшить свои алгоритмы.

2. Власти Китая смогут создать тот ИИ, который будет нужен партии, без учёта интересов граждан и развития компаний

WSJ

China’s New Power Play: More Control of Tech Companies’ Troves of Data

Beijing is calling on tech giants to share the huge amounts of personal information they collect—and asserting its authority over data held by U.S. companies operating there as well. The efforts are part of Xi Jinping’s push to rein in the country’s increasingly…

770 viewsDenis Afanasev, 05:22

About

Blog

Apps

Platform