Клуб CDO
2.69K subscribers
328 photos
16 videos
80 files
1.33K links
Сообщество профессионалов в области работы с данными и искуственным интеллектом
Download Telegram
Вот и первый прецедент
⚡️С 1-ого сентября Китай национализирует большие данные, собираемые всеми техгигантами в мире

Власти Китая обеспокоены тем, что технологические гиганты могут использовать свои возможности для создания альтернативных центров силы в однопартийной стране. Более того, власти опасаются, что китайские техниганты могут делиться данными с иностранными партнерами, что подрывает национальную безопасность Поднебесной.

Яркий пример озабоченности властей - остановка запланированного IPO Ant Group - финтех гиганта Джека Ма в конце прошлого года.

Многие страны думают над тем, как регулировать большие данные. Европа создаёт правовое поле, где необходимость конфиденциальности данных - превыше всего. А в США нет единого федерального закона о защите данных.

А власти Китая считают, что данные, собранные бизнесом, - национальный актив, который можно использовать или ограничивать в зависимости от потребностей государства, в следующих сферах:

1. управление финансовыми рисками,
2. отслеживание вспышек вирусов,
3. реализация экономических задач государства
4. слежение за преступниками и политическими оппонентами.

Ключевым элементом госрегулирования Пекина является несколько законов, один из которых был принят в прошлый четверг, а другой - в апреле. Новое законодательство даст правительству все полномочия, связанные со сбором, хранением, использованием и передачей данных.

Новый закон о безопасности данных вступит в силу 1 сентября, он включает в себя разделение данных, собираемых бизнесом, на те с насколько они важны государству.

Согласно, новому законодательству данные, собираемые частным бизнесом, должны передаваться в правительство Китая не только китайскими компаниями, но и иностранными. В прошлом году власти официально потребовали локализации данных всех иностранных компаний, которые хотят работать в Китае. Таким образом, Apple, Tesla, Citigroup, BlackRock уже передают данные, так как построили в Китае свои ЦОДы.

Новые правила работы техгигантов в Китае в итоге создадут несколько проблем:

1. Замедлится технологический прогресс иностранных компаний. Например, невозможность отправить определенные данные обратно в США, ИИ Tesla не сможет улучшить свои алгоритмы.

2. Власти Китая смогут создать тот ИИ, который будет нужен партии, без учёта интересов граждан и развития компаний
Forwarded from HFLabs — о клиентских данных (Максим Пименов)
Сергей Мацоцкий, ушедший из IBS, дал программное интервью TAdviser.

Вторая проблема, которая, мне кажется, есть у нас в государстве – это проблема с данными. У нас очень много грязных данных. И это следствие нескольких вещей, в том числе, ментальности. Мы не очень аккуратно относимся к бизнес-процессам, к правилам.

Я когда-то был программистом. Как мы считали: программировать – это важно, а вот отлаживать или документацию писать, не царское это дело. Поэтому у нас с точки зрения данных очень много грязи. Поэтому, мне кажется, один из вызовов сегодня состоит в том, чтобы создать систему, которая будет самоочищать данные. То есть данные в процессе взаимодействия в тех или иных транзакциях будут самоочищаться. Другого способа решить эту проблему я не вижу.

Золотые слова, Сергей!
Gartner опубликовала обзор основных трендов и тенденций в области работы с данными и аналитики. Мой ТОП-3 трендов:

- Distributed everything - в общем полное разочарование в централизованных системах, монолитах, хранилищах, озер, похоже окончательно наступило

- Data Fabric is the Foundation - как сказал один уважаемый мною эксперт, Fabric не правильно в России переводят как "Фабрика", правильный смысл - "Ткань".

- Data and analytics as a core business function - ну тут комментарии вообще лишьнии 🙂

подробнее можно прочитать по ссылке: https://www.gartner.com/smarterwithgartner/gartner-top-10-data-and-analytics-trends-for-2021/
На этой неделе ВОЗ опубликовала 1-й доклад об использовании ИИ в здравоохранении, а также 6 принципов проектирования, разработки и внедрения ИИ. 

В документе говорится о переоценке преимуществ ИИ, одновременно, подчеркивая, как с помощью технологии можно улучшить скрининг, оказание клинической помощи и тд.

По оценке IDC, в 2020г. объем, создаваемых данных о здоровье, превысил 2000 эксабайт, ежегодно он будет расти на 48% в год. 

В докладе ВОЗ отмечаются, что возможности, создаваемые ИИ, связаны с рисками.

Закодированные в алгоритмах предубеждения могут причинить вред пациентам и поставщикам медицинских услуг. Системы, обученные в основном на данных, полученных от людей из стран с высоким уровнем доходов, например, могут не работать для пациентов с низким и средним уровнем доходов. Более того, нерегулируемое использование ИИ может подорвать права пациентов в пользу бизнеса или государства.

Наборы данных, используемых для обучения систем искусственного интеллекта, которые могут прогнозировать наступление таких болезней как Альцгеймер, диабет, рак груди и шизофрения, поступают из различных источников. Часто пациенты не знают, куда отправляются их персданные. В 2017 году регулирующий орган Великобритании пришел к выводу, что фонд Royal Free London NHS Foundation Trust, подразделение Национальной службы здравоохранения Великобритании, предоставил DeepMind данные о 1,6 миллионах пациентов без их согласия.

Независимо от источника информации данные могут содержать предвзятость, создавая неравенство в алгоритмах ИИ, обученных диагностике заболеваний. Команда британских ученых обнаружила, что почти все наборы данных о заболеваниях глаз поступают из Северной Америки, Европы и Китая, а это означает, что алгоритмы диагностики заболеваний глаз с меньшей вероятностью работают для расовых групп из недостаточно представленных стран.

Чтобы еще раз показать эту точку зрения, исследователи из Стэнфорда обнаружили - некоторые ИИ медицинские устройства, одобренные FDA, уязвимы. По мере того, как ИИ становится встроенным в большее количество медицинских устройств (в прошлом году FDA одобрило более 65 устройств) - точность этих алгоритмов не изучается тщательно.

Чтобы ограничить риски и увеличить пользу ИИ для здоровья, ВОЗ рекомендует предпринять меры:

1. компенсация должна быть доступна всем, на кого негативно повлияли ИИ - решения

2. необходимо постоянно оценивать приложения ИИ, чтобы определить, соответствуют ли они ожиданиям и требованиям

3. ВОЗ рекомендует как правительствам, так и компаниям устранять сбои на рабочем месте, вызванные автоматизированными системами, включая обучение медицинских работников и их адаптации к использованию ИИ

4. Системы ИИ должны быть тщательно спроектированы с учетом разнообразия социально-экономических и условий здравоохранения.
Небольшое оффтопик, но не могу не поделиться и молчать.

Не знаю, кто как относиться к теме AGI, но в любом случае рекомендцю ознакомиться со статьей во вложении. Несмотря на то, что статья не новая (2014 год) в ней рассматриваются 2 противоположных теории общего ИИ - технологической сингулярности и теории квантового сознания Пенроуза.

Не хочу тут грузить деталями, но напишу свои выводы по прочтению:

- сингулярность не наступит, тк скорость вычислений никак не относиться к созникновению сознания
- у нас нет теории нашего сознания и нет даже физической теории, на которой можно построить теорию сознания. Пенроуз использует квантовую физику только потому, что классическая физика никак не помогает сделать модель сознания, а другой физики у нас нет
- по всей видимости наша реальность имеет фундаментальные ограничения, к которым мы можем асимптотически приближаться но которые никогда не сможем преодолеть (постоянная планка, скорость света) и сознание относиться к таким же фундаментальным ограничениям

Ну а то, что мы считаем ИИ сейчас (ML) в общем то остается довольно полезным шагом в автоматизации и вычислениях и продолжает расширять возможности людей за счет технологий, но ни в коей мере их не заменяет.
Конференция о дата-инжиниринге SmartData 2021 ищет спикеров 🎙

Вам есть о чем рассказать и что обсудить с коллегами по цеху? Тогда вам нужно подать заявку на участие в конференции!

В этом году SmartData пройдет 11-14 октября, онлайн (гибридный формат решили отложить из-за непредсказуемости ввода ограничений на офлайн мероприятия).

Темы, которые ждут больше всего:
– Стриминг;
– СУБД и хранилища для больших данных;
– Архитектура DWH;
– Data governance;
–Технологии построения ETL;
– Оркестрация и MLOps.

Но этим списком не ограничивается — вы можете подать заявку с любой темой из области дата-инжиниринга.

Если все-таки сомневаетесь, то программный комитет всегда готов обсудить актуальность темы и помочь выбрать правильный вектор доклада. Плюс, ребята помогут с прокачкой ваших ораторских навыков, если у вас мало опыта в публичных выступлениях.

➡️ Подать заявку и узнать подробности можно на сайте.
Вопросы присылайте на почту program@smartdata.ru
И еще немного про Data Mesh

Немного мыслей тут родилось про Data Mesh. Тема популярная, все начинают вокруг говорить о том, что они применяют этот подход, реализуют проекты и тд. Тем не менее все время не могу уловить какую “суть” этого подхода, какую то формулировку, которая в простой форме объяснит основное отличие от предыдущих концепций, типа Data Lake и тп. Читаешь статьи, вроде много букв везде, а вот понимание не складывается. И вот проштудировал еще раз основной источник на сайте Мартина Фаулера (см ниже) и вот родилось такое понимание:

Data Mesh в первую очередь это организационная концепция, а не техническая. Она говорит о том, что мы децентрализуем ОТВЕТСТВЕННОСТЬ за данные между разными командами, обеспечивая их нужным (даже централизованным) техническим инструментарием, для того, что бы они эту ответственность могли осуществлять.

Вот в чем суть - основные проблемы во всех больших проектах DHW/DL это больше организационные проблемы взаимодействия разных команд, а не техническое проблемы обработки данных, и Data Mesh предлагает нам концепцию, по которой каждая команда, которая производит данные, должна быть ответственной за переиспользование этих данных другими командами, что бы катализировать использования данных в организации.

Реализации этой концепции требует:
⁃ В первую очередь организации изменения - изменения культуры, формирования новых KPI, поддержки со стороны руководства и тд.
⁃ Во вторую очередь процессные изменения - процессы Data Goverence, обеспечивающие “правила игры” общие для всех команд
⁃ В третью очередь технические изменения - нужно эти команды обеспечить технической возможностью выполнять новую функцию (хранить данные обрабатывать), а так же поддержать технически функции типа Data Discovery и прочие из пункта 2. И это очень важно сделать при реализации данного подхода.

И еще раз подчеркну, что технические решения из третьего пункта могут быть вполне себе централизованными Data Lake, если это экономически и технически обосновано.

Вот такие у меня сложились персональные выводы на текущий момент.

https://martinfowler.com/articles/data-monolith-to-mesh.html
Дайджест статей 11/07/2021

Всем привет! Довольно много статей по теме управления данными и работы с данными вообще появляется в поле моего внимания, но делать краткие обзоры каждой сложно, а спамить в канал и пересылать каждую статью - не хочется. Поэтому решил просто делать еженедельный дайджест того, что пролетает по нашей теме на Хабре и других источниках. Публиковать буду по пятницам, что бы было чем заняться в выходные 🙂

Вот подборка этой недели:

Data Mesh: как работать с данными без монолита
https://habr.com/ru/company/dododev/blog/475476/

Как и зачем «Ашан» построил платформу для работы с Big Data в публичном облаке
https://habr.com/ru/company/mailru/blog/565664/

Как Hadoop-кластер помогает нам выполнять триллионы вычислений в день и выводить аналитику на новый уровень
https://m.habr.com/ru/company/moex/blog/566174/

Следующий этап: построение конвейера данных от периферии до аналитики
https://habr.com/ru/company/cloudera/blog/560236/

BeeTech 2021: обзор докладов big-data, искуственный интеллект, IT-архитектура, QA, Back-End
BeeTech 2021: обзор докладов big-data, искуственный интеллект, IT-архитектура, QA, Back-End / Блог компании Beeline Казахстан / Хабр
Воскресный офтопик (и я писал об этом в FB, но закину и сюда, может кому пригодится)

Для тех, кто много читает - я тут несколько лет мучаюсь с софтом для чтения электронных книг. iBooks - единственный достойный тул, но он ужасен, особенно на компе. Невозможно управлять классификацией книг, синхронизация загадочна, обложки не отображаются и тд.

Неожиданно наткнулся на очень достойную альтернативу (правда платную) - можно грузить свои книги, синхронизировать между устройствами, читать везде и тд и работает вроде четко.

Делюсь: https://www.bookfusion.com/
Всем привет! В следующий четверг, 22 июля, в 21:00 МСК, совместно с авторами канала https://t.me/noml_digest, проведем голосовой чат на тему модных трендов в области управления данными.

Ссылка на чат для подключения: https://t.me/noml_community?voicechat

Темы: Data Warehouse, Data Lake, Data Vault, Data Lakehouse, Data Fabric, Data Mesh, Data Lab, Data Hub, DataOps, Data Governance ... ну и конечно же Big Data.

Будем разбираться что означают все эти слова, и как заложить крепкий фундамент для успешных ML/DS проектов в виде современной Data Management системы.
А именно, в повестке встречи следующее:
- Эволюция подходов в технологиях построения Data Management систем и методологиях Data Governance.
- Плюсы и минус централизации и децентрализации управления корпоративными данными, как обычно будем искать истину где-то посередине)
- Технологические аспекты и грани децентрализованной обработки и хранения данных, вспомним про Data Federation и обсудим новомодный Data Fabric.
- Как Ops добрался до данных и аналитики: процессы, роли и инструменты DataOps.
- Без качественных данных качественную ML модель не построить. Как решается задачи Data Quality с точки зрения технологий и методологий.

Участники дискуссии
- Денис Афанасьев, Head of TechPlatforms в SberDevices, основатель CleverDATA
- Сергей Абрамов, Head of Feature&ML Engineering, GlowByte Advanced Analytics
- Дмитрий Инокентьев, Архитектор Data платформ, GlowByte Consulting
Дайджест статей 16/07/2021


Платформа обработки данных Билайн
https://habr.com/ru/company/beeline/blog/567508/

Hadoop или MongoDB: что использовать для Big Data?
https://habr.com/ru/company/otus/blog/567558/

Следующий этап: построение конвейера данных от периферии до аналитики
https://habr.com/ru/company/cloudera/blog/560236/

Интеграционные тесты для Хранилища Данных – Настраиваем Slim CI для DWH
https://habr.com/ru/company/otus/blog/567916/