Клуб CDO
2.65K subscribers
321 photos
16 videos
77 files
1.31K links
Сообщество профессионалов в области работы с данными и искуственным интеллектом
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
Emerging Architectures for Modern Data Infrastructure [1] весьма интересно изложенный отчет от Andreessen Horowitz о том как устроена современная архитектура работы с данными в зависимости от задач для которых она проектируется.

По сути - это такой универсальный канвас который можно использовать в любом хорошем инструменте рисования диаграмм. Для типовых задач бизнеса или госструктур вполне подходит и весьма продуманно структурировано (не буду утверждать что идеально, надо смотреть более детально через призму своих задач). Особенно стоит обратить внимание на сдвиги в технологиях Например, Data Flow automation вместо Workflow Management и ELT вместо ETL, а также нового типа озёра данных вместо Hadoop.



Ссылки:
[1] https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/

#data #bigdata #report
Всем добрый день!

❗️Перенос даты мероприятия.

Когда: 5 ноября, 19:00-20:30
Тема: «Как выстроить эффективные процессы управления качеством данных? Теория и практика»
Спикер: Светлана Бова, Управляющий директор, Вице-президент Департамента ИТ-архитектуры ПАО «ВТБ»

Сохраняйте в календаре, ссылку на zoom пришлем ближе к ивенту.

Изменения внесли в связи с проведением профильного мероприятия, которое вам может быть интересно 🙂

https://cdosummit.ru/?yclid=6307659164335509826
Всем добрый день!

Напоминаем про завтрашний онлайн ивент в рамках Клуба CDO.

Когда: 5 ноября, 19:00-20:30
Тема: «Как выстроить эффективные процессы управления качеством данных? Теория и практика»
Спикер: Светлана Бова, Управляющий директор, Вице-президент Департамента ИТ-архитектуры ПАО «ВТБ»

Ссылку на zoom запостим здесь завтра днём.
❗️Друзья, нашу конференцию атаковали, мы вынуждены были прервать выступление Светланы.
Выступление перенесем на следующую неделю.

Если у вас есть предложения, как обезопаситься от атак, пожалуйста, напишите в комментариях.

Видимо, нам придется отказаться от размещения ссылки здесь, в публичном канале, чтобы больше такого не повторялось.

Светлана, сожалеем, что так произошло, будем искать более надежные варианты проведения онлайн ивента.
Мероприятие наших друзей
🔺Организация «Цифровая экономика» и Gartner 9 ноября 2020 года с 13:00 до 15:00 (мск) проведут онлайн-встречу с лидерами цифровой трансформации.

🔺В ходе мероприятия предусмотрена трансляция из Барселоны сессии «Gartner Opening Keynote: Seize the Moment to Compose a Resilient Future» и обсуждение топ-10 технологических трендов 2021 года.

🔺Вместе с CDO ведущих компаний и государства мы обсудим тренды цифровой трансформации в мире и в России в 2021 году.

🔺К участию в дискуссии приглашены ведущие лидеры цифровой трансформации России, а также представители федеральных органов исполнительной власти.

🔺Модераторы встречи: Евгений Ковнир, генеральный директор организации «Цифровая экономика», и Максим Григорьев, исполнительный партнер Gartner.

👉Посмотреть прямую трансляцию можно по ссылке (https://bit.ly/353cM9J) на YouTube-канале «Цифровая экономика».

#цифроваяэкономика
#цифроваясреда
Всем привет! Не могу не отметить оффтопик, но близкую мне новость 🙂

Проект “Цифровой профиль” стал лауреатом премии CNews AWARDS в номинации «Цифровой сервис года»

https://www.cnews.ru/news/line/2020-11-11_mintsifry_i_rt_labs_poluchili
Я уже ранее писал про один из инструментов управления meta данными от компании Lyft и вот еще интересный обзор похожего инструмента от компании LinkedIn.

Не буду тут повторять то, что хорошо описано в статье, но замечу, что управление meta данными является важнейшей частью процесса управления данными в целом и обеспечивает возможность повторного использования данных, их систематизацию, dicoverability и тд.

Инструменты, подобные Amudsen и DataHub замечены практически в любой крупной компании. Четко видно, что “единороги” сами разрабатывают такие инструменты под себя, в то время как традиционные корпорации выбирают известных вендоров, по типу Informatica, лидеров Gartner и тд.

https://habr.com/ru/post/520930/
CDO Award 2020 - Платформа больших данных

Началась публикация серии интервью номинантов премии CDO Award и первый материал от Банка ВТБ и Ростелеком о совместном проекте “Платформа Больших Данных” (ПБД).

Пока информации относительно проделанной работы и достигнутых результатов крайне мало. Самым значимым результатом является намерение об инвестиции 1 млрд р в данное СП со стороны основных акционеров. Пока у СП нет выручки, защищенной стратегии (она разрабатывается в течении этого года) и конкретных продуктов. Так же нет информации, собственно, об “управлении данными”, методиках, практиках и результатах.

Из интересных планов можно отметить: ПБД это в первую очередь “бизнес”, а не “технология” (что бы не смущало слово Платформа в названии) и основная задача - генерация выручки в областях рекламы, геомаркетинга, финансовых продуктов и облачных сервисов. Есть планы по разработке платформы обмена данными и маркетплейса моделей.

В качестве технологий будут ориентироваться на OpenStack, такие как Apache Kafka, Airflow, Hadoop, HBASE, Kudu, Ignite, Tableu и прочие (хотя Tableau проприетарный продукт).

Продолжаем следить за развитием событий и ждем основных результатов в 2021 году!

https://www.computerworld.ru/cio/articles/061120-Platforma-bolshih-dannyh-tandem-VTB-i-Rostelekoma-na-rynke-big-data?fbclid=IwAR0oKyueXB5pH-S1KpSMfn1ffdXBSlZcWaJoUedn4Ayohm-0isypgZaWTaI
Forwarded from CDO2Day
🔄Нерегулируемое прилагательное

Попытки регулирования big data сталкиваются с естественным препятствием - определением больших данных. Кто и как будет решать, стали ли обрабатываемые компанией данные уже "большими" или все еще "маленькие"?

Президент Ассоциации больших данных Анна Серебряникова в своей колонке для @cdo2day замечает, что «большие данные» – это не категория информации, а ее признак, который предполагает большое количество различных и несовместимых друг с другом категорий данных.

Она призывает не пытаться создавать новые понятия для регулирования, а сосредоточиться на конкретных мерах по защите интересов граждан и бизнеса.
a16z Podcast: The Great Data Debate

Довольно интересный подкаст обнаружил в блоге a16z (вообще, очень рекомендую этот ресурс) - дискуссия на тему трендов дата-архитектур. Вот, что из интересного отметил в ходе изучения.

Первый вопрос был на тему - кто в конечном счете победит: Data Lake или Data Warehouse. Спикеры отметили общий момент, что архитектура решений обработки данных и выбор технологий для их реализации должны, в первую очередь, определяться теми примерами использования данных, которые предполагаются к реализации. Тем не менее есть версия, что SQL и DWH быстро разовьются на горизонте 5 лет смогут ничем не уступать по удобству работы с полу-структурироваными данных. А за счет того, что SQL сам по себе очень удобен для работы с данными, Data Lake и технологии, на которых сейчас базируется эта архитектура, уйдут в прошлое. Тем не менее спикеры отмечают, что все больше и больше сейчас появляются примеров работы со сложными типами данных, какими как видео и изображения. Например, очень много такого рода данных обрабатываются в медицине. И Data Lake, как технология, направленная в первую очередь на поддержку AI и сложной аналитики данных, займет свое место в этой области. Не исключено, что SQL догонит NoSQL и в этой области, но спикеры ожидают это в перспективе 8-10 лет.

Исторический пример, к которому аппелируют спикеры, довольно нагляден. Когда BI, отчетность и dashboard стали набирать популярность в бизнесе, появился OLAP, как технология, которая лучше подходила для таких задач, чем традиционные базы данных. Тем не менее прошли годы и, с появлением колоночных баз данных, MPP и тд, про OLAP уже мало кто вспоминает. Ждет ли такая же участь современный NoSQL стек? Hadoop это уже настигло.

Обработка сложных данных набирает обороты и все больше кейсов их использования появляются в бизнесе, что требует усиления технологий в этой области и может ожидать появления крупных поставщиков в этой области технологий обработки данных.

Следует ожидает и усиление SQL в области Machine Leaning, но в течении следующих 3-х - 5 -ти лет будут доминировать гибридные подходы.

Кроме этого, спикеры отмечают Data Mesh как перспективную технологию децентрализации, которая продиктована организационными особенностями крупных организаций, где трудно централизовать все данные, а так же тренд в области архитектуры приложений, архитектура которых развивается в область создания целостных приложений, который могут как обрабатывать, так и применять данные. Сейчас, по классике, мы делаем обработку данных в DWH/DL и далее передает результаты в прикладное приложение для использования.

Далее был вопрос про скорость обработки данных - но тут ничего интересного озвучено не было. Да, надо определять компромис между скоростью и объемом, но разнообразность технологий позволяет реализовать любой такой компромис.

Полный текст и запись тут:

https://a16z.com/2020/11/12/a16z-podcast-the-great-data-debate/
Привет, коллеги.

Кто следит за нашей деятельностью, тот, конечно же, знает, что мы в Агентстве Искусственного Интеллекта запустили новый проект — VIR Person. Да, мы замахнулись на высокое. И мы, так или иначе, добьёмся результатов. Несмотря на то, что из Топ-10 Архипелага 20.35 нас выгнали, мы не унываем, а воспринимаем как добрый знак.

А причину изгнания можете посмотреть на официальном канале проекта на Youtube. Ролик «Архипелаг 20.35. VIR Person». Если говорить фигурально, то нам позвонили из Администрации президента и сказали буквально следующее: «Блин, вы там офигели? В нашей стране магия по оживлению мёртвых запрещена! Кончайте там с этим!» Смотреть можно с 07:40. Такие дела...

Подписывайтесь на канал проекта.
Интересный кейс выше - навел меня на мысль, что он ставил новые этические проблемы перед обществом - можно ли использовать цифровые копии умерших людей, кому принадлежат “права на образ” и тд. Вель уже сегодня ничего не мешает использовать образы актеров в новых фильмах и тд. Есть о чем подумать законодателям 🙂
Очень хороший получился сегодня диалог с коллегами на тему ИИ. Без хайпа, достаточно прагматичный и предметный. Удалось высказать много мыслей. Спасибо организаторам и модератору! Рекоммендую посмотреть, интересующимся темой.
Смотрите через 30 мин нашу дискуссию TechTalk по теме «Растущая роль искусственного интеллекта в обществе и экономике. Правила новой этики».

https://youtu.be/1xl1shxVt3Y
Краткое изложение
В 2021г. АБД создаст Кодекс этики данных 2.0, а Российская государственная библиотека предложила создать хранилище данных на базе библиотеки - итоги TechTalk «Растущая роль ИИ в обществе и экономике. Правила новой этики»?

По итогам сегодняшней дискуссии публикуем основные хайлаты спикеров:

1. Исполнительный директор ассоциации больших данных Алексей Нейман рассказал, что в 2021 году планируется начать работу над Кодексом этики использования данных 2.0 – когда будет набран критический объем предложений по развитию первой его версии. Тем не менее, по его мнению, прежде чем задумываться об этике ИИ в целом, стоит посмотреть на этику использования данных – сами алгоритмы не должны дискриминировать кого-то или нести вред.
 
2. Все участники согласились с тем, что пока искусственный интеллект создается людьми, люди и должны думать об этике. «Этика остается этикой людей», - подчеркнул генеральный директор Cleverdata Денис Афанасьев.

3. CDO «Мегафон», Леонид Черный, отметил, что чтобы ИИ стал настоящим интеллектом,  надо дать ему не только право принятия решений, но и возможность нести за них ответственность. 

4. Афанасьев также затронул тему изменений. По его словам, нужно не только ждать, пока современные технологии подстроятся под человека, но и среда должна адаптироваться. Например, нужны новые правила для дорог, по которым смогут ездить беспилотные машины и улицы, по которым смогут летать дроны.

5. Генеральный директор РГБ Вадим Дуда предложил создать хранилище данных на базе библиотеки. «Нужна очень взвешенная государственная политика по сохранению данных», - объяснил он. На этом Дуда не остановился – он также анонсировал возможное создание в библиотеке аналога рекомендательного сервиса, как у Spotify и Apple Music, на основе предпочтений, запросов книг и времени посещения читателей библиотеки. 

6. Черный, в свою очередь, рассказал, как «Мегафон» уже использует ИИ: технология помогает компании анализировать обратную связь от клиентов и это касается всех типов обращений. С помощью ИИ также компания рассчитывает узкие места в инфраструктуре связи, полноту покрытия территории сетью, после чего, на основании анализа данных компания формирует план строительства. Однако, по его словам, видимо самым распространенным примером использования ИИ в повседневной жизни человека на сегодня является обработка изображений телефоном, например, улучшение качества фотографий сразу после того, как был сделан кадр.

7. Обсуждая вопрос необходимости создания закона о больших данных, участники дискуссии были практически единодушны – не нужен. По словам Неймана, текущего регулирования в этой области хватает с избытком, и именно оно нуждается в актуализации. Недавно принятый закон об экспериментальных правовых режимах как раз и призван на практике апробировать необходимые регуляторные изменения и внедрить их в жизнь.

8. Вадим Дуда отметил, что нужен не закон о больших данных, а большой закон о данных.

9. Дарья Чашкина, директор по обучению «Школы 21», сказала, что нужна определенная стратегия по большим данным - это, в том числе, и вопрос профессионального сообщества: появляется спрос на CDO, которые как раз работают именно с данными, как с ресурсом.

10. По итогам дискуссии, модератором которой была основатель нашего канала Ани Асланян, отметила, что к формированию стандартов этики ИИ, помимо бизнеса и государства необходимо активнее привлекать представителей разных общественных организаций, так как, в первую очень, общество - главный заказчик данного стандарта. 
Интересное исследование.

«В большинстве крупных российских компаний утверждают, что уже применяют решения на базе искусственного интеллекта (ИИ), но оценить эффект пока не могут, говорится в исследовании TAdviser и «Ростелекома».»

https://www.kommersant.ru/doc/4593938