Клуб CDO
2.67K subscribers
324 photos
16 videos
77 files
1.32K links
Сообщество профессионалов в области работы с данными и искуственным интеллектом
Download Telegram
Всем привет! Хотим напомнить, что продолжается прием заявок на премию для директоров по данным – CDO Award 2021.

Организаторы премии – издательство «Открытые системы» и онлайн-ресурс «Директор информационной службы» –- приглашают к участию в конкурсе руководителей по работе с данными с впечатляющими проектами, готовых продемонстрировать силу данных и их возможности в трансформации бизнеса и общества.

Премия CDO Award 2021 будет вручаться в номинациях:
• За создание новой бизнес-модели, основанной на данных
• За повышение эффективности бизнеса
• За реализацию инновационной идеи
• За обеспечение качества данных
• За достижения в подготовке специалистов по управлению данными
• За реализацию социально значимых инициатив на основе данных

Кроме того, учредители CDO Award 2021 вручат специальную премию «За вклад в популяризацию профессии» номинанту, активно проявившему себя в продвижении роли директора по данным в профессиональном медиапространстве, на профильных мероприятиях и в социальных сетях.

Если вы хоте рассказать о вашем опыте и достижениях в управлении данными в вашей организации — подавайте заявки, до 31/01/2021 и номинируйте ваших директоров по данным на премию CDO Award 2021!
Полезный контент: 3 бесплатные книги доступны на сайте издательства O’railly:

- Business models for Data Economy
- What is Data Science
- Migrating Big Data Analytics into the Cloud

https://www.oreilly.com/data/free/
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Аналитическое хранилище данных Amazon Redshift получило возможность использовать ML с помощью SQL. В целом индустрия идёт по пути упрощения методов анализа данных.
Forwarded from CDO2Day
Отраслевой дайджест_04.12-11.12.2020.pdf
239.5 KB
📖Представляем вашему вниманию дайджест новостей цифровизации отраслей экономики России.

От роботизированных самосвалов - до автоматизированных поездов. От цифровых технологий на стройках до телемедицины и электронных рецептов на лекарства. Все что произошло в "цифре" за неделю.
DIS_DG_book.pdf
1.1 MB
Небольшая брошюра от Informatica про современные тенденции Data Governance
Интересное исследование от компаний IDC и Neoflex.

Основываясь на нашем опыте с «Биржой данных», я всегда говорил, что данные - это поток, и текущие тенденции это подтверждают.

В отчете, в целом, много интересных цифр, собранных в рамках опроса компаний, отражены тенденции сегодняшнего дня, связанные с цифровизацией, онлайном и тд.

https://filearchive.cnews.ru/img/files/2020/11/10/idcstreaming_data_processing_technologiesrussian_market_today.pdf
Introducing the “4 Stages of Data Monetization”

Обратил внимание на публикацию в сети LinkedIn (запрещенная в России социальная сеть) с кричащим названием “4 этапа монетизации данных”. В целом в статье раскрывается сравнение данных с нефтью и аргументируется утверждение, что данные приносят ценность только в момент использования их для оптимизации бизнес-процессов, а не в сами по себе являются источником затрат на сбор и хранение. Аналог тут и с нефтью - сырая нефть то же не совсем полезный продукт, пока не подвергнуться глубокой переработке.

В статье приводятся интересные аргументы, цифры и полезные картинки.

https://www.linkedin.com/pulse/introducing-4-stages-data-monetization-bill-schmarzo/?trackingId=BsZ3Ox23TfSm7Tkj17yVKA%3D%3D
Всем привет! Сори, что у нас тут не такие частые посты, как в других каналах, но очень не хочется просто бездумно перепосчивать банальные новости просто ради активности. Хочется наоборот, более вдумчивого контента и полезной информации. Плюс, нагрузка перед концом года традиционно возрастает пропорционально трафику на дорогах. Но копится достаточно большое количество статей/информации, которые буду выкладывать по мере переваривания.

Вопрос тут возник: мне повезло расширить сферу своих профессиональных интересов на более широкий круг тем (помимо дисциплины управления данными, которой посвящен этот канал изначально), таких как:
- AI в плане NLP, CV, рекомендательных систем, персонализации, платформы AI,
- гейминг, киберспорт
- умный дом и IoT
- платформы цифровых коммуникаций
- платформы пользовательского контента и опыта

поэтому материала, которым хочется поделиться, все больше 🙂

Внимание! Вопрос к знатокам - давайте проголосуем, если вы за то, чтобы выйти за рамки чистого управления данными, ставьте лайк, если против - то дислайк. Жду вашего мнения!
Статья_Гражданско_правовые_аспекты_регулирования_оборота_да.pdf
393.9 KB
Спасибо всем проголосовавшим, очень приятно видеть вовлеченность аудитории! На основании результатов голосования делаем вывод, что спектр контента немного расширим, но уходить совсем далеко от темы данных и злоупотреблять сторонними темами не будем :)

Сегодня хочу поделиться юридическим, но любопытным документом. Во вложении статья Гражданско-правовые аспекты регулирования оборота данных в условиях попыток формирования цифровой экономики (Савельев А.И.) ("Вестник гражданского права", 2020, N 1).

Должен предупредить, что юридический текст, как всегда, тяжелый, но уникальность статьи состоит в обзоре юридических аспектов современного законодательства, совмещенным с глубоким пониманием сути таких понятий как “данные”, “информация” и тд.

Выводы вполне предсказуемы - пока наше законодательство не в полной мере отвечает требованиям процессов обмена и продажи данных. Но следует обратить внимание, что такие вещи, как “hash телефона”, отнесены Роскомнадзором к персональным данным.
И еще один юридический обзор на тему данных: компания CleverDATA подготовила и опубликовала документ с обзором того, что в сфере данных произошло за год в законодательной области.

https://rppa.ru/_media/analitika/big_data_2020.pdf
Data Mesh в «Леруа Мерлен»: DIY в работе с данными

В журнале Computerworld опубликована очередная статья из серий интервью в рамках премии CDO Award 2021. В статье Дмитрий Шостко, CDO компании Леруа Мерлен, описывает подход компании к работе с данными. Основной особенностью является полная децентрализация не только организационной структуры функции DS, но и реализация технологической платформы работы с данными по принципу Data Mesh.

Так же хочу отметить актине использование компанией облачных технологий. Главное требование к платформе было горизонтальное масштабирование платформы. Поэтому ориентировались на работу в облаке (быть cloud ready), проектировали платформу с учетом этого (быть cloud native) и даже предусмотрели возможность платформы работать в нескольких облаках одновременно (быть cloud agnostic).

Аналитическое хранилище начали строить на платформе Greenplum, и результаты подтвердили правильность этого выбора. Но данные, которые туда загружаются, должны быть доступны в реальном времени. Так платформа была дополнена решениями Apache Kafka, а также NiFi, AirFlow и Debezium, отвечающие за процесс загрузки.


Полный текст интервью по ссылке:

https://www.computerworld.ru/cio/articles/251220-Data-Mesh-v-Lerua-Merlen-DIY-v-rabote-s-dannymi?fbclid=IwAR1K1kle_vlcjJsDU0sooRAprv3dNW1Cfk39torfX6HGPoI2i80Pu6G9rz0
Миру нужна новая операционная система для обмена данными

Интересное предложение высказано в статье Мурата Сонмез, главы Центра четвертой промышленной революции и управляющего директора Всемирного экономического форума.
Идея относиться к организации защиты данных, а точнее даже знаний, которые мы из них получаем. Проблема связана с тем, что данные очень тяжело защитить от переиспользования. Как только мы какими-то данными/знаниями с кем то поделились - мы утрачиваем возможность дальнейшего контроля и это является большим барьером для развития тем совместного использования данных. На этой проблеме пытаются взлететь криптомерии-энтузиасты с блокчейном, а так же разные провайдеры, предлагают всегда-защитные “анклавы данных” (что бы это не значило. Почему я тут использую термин псевдо? Потому что природу не обманешь и использование таких решений ограничивается периметром самих этих решений. Короче, как только данные оказываются в периметре какой то другой системы - контроль теряется. То есть вся экосистема связанных систем, обеспечивающих цепочку сырые данные - обработанные- информация-знания-действие-обратная связь-сырые данные - должны быть в одном периметре контроля. Что на практике нереально если мы говорим о том, что в цепочке используется решения разных компаний.

Так вот в статье делается фундаментальное предложение, что нужно делать отдельную операционную системы, в которой реализовать специальные функции контроля доступа к данным и на базе которой уже делать разработку прикладных решений. Собственно, общая операционная система и будет обеспечивать идею, что все прикладные решения будут находиться в едином “виртуальном” контуре контроля.

Такая операционная система должны иметь:
⁃ механизмы уведомления и запроса согласия, с помощью которых владельцы данных смогут устанавливать способы и сроки использования информации, а также возможность ее платного или бесплатного применения.
⁃ механизм сертификации приложений, использующих различные пакеты данных
⁃ прозрачный механизм для оценки данных

Полный текст стаьи:

https://cdo2day.ru/mir-dannyh/miru-nuzhna-novaja-operacionnaja-sistema-dlja-obmena-dannymi/
Небольшой оффтоп, но может быть кому-то окажется полезным

Мой список "лучших книг года" 🙂

Итак, в номинации "Книга года" побеждает: роман "Дорога" Маккарти Кормака!

Несмотря свой небольшой объем именно она вызвала наибольший эмоциональный отклик и оставила отпечаток в душе.

Из оставшихся 99 книг, прочитанных в этом году, однозначно повторного прочтения заслуживают:

Номинация "Библия программиста":
- Чистый код: создание, анализ и рефакторинг by Robert C. Martin

Номинация "Художественная литература":
- Вспоминая моих грустных шлюх by Gabriel García Márquez
- Нейромант by William Gibson
- Видоизмененный углерод by Richard K. Morgan

Номинация "Научно-популярная литература":
- Человек и компьютер: Взгляд в будущее by Гарри Каспаров
- Структура реальности by David Deutsch
- Рождение машин. Неизвестная история кибернетики by Thomas Rid
- Искусственный Интеллект by Роман Душкин
- Язык как инстинкт by Steven Pinker

Номинация "Бизнес литература":
- Scrum на практике. Высокая продуктивность и результаты — прямо сейчас by Джей Джей Сазерленд
- Зона победы. Управление в эпоху цифровой трансформации by Джеффри Мур
- Бесконечная игра. В бизнесе побеждает тот, кто не участвует в гонке by Саймон Синек
- Principle-Centered Leadership by Stephen R. Covey
- Между клизмой и харизмой by Самвел Аветисян
- 45 Татуировок личности by Максим Батырев
- Ген директора. 17 правил позитивного менеджмента по-русски by Владимир Моженков

Номинация "Саморазвитие":
- Выбор: О свободе и внутренней силе человека by Edith Eger
- Просто делай! Делай просто! by Oskar Hartmann
- Как быть стоиком: Античная философия и современная жизнь by Massimo Pigliucci
- Наедине с собой. Максимы by Marcus Aurelius
- 12 Rules for Life: An Antidote to Chaos by Jordan B. Peterson
Друзья, поздравляю всех с наступающим Новым годом! Здоровья, удачи, много денег, интересных задач и проектов!
Обратите внимание, что прямо перед новым годом вышел очередной аналитический сборник "Альманах искусственный интеллект". Очередной выпуск посвящен теме обучению с подкреплением. Самые громкие результаты последнего времени связаны именно с ней: AlphaGo, AlphaZero, Dota2 и Starcraft. И, хотя сейчас в этой области в России очень мало работ, авторы считают, что это самая перспективная область для исследования.

https://aireport.ru/rl
State of AI 2020 - краткие выводы (часть 1)

Раннее публиковал новость о выходе отчета State of AI от 01/10/20 - ниже краткие тезисы по результатам прочтения:

⁃ NLP - самая горячая тема этого года, чему способствовали появление новых языковых моделей (GPT-3) и то, что крупные компании тратят свои ресурсы на обучение таких больших моделей
⁃ AI начинает трансформировать область биологии. Уже после выхода отчета появился AlphaFold - алгоритм моделирования структуры белка, который может существенно помочь в разработке новых лекарств. И COVID-19 был тут не последним катализатором.
⁃ Область AI продолжает “закрываться”. Только 15% опубликованных научных работ раскрывают программный код.
⁃ США продолжают доминировать в научной среде, открываются новые, специализированные под AI институты
⁃ Квантовые вычисления пока еще развиваются, за 20 год сильных прорывов не было
⁃ Проблемы AI Governance оказались не так сильны, как прогнозировалось
⁃ PyTorch побеждает Tensoflow в исследованиях, но Tensoflow остается силен в продакшене
⁃ Стоимость обучения GPT-3 - около $10М
⁃ Большим нейронным сетям надо меньше данных, чем маленьким, для достижения того же уровня качества обучения
⁃ Объяснимость выводов аналитических моделей является очень важным фактором для распространения AI, особенно в медицине
⁃ Механизмы внимания активно внедряются в задачи компьютерного зрения
⁃ Китай старается в области AI, но 54% ученых, которые после окончания университета в Китае публикуются на NeurIPS, переезжают в США
⁃ Сильно возрастает важность MLOps, что является сигналом того, что индустрия переходит от стадии RnD к стадии промышленной эксплуатации
⁃ RPA является самой востребованной технологией в Enterprise среде
State of AI 2020 - краткие выводы (часть 2)

Основные предсказания на следующие 8-12 месяцев:
⁃ Продолжение появления новых, еще более сложных языковых моделей
⁃ Новые достижения в области компьютерного зрения за счет применения методов внимания
⁃ Усиление инвестиций в AI со стороны военных
⁃ Закрытие корпоративных AI лабораторий за счет изменения стратегий компаний
⁃ Nvidia все таки купит ARM
Хорошее саммари самых основных вещей на тему Datawarehouse. Основные тезисы что это, зачем, как и тд.

Автор все довольно четко раскладывает по полочкам. Полезно освежить знания :)

https://link.medium.com/1awxDAR8Rcb