Клуб CDO

Обратите внимание, что прямо перед новым годом вышел очередной аналитический сборник "Альманах искусственный интеллект". Очередной выпуск посвящен теме обучению с подкреплением. Самые громкие результаты последнего времени связаны именно с ней: AlphaGo, AlphaZero, Dota2 и Starcraft. И, хотя сейчас в этой области в России очень мало работ, авторы считают, что это самая перспективная область для исследования.

https://aireport.ru/rl

aireport.ru

AI Report - Обучение с подкреплением

Альманах Искусственный Интеллект №7. Обучение с подкреплением

879 viewsDenis Afanasev, 07:06

👍 8 👎💬

Клуб CDO

State of AI 2020 - краткие выводы (часть 1)

Раннее публиковал новость о выходе отчета State of AI от 01/10/20 - ниже краткие тезисы по результатам прочтения:

⁃ NLP - самая горячая тема этого года, чему способствовали появление новых языковых моделей (GPT-3) и то, что крупные компании тратят свои ресурсы на обучение таких больших моделей
⁃ AI начинает трансформировать область биологии. Уже после выхода отчета появился AlphaFold - алгоритм моделирования структуры белка, который может существенно помочь в разработке новых лекарств. И COVID-19 был тут не последним катализатором.
⁃ Область AI продолжает “закрываться”. Только 15% опубликованных научных работ раскрывают программный код.
⁃ США продолжают доминировать в научной среде, открываются новые, специализированные под AI институты
⁃ Квантовые вычисления пока еще развиваются, за 20 год сильных прорывов не было
⁃ Проблемы AI Governance оказались не так сильны, как прогнозировалось
⁃ PyTorch побеждает Tensoflow в исследованиях, но Tensoflow остается силен в продакшене
⁃ Стоимость обучения GPT-3 - около $10М
⁃ Большим нейронным сетям надо меньше данных, чем маленьким, для достижения того же уровня качества обучения
⁃ Объяснимость выводов аналитических моделей является очень важным фактором для распространения AI, особенно в медицине
⁃ Механизмы внимания активно внедряются в задачи компьютерного зрения
⁃ Китай старается в области AI, но 54% ученых, которые после окончания университета в Китае публикуются на NeurIPS, переезжают в США
⁃ Сильно возрастает важность MLOps, что является сигналом того, что индустрия переходит от стадии RnD к стадии промышленной эксплуатации
⁃ RPA является самой востребованной технологией в Enterprise среде

732 viewsDenis Afanasev, 10:48

👍 5 👎💬

Клуб CDO

State of AI 2020 - краткие выводы (часть 2)

Основные предсказания на следующие 8-12 месяцев:
⁃ Продолжение появления новых, еще более сложных языковых моделей
⁃ Новые достижения в области компьютерного зрения за счет применения методов внимания
⁃ Усиление инвестиций в AI со стороны военных
⁃ Закрытие корпоративных AI лабораторий за счет изменения стратегий компаний
⁃ Nvidia все таки купит ARM

787 viewsDenis Afanasev, 10:48

👍 5 👎💬

Клуб CDO

State of AI Report 2020 - ONLINE.pdf

138 MB

1.1K viewsDenis Afanasev, 10:50

👍 9 👎💬

Клуб CDO

Хорошее саммари самых основных вещей на тему Datawarehouse. Основные тезисы что это, зачем, как и тд.

Автор все довольно четко раскладывает по полочкам. Полезно освежить знания :)

https://link.medium.com/1awxDAR8Rcb

827 viewsDenis Afanasev, 08:55

👍 9 👎 1 💬

Клуб CDO

Стратегия совершенства_summary.pdf

8.4 MB

OFFTOP: хочу порекомендовать всем отличную книгу "Стратегия совершенства" Тома Питерса в ее последней, адаптированной редакции. Это по сути сборник бизнес-мудростей, который автор собирал годами. ИМХО отличный заменитель десятка совеременных бизнес-книг.

Для тех, кому лень читать самим - делюсь моими заметками.

https://www.litres.ru/tom-piters/strategiya-sovershenstva/?utm_source=google&utm_medium=cpc&utm_campaign=search_dsa_ohvat_f%7C2087774395&utm_term=&utm_content=375733693663%7Bphrase_id%7D_%7Bsource%7D_%7Bsource_type%7D_%7Bregion_name%7D_9047030&param_2=987239&gclid=EAIaIQobChMI5P6Stv2Q7gIVEdayCh3iWwRxEAAYASAAEgJ-m_D_BwE

1.1K viewsDenis Afanasev, edited 09:00

👍 17 👎 1 💬

Клуб CDO

Forwarded from Мишин Лернинг 🇺🇦🇮🇱

Привет Switch Transformers от Google Brain, пока GPT-3 от OpenAi

Ресерчеры из Google Brain предложили метод, благодаря которому можно обучать языковые модели с более чем триллионом обучаемых параметров. Что на порядок превосходит вышедшую в 2020, и наделавшую много шума, модель GPT-3 от OpenAI.

Основное новшество — Switch Transformer, базирование на котором снижает вычислительную сложность языковой модели (ускорение в ~7х раз) в сравнении с предыдущим подходом: T5-Base.

📄 Paper
💻 Код Switch Transformer

625 viewsDenis Afanasev, 17:59

Клуб CDO

Metadata management

Я тут все планирую сделать обзоры ряда решений типа “Data Portal” от ряда крупных компаний, поскольку мне тема управления мета-данными кажется очень важной и актуальной для текущей повестки. Тема новая для рынка, хороших и проверенных решений мало, лидеры квадранта Gartner стоят много денег и очень много компаний (Uber) просто начинают писать такие решения “под себя”. При этом эти платформы предлагаются в режиме OpenSource, что делает их особенно привлекательными.

Но тут возник вопрос ко всем: может быть кто-то, кто уже внедрил у себя в компании что то подобное, хочет поделиться своим опытом со всеми? Дайте знать, если готовы поделиться материалами или хотя-бы напиши в комментариях, что используете (всем будет интересно)?

Что планируется к обзору:

• Uber: https://eng.uber.com/databook/
• Lyft: https://eng.lyft.com/amundsen-lyfts-data-discovery-metadata-engine-62d27254fbb9
• LinkedIn: https://engineering.linkedin.com/blog/2019/data-hub
• Apache Atlas: https://atlas.apache.org/#/

А вообще количество решений довольно уже большое: https://awesomeopensource.com/projects/metadata

800 viewsDenis Afanasev, 19:00

👍 25 👎💬 4

Клуб CDO

Хочу обратить ваше внимание на статью подписчика этого канала Алексея Артемова о его опыте развертывания и настройки портала управления данными Atlas.

https://medium.com/@lexaneon/apache-atlas-quick-start-part-i-rest-ui-9084e46fa5db

Medium

Apache Atlas- Quick start (part I — REST & UI)

The article aims to show base steps to work with Apache Atlas

823 viewsDenis Afanasev, 19:27

👍 7 👎💬

Клуб CDO

не в рамках рекламы - обратите внимание на концеренцию "Качество данных 2021"

https://www.osp.ru/lp/dataquality2021?utm_source=osp&utm_medium=email&utm_campaign=dataquality

www.osp.ru

Качество данных 2021

Конференция о том, как обеспечить качество данных в соответствии с целями использования, гарантировав их полноту, точность, корректность и актуальность.

1.2K viewsDenis Afanasev, 08:38

👍 5 👎💬

Клуб CDO

обнаружил тут в списках "посмотреть позже" записи с конференции Ростелекома DataTalks 2.0, которая прошла в ноябре прошлого года. в 2019 эта конференция очень понравилась, была сфокусирована максимально на темах управления качеством данных и максимально практичных вещах. Надеюсь, что и в этом году повестка осталась соответствующей. К сожалению записи не "нарезаны" на отдельные выступления, поэтому придется смотреть целиком 🙂

День первый: https://www.youtube.com/watch?v=MmG2W8u7mUU

День второй: https://www.youtube.com/watch?v=YHWPyKnZs_k&t=8524s

YouTube

Онлайн конференция Ростелекома DataTalks 2.0. День 1

DataTalks 2.0 – это два дня в течение которых мы поговорим обо всех аспектах управления данными в современном мире. Вы узнаете, как эффективно управлять данными, какие есть подходы к работе с большими данными, поймете, как строят хранилища данных и какие…

693 viewsDenis Afanasev, 08:41

👍 7 👎💬

Клуб CDO

DataRobot_MLOps_101_Guide.pdf

8.9 MB

MLOps

Еще одна тема, которая становиться супер важной в области работы с данными - MLOps. Это набирающий популярность термин обозначает организацию процесса взаимодействия людей, практик и базовых технологий, которые автоматизируют развертывание, мониторинг и управление моделями машинного обучения (ML) в промышленном режиме работы масштабируемым и полностью управляемым способом, чтобы обеспечить измеримую ценность для бизнеса от машинного обучения. Важность и необходимость заниматься этой дисциплиной диктуются тем, что все больше ML экспериментов переходят в стадию коммерческой эксплуатации. Как всегда, при этом выявляется, что затраты непосредственно на разработку ML модели это, условно, те же 20% от всех затрат, связанных с промышленной реализацией.

Компания DataRobot выпустила хороший обзор MLOps 101: The Foundation for Your AI Strategy в котором описывает основные аспекты этой тематики: зачем нужен MlOps, что такое мониторинг и развертывание ML моделей, что какое Product Model Governance и тд

950 viewsDenis Afanasev, 12:50

👍 11 👎💬

Клуб CDO

Всем привет! Мы начинаем подготовку очередной встречи Клуба CDO, планируем ее на февраль. Проводить будем в онлайн формате.

Если есть какие-то темы, которые хочется/важно обсудить, или если кто то хочет рассказать о своих практиках и кейсах - напишите в комментарии или админам группы!

Спасибо!

1.1K viewsDenis Afanasev, 11:03

👍 21 👎💬

Клуб CDO

попался на глаза интересный список блогов/каналов по теме анализа данных, BI и тд. рекомендую посмотреть, могут быть интересные.

http://datalytics.ru/all/kogo-chitat-po-teme-analitiki-dannyh/?fbclid=IwAR03gW5KoWKaNqqN1jhYgqputU1-EsEoHAsDSgpPKgLsONf1xPk05GjX9xk

www.datalytics.ru

Кого читать по теме аналитики данных

«Мы видим больше и дальше, чем они, не потому, что взгляд у нас острее и сами мы выше...

873 viewsDenis Afanasev, 15:35

👍 10 👎💬

Клуб CDO

Интресная статья на Хабре об аналитической инфраструктуре Wheely.

Что особенного:
- используют эластичные сервисы Amazon Redshift, за счет чего могут легко масштабировать хранилище
- Concurrency Scaling позволит поднять временный кластер для того чтобы справиться с пиковой нагрузкой (автоматически добавляет вычислительные мощности в виде временных compute nodes, которые "гасятся" после спада нагрузки)
- Redshift имеет встроенные (но расширяемые) механизмы сжатия данных и автоматическое управление параллелизмом запросов и выделением ресурсов

Вместе с расширением Redshift Spectrum кластер приобритает возможности полноценного Data Lake и Wheely использует это для:
- Data Quality Pipeline
- Архивирование холодных данных в S3

Есть крутые фичи Amazon Redshift, которые уже находятся в статусе preview (пока доступны для тестовых кластеров):

- Using machine learning in Amazon Redshift
- Ingesting and querying semistructured data in Amazon Redshift

https://m.habr.com/ru/company/wheely/blog/539154/

Хабр

Аналитический движок Amazon Redshift + преимущества Облака

Привет, Хабр!
На связи Артемий Козырь из команды Аналитики, и я продолжаю знакомить вас с Wheely. В этом выпуске:

Основы гибких кластерных вычислений
Колоночное хранение и компрессия...

682 viewsDenis Afanasev, 19:57

👍 2 👎 1 💬

Клуб CDO

Выложена запись конфереции Privacy Day 2021

https://www.youtube.com/watch?v=9LaOJUYQKfc&list=WL&index=1&t=69s

YouTube

Privacy Day 2021

28 января, в День защиты персональных данных, «РосКомСвобода» совместно с Digital Rights Center и Privacy Accelerator провела ежегодную Международную конференцию Privacy Day 2021 — о защите персональных данных и приватности. Мероприятие прошло уже в третий…

618 viewsDenis Afanasev, 12:14

👍 4 👎💬

Клуб CDO

На следующей неделе будет проходить лучшая конференция по ИИ в России. Не пропустите!

https://opentalks.ai/ru/timetable

opentalks.ai

OpenTalks.AI 2024: Программа конференции

Смотреть программу конференции OpenTalks.AI 2024

626 viewsDenis Afanasev, 15:25

👍 4 👎💬

Клуб CDO

Сравнение точности алгоритмов ML с человеком

В 2018 году PNAS (Proceedings of the National Academy of Sciences) опубликовал исследование «Face recognition accuracy of forensic examiners, superrecognizers, and face recognition algorithms». Сравнивалась точность распознавания лиц судебно-медицинскими экспертами и алгоритмами. Задача заключалась в том, чтобы определить, изображены ли на парах изображений лица одного и того же человека или разных людей. Для исследования были выбраны 3 группы специалистов: судмедэксперты, лицевые эксперты, супер-распознаватели (неподготовленные люди с сильными навыками в распознавании лица); а также 2 контрольные группы: дактилоскописты и студенты.

Итоговые результаты представлены на картинке. Черные точки обозначают точность отдельных участников. Красные точки – среднее значение по группе

Алгоритм 2017 года показал результат 0.96, в то время как результат экспертов в среднем составил 0.93.
На момент 2020 года точность алгоритмов выросла до 0.99, и можно с уверенностью сказать, что системы распознавания лиц являются более надежным и точным способом идентификации.

Источник: Face recognition accuracy of forensic examiners,superrecognizers, and face recognition algorithms. P. Jonathon Phillipsa, Amy N. Yatesa, Ying Hub, Carina A. Hahnb, Eilidh Noyesb, Kelsey Jacksonb, Jacqueline G. Cavazosb,Ge´ raldine Jeckelnb, Rajeev Ranjanc, Swami Sankaranarayananc, Jun-Cheng Chend, Carlos D. Castillod, Rama Chellappac,David Whitee, and Alice J. O’Tooleb

621 viewsDenis Afanasev, 12:26

👍 5 👎 1 💬

Клуб CDO

Итоговые результаты представлены на картинке. Черные точки обозначают точность отдельных участников. Красные точки – среднее значение по группе

Алгоритм 2017 года показал результат 0.96, в то время как результат экспертов в среднем составил 0.93.
На момент 2020 года точность алгоритмов выросла до 0.99, и можно с уверенностью сказать, что системы распознавания лиц являются более надежным и точным способом идентификации.

Источник: Face recognition accuracy of forensic examiners,superrecognizers, and face recognition algorithms

PS текст не мой, прислали коллеги

679 viewsDenis Afanasev, 12:26

👍 1 👎💬

Клуб CDO

Forwarded from Smart Data (Denis Solovyov)

Всем привет. На этих выходных хочу закончить разбор всех 4-х факторов эффективности работы компании в целом и data team, в частности.

Мы закончили наш цикл мини-интервью со специалистами и руководителями разных компаний, которые были посвящены 3 фактору эффективности - "Структура команды".

Исходя из всех интервью можно сделать такие выводы:
- Структура команды зависит от 2-х главных факторов: уровень развития data-driven культуры и размер компании. Именно в такой последовательности, так как без культуры работы с данными большие компании не будут уделять должное внимание аналитической функции и структуре.
- Команда по работе с данными - это предприятие внутри предприятия. Т.е. подразделение, отвечающее за данные и аналитику переживает такие же стадии развития, как обычное предприятие (при условии развития, конечно): сначала оно имеет в своём штате небольшое количество сотрудников-универсалов, назовём их full-stack аналитиками, которые самостоятельно могут собрать данные, обработать их, визуализировать, проанализировать и сделать выводы из них. По мере развития компании, увеличивается количество бизнес-процессов и данных. Необходимо использовать более сложные технологии, в которых нужно иметь глубокую экспертизу. Становится очень проблематично одному специалисту быть экспертом во всех сферах (инжиниринге, аналитике и data science). Поэтому команда плавно расширяет штат и переходит к разделению труда.
- Работа с данными стала мейнстримом сравнительно недавно, поэтому сложно сказать, какая структура команды наиболее эффективная. Многие компании довольно гибкие в этом плане и методом проб и ошибок, экспериментами нащупывают наиболее подходящую под их бизнес-нужды структуру.

Получилась очень классная рубрика. Думаю, в будущем сделаем интервью и на другие темы)

P.S. Завтра опубликую пост о последнем факторе и начнём двигаться уже к техническим концепциям и конкретным инструментам.

830 viewsDenis Afanasev, 12:42

About

Blog

Apps

Platform