Клуб CDO
2.69K subscribers
329 photos
16 videos
81 files
1.34K links
Сообщество профессионалов в области работы с данными и искуственным интеллектом
Download Telegram
Обратите внимание, что прямо перед новым годом вышел очередной аналитический сборник "Альманах искусственный интеллект". Очередной выпуск посвящен теме обучению с подкреплением. Самые громкие результаты последнего времени связаны именно с ней: AlphaGo, AlphaZero, Dota2 и Starcraft. И, хотя сейчас в этой области в России очень мало работ, авторы считают, что это самая перспективная область для исследования.

https://aireport.ru/rl
State of AI 2020 - краткие выводы (часть 1)

Раннее публиковал новость о выходе отчета State of AI от 01/10/20 - ниже краткие тезисы по результатам прочтения:

⁃ NLP - самая горячая тема этого года, чему способствовали появление новых языковых моделей (GPT-3) и то, что крупные компании тратят свои ресурсы на обучение таких больших моделей
⁃ AI начинает трансформировать область биологии. Уже после выхода отчета появился AlphaFold - алгоритм моделирования структуры белка, который может существенно помочь в разработке новых лекарств. И COVID-19 был тут не последним катализатором.
⁃ Область AI продолжает “закрываться”. Только 15% опубликованных научных работ раскрывают программный код.
⁃ США продолжают доминировать в научной среде, открываются новые, специализированные под AI институты
⁃ Квантовые вычисления пока еще развиваются, за 20 год сильных прорывов не было
⁃ Проблемы AI Governance оказались не так сильны, как прогнозировалось
⁃ PyTorch побеждает Tensoflow в исследованиях, но Tensoflow остается силен в продакшене
⁃ Стоимость обучения GPT-3 - около $10М
⁃ Большим нейронным сетям надо меньше данных, чем маленьким, для достижения того же уровня качества обучения
⁃ Объяснимость выводов аналитических моделей является очень важным фактором для распространения AI, особенно в медицине
⁃ Механизмы внимания активно внедряются в задачи компьютерного зрения
⁃ Китай старается в области AI, но 54% ученых, которые после окончания университета в Китае публикуются на NeurIPS, переезжают в США
⁃ Сильно возрастает важность MLOps, что является сигналом того, что индустрия переходит от стадии RnD к стадии промышленной эксплуатации
⁃ RPA является самой востребованной технологией в Enterprise среде
State of AI 2020 - краткие выводы (часть 2)

Основные предсказания на следующие 8-12 месяцев:
⁃ Продолжение появления новых, еще более сложных языковых моделей
⁃ Новые достижения в области компьютерного зрения за счет применения методов внимания
⁃ Усиление инвестиций в AI со стороны военных
⁃ Закрытие корпоративных AI лабораторий за счет изменения стратегий компаний
⁃ Nvidia все таки купит ARM
Хорошее саммари самых основных вещей на тему Datawarehouse. Основные тезисы что это, зачем, как и тд.

Автор все довольно четко раскладывает по полочкам. Полезно освежить знания :)

https://link.medium.com/1awxDAR8Rcb
Стратегия совершенства_summary.pdf
8.4 MB
OFFTOP: хочу порекомендовать всем отличную книгу "Стратегия совершенства" Тома Питерса в ее последней, адаптированной редакции. Это по сути сборник бизнес-мудростей, который автор собирал годами. ИМХО отличный заменитель десятка совеременных бизнес-книг.

Для тех, кому лень читать самим - делюсь моими заметками.

https://www.litres.ru/tom-piters/strategiya-sovershenstva/?utm_source=google&utm_medium=cpc&utm_campaign=search_dsa_ohvat_f%7C2087774395&utm_term=&utm_content=375733693663%7Bphrase_id%7D_%7Bsource%7D_%7Bsource_type%7D_%7Bregion_name%7D_9047030&param_2=987239&gclid=EAIaIQobChMI5P6Stv2Q7gIVEdayCh3iWwRxEAAYASAAEgJ-m_D_BwE
Привет Switch Transformers от Google Brain, пока GPT-3 от OpenAi

Ресерчеры из Google Brain предложили метод, благодаря которому можно обучать языковые модели с более чем триллионом обучаемых параметров. Что на порядок превосходит вышедшую в 2020, и наделавшую много шума, модель GPT-3 от OpenAI.

Основное новшество — Switch Transformer, базирование на котором снижает вычислительную сложность языковой модели (ускорение в ~7х раз) в сравнении с предыдущим подходом: T5-Base.

📄 Paper
💻 Код Switch Transformer
Metadata management

Я тут все планирую сделать обзоры ряда решений типа “Data Portal” от ряда крупных компаний, поскольку мне тема управления мета-данными кажется очень важной и актуальной для текущей повестки. Тема новая для рынка, хороших и проверенных решений мало, лидеры квадранта Gartner стоят много денег и очень много компаний (Uber) просто начинают писать такие решения “под себя”. При этом эти платформы предлагаются в режиме OpenSource, что делает их особенно привлекательными.

Но тут возник вопрос ко всем: может быть кто-то, кто уже внедрил у себя в компании что то подобное, хочет поделиться своим опытом со всеми? Дайте знать, если готовы поделиться материалами или хотя-бы напиши в комментариях, что используете (всем будет интересно)?

Что планируется к обзору:

Uber: https://eng.uber.com/databook/
Lyft: https://eng.lyft.com/amundsen-lyfts-data-discovery-metadata-engine-62d27254fbb9
LinkedIn: https://engineering.linkedin.com/blog/2019/data-hub
Apache Atlas: https://atlas.apache.org/#/

А вообще количество решений довольно уже большое: https://awesomeopensource.com/projects/metadata
Хочу обратить ваше внимание на статью подписчика этого канала Алексея Артемова о его опыте развертывания и настройки портала управления данными Atlas.

https://medium.com/@lexaneon/apache-atlas-quick-start-part-i-rest-ui-9084e46fa5db
обнаружил тут в списках "посмотреть позже" записи с конференции Ростелекома DataTalks 2.0, которая прошла в ноябре прошлого года. в 2019 эта конференция очень понравилась, была сфокусирована максимально на темах управления качеством данных и максимально практичных вещах. Надеюсь, что и в этом году повестка осталась соответствующей. К сожалению записи не "нарезаны" на отдельные выступления, поэтому придется смотреть целиком 🙂

День первый: https://www.youtube.com/watch?v=MmG2W8u7mUU

День второй: https://www.youtube.com/watch?v=YHWPyKnZs_k&t=8524s
DataRobot_MLOps_101_Guide.pdf
8.9 MB
MLOps

Еще одна тема, которая становиться супер важной в области работы с данными - MLOps. Это набирающий популярность термин обозначает организацию процесса взаимодействия людей, практик и базовых технологий, которые автоматизируют развертывание, мониторинг и управление моделями машинного обучения (ML) в промышленном режиме работы масштабируемым и полностью управляемым способом, чтобы обеспечить измеримую ценность для бизнеса от машинного обучения. Важность и необходимость заниматься этой дисциплиной диктуются тем, что все больше ML экспериментов переходят в стадию коммерческой эксплуатации. Как всегда, при этом выявляется, что затраты непосредственно на разработку ML модели это, условно, те же 20% от всех затрат, связанных с промышленной реализацией.

Компания DataRobot выпустила хороший обзор MLOps 101: The Foundation for Your AI Strategy в котором описывает основные аспекты этой тематики: зачем нужен MlOps, что такое мониторинг и развертывание ML моделей, что какое Product Model Governance и тд
Всем привет! Мы начинаем подготовку очередной встречи Клуба CDO, планируем ее на февраль. Проводить будем в онлайн формате.

Если есть какие-то темы, которые хочется/важно обсудить, или если кто то хочет рассказать о своих практиках и кейсах - напишите в комментарии или админам группы!

Спасибо!
Интресная статья на Хабре об аналитической инфраструктуре Wheely.

Что особенного:
- используют эластичные сервисы Amazon Redshift, за счет чего могут легко масштабировать хранилище
- Concurrency Scaling позволит поднять временный кластер для того чтобы справиться с пиковой нагрузкой (автоматически добавляет вычислительные мощности в виде временных compute nodes, которые "гасятся" после спада нагрузки)
- Redshift имеет встроенные (но расширяемые) механизмы сжатия данных и автоматическое управление параллелизмом запросов и выделением ресурсов


Вместе с расширением Redshift Spectrum кластер приобритает возможности полноценного Data Lake и Wheely использует это для:
- Data Quality Pipeline
- Архивирование холодных данных в S3

Есть крутые фичи Amazon Redshift, которые уже находятся в статусе preview (пока доступны для тестовых кластеров):

- Using machine learning in Amazon Redshift
- Ingesting and querying semistructured data in Amazon Redshift


https://m.habr.com/ru/company/wheely/blog/539154/
На следующей неделе будет проходить лучшая конференция по ИИ в России. Не пропустите!

https://opentalks.ai/ru/timetable
Сравнение точности алгоритмов ML с человеком

В 2018 году PNAS (Proceedings of the National Academy of Sciences) опубликовал исследование «Face recognition accuracy of forensic examiners, superrecognizers, and face recognition algorithms». Сравнивалась точность распознавания лиц судебно-медицинскими экспертами и алгоритмами. Задача заключалась в том, чтобы определить, изображены ли на парах изображений лица одного и того же человека или разных людей. Для исследования были выбраны 3 группы специалистов: судмедэксперты, лицевые эксперты, супер-распознаватели (неподготовленные люди с сильными навыками в распознавании лица); а также 2 контрольные группы: дактилоскописты и студенты.

Итоговые результаты представлены на картинке. Черные точки обозначают точность отдельных участников. Красные точки – среднее значение по группе

Алгоритм 2017 года показал результат 0.96, в то время как результат экспертов в среднем составил 0.93.
На момент 2020 года точность алгоритмов выросла до 0.99, и можно с уверенностью сказать, что системы распознавания лиц являются более надежным и точным способом идентификации.

Источник: Face recognition accuracy of forensic examiners,superrecognizers, and face recognition algorithms. P. Jonathon Phillipsa, Amy N. Yatesa, Ying Hub, Carina A. Hahnb, Eilidh Noyesb, Kelsey Jacksonb, Jacqueline G. Cavazosb,Ge´ raldine Jeckelnb, Rajeev Ranjanc, Swami Sankaranarayananc, Jun-Cheng Chend, Carlos D. Castillod, Rama Chellappac,David Whitee, and Alice J. O’Tooleb
Итоговые результаты представлены на картинке. Черные точки обозначают точность отдельных участников. Красные точки – среднее значение по группе

Алгоритм 2017 года показал результат 0.96, в то время как результат экспертов в среднем составил 0.93.
На момент 2020 года точность алгоритмов выросла до 0.99, и можно с уверенностью сказать, что системы распознавания лиц являются более надежным и точным способом идентификации.

Источник: Face recognition accuracy of forensic examiners,superrecognizers, and face recognition algorithms

PS текст не мой, прислали коллеги
Forwarded from Smart Data (Denis Solovyov)
Всем привет. На этих выходных хочу закончить разбор всех 4-х факторов эффективности работы компании в целом и data team, в частности.

Мы закончили наш цикл мини-интервью со специалистами и руководителями разных компаний, которые были посвящены 3 фактору эффективности - "Структура команды".

Исходя из всех интервью можно сделать такие выводы:
- Структура команды зависит от 2-х главных факторов: уровень развития data-driven культуры и размер компании. Именно в такой последовательности, так как без культуры работы с данными большие компании не будут уделять должное внимание аналитической функции и структуре.
- Команда по работе с данными - это предприятие внутри предприятия. Т.е. подразделение, отвечающее за данные и аналитику переживает такие же стадии развития, как обычное предприятие (при условии развития, конечно): сначала оно имеет в своём штате небольшое количество сотрудников-универсалов, назовём их full-stack аналитиками, которые самостоятельно могут собрать данные, обработать их, визуализировать, проанализировать и сделать выводы из них. По мере развития компании, увеличивается количество бизнес-процессов и данных. Необходимо использовать более сложные технологии, в которых нужно иметь глубокую экспертизу. Становится очень проблематично одному специалисту быть экспертом во всех сферах (инжиниринге, аналитике и data science). Поэтому команда плавно расширяет штат и переходит к разделению труда.
- Работа с данными стала мейнстримом сравнительно недавно, поэтому сложно сказать, какая структура команды наиболее эффективная. Многие компании довольно гибкие в этом плане и методом проб и ошибок, экспериментами нащупывают наиболее подходящую под их бизнес-нужды структуру.

Получилась очень классная рубрика. Думаю, в будущем сделаем интервью и на другие темы)

P.S. Завтра опубликую пост о последнем факторе и начнём двигаться уже к техническим концепциям и конкретным инструментам.