Deep Dive 2 Deep Learning
388 subscribers
23 photos
4 videos
330 links
Канал про глубокое машинное обучение: кейсы, новости, открытия и факапы из мира нейросетей и не только
Download Telegram
🥅Почему сверточные нейросети так востребованы в глубоком обучении?
Свёрточная нейронная сеть (CNN) — это DL-алгоритм, который может принимать входное изображение, приоритизируя через веса и смещения элементы изображения, чтобы отличать их. В отличие от других алгоритмов распознавания образов, CNN не слишком требовательны к качеству исходных изображений. CNN «сворачивает» множество пространственных и цветовых признаков с помощью фильтров, сокращая число задействованных параметров и обеспечивая повторное использования весов. Свёрнутый признак (цвет, ориентация градиента и пр.) уменьшается в размере по сравнению с исходным размером. Помимо сверточного слоя, в CNN также есть слой объединения, который уменьшает размер свёрнутого объекта в пространстве, чтобы сократить размерность и эффективно использовать вычислительные мощности. Также слой объединения помогает извлекать доминирующие признаки, поддерживая обучение модели. Еще в CNN добавляют полносвязный слой, чтобы недорого обеспечить обучение DL-модели нелинейным комбинациям высокоуровневых признаков, полученных на выходе сверточного слоя. Самыми известными на сегодня примерами CNN-архитектур можно назвать AlexNet, VGGNet и GoogLeNet.
🕸Что такое крупномасштабные сверточные нейросети на основе графов (GCN, large-scale graph convolutional networks) и чем они хороши
Читайте обзор недавно предложенной распределенной обучающей структуры для крупномасштабных сверточных сетей на основе графов. Это называется обучением подсетей, не зависящих от графа (GIST, graph independent subnetwork training). GIST ускоряет процесс обучения GCN для любой архитектуры и может использоваться для обучения крупномасштабных моделей, которые превышают возможности одного графического процессора. Машинное обучение на графах полезно, когда данные невозможно представить в евклидовом пространстве. Кроме того, графы – это интуитивно понятная структура данных в социальных сетях, химии, биологии и других прикладных областях, где объекты связаны друг с другом. (т.е. узлы графа - это люди, а ребра - социальные связи) или химия (т.е. узлы графа представляют атомы, а ребра представляют химические связи). GCN реализует обобщение операции свертки для графов, но большинство моделей GCN ограничены по размеру из-за проблемы чрезмерного сглаживания в более глубоких сетях. Подход GIST стремится сократить этот разрыв между возможностями GCN и масштабами глубокого обучения, обучая часть GCN, что гораздо быстрее и эффективнее по сравнению с тренировкой всей большой модели. https://towardsdatascience.com/effortless-distributed-training-of-ultra-wide-gcns-6e9873f58a50
ML-комбо для трейдинга: open-source библиотека FinRL
FinRL предоставляет практикам единую структуру для разработки ML-конвейера. В глубоком обучении с подкреплением (Deep RL, DRL) агент учится, непрерывно взаимодействуя с окружающей средой методом проб и ошибок, чтобы принимать последовательные решения в условиях неопределенности.
Библиотека состоит из трех слоев: среда фондового рынка, DRL агент и приложения для трейдинга акциями. Агент взаимодействует со средой в манере exploration-exploitation. Нижний уровень предоставляет API для верхнего уровня. Каждый слой включает в себя несколько модулей с ограниченным набором функций. Можно также использовать часть модулей для имплементации собственных трейдинговых задач. FinRL представляет DRL-алгоритмы как готовые модули, делая этот ML-метод доступным для использования без профессиональных знаний и экспертного опыта в Data Science. https://github.com/AI4Finance-LLC/FinRL
В Японии разрабатывается технология распознавания лиц медведей-если бы медведи могли говорить, они могли бы высказывать свое негодование по поводу их конфиденциальности. Технология направлена на то, чтобы обезопасить людей от медведей, в особенности от "нарушителей спокойствия" среди них. Для работы системы требуется минимум 30 фотографий морды каждого медведя, сделанных спереди. Автоматические камеры уже установлены вдоль известных медвежьих троп, чтобы захватить необходимые данные,ю Однако, до сих пор не удалось собрать достаточно изображений, чтобы запустить план распознавания лиц. https://www.digitaltrends.com/news/facial-recognition-tech-for-bears-aims-to-keep-humans-safe/
👀Решайте сложные CV-задачи вместе с новым релизом DeepLab2 от Google Research!
Эта библиотека компьютерного зрения на TensorFlow2 отлично решает задачи семантической и паноптической сегментации изображений и видео, в т.ч. с учетом глубины каждого пикселя. Пока это не официальный продукт Google, однако, open-source проект включает унифицированную и современную кодовую базу TensorFlow для задач плотной маркировки пикселей. Попробовать можно прямо сейчас, скачав код с Github https://github.com/google-research/deeplab2
👆🏻Не просто текст: DL-алгоритмы могут генерить программный код
SourceAI, парижский стартап, создает ИИ-инструмент для разработки ПО. AI-система сама сгенерирует Python-код на основе короткого текстового описания того, что эта программа должна делать. С одной стороны, облегчая процессы кодирования и тестирования, DL-модели на базе GPT-3, позволяют быстро создавать простые приложения, помогая простым пользователям и профессиональным разработчикам. Так компания TabNine, используя GPT-2 от OpenAI, выпустила инструмент автозаполнения строки или функции. Еще в апреле 2019 Facebook выпустил ML-инструмент Aroma для выявления похожих фрагментов кода, чтобы помочь разработчикам быстрее писать программы и избегать ошибок, соблюдая принцип Don’t Repeat Yourself. А в октябре 2020 года команда DeepMind представила ИИ-систему, которая может разрабатывать более эффективные версии алгоритмов, написанных людьми. У Intel есть проект Machine Inferred Code Similarity, где ИИ используется для определения семантики участков кода, чтобы понять, что именно делают конкретные строки.
Но такая простота создания программных продуктов может стать причиной уязвимостей и фатальных ошибок. Например, в мартовском исследовании 2021 года студентов и сотрудников MIT доказано, что ИИ-программу, обученную проверять безопасность кода, можно обмануть парой простых трюков, таких как замена переменных. https://www.wired.com/story/ai-latest-trick-writing-computer-code/
💥DL-новости из МИФИ
В марте этого года сотрудники Института интеллектуальных кибернетических систем МИФИ предложили новый метод для обучения ограниченной машины Больцмана, позволяющий оптимизировать процессы семантического кодирования, визуализации и распознавания данных. Доказав, что что классическое правило обучения этой нейросети является частным случаем предложенного метода, ученые подчеркивают перспективы семантического хеширования с помощью глубоких автоассоциативных нейросетей для поиска изображений, компьютерного зрения, распознавания речи и задач биоинформатики. https://na.ria.ru/20180621/1522975977.html
🦋Почти месяц назад, 10 июня, Яндекс обновил свой поиск, добавив 2100 улучшений и новые генеративные нейросети YaLM, чтобы ускорить нахождение нужных данных не только в тексте, но и в видео. Теперь по смыслу текстового запроса поисковик не только найдет ролик, но и начнут его показ с соответствующей секунды. NN-модели YaLM уже успешно себя зарекомендовали: Алиса с их помощью генерирует около 20% своих реплик, они используются для составления подзаголовков объектных ответов и ранжировании их в поиске Яндекса. YaLM-модели обучены на терабайтах русских текстов, а самая мощная из них содержит 13 миллиардов параметров. https://yandex.ru/company/press_releases/2021/2021-06-10
🌸Синтез изображений: не только GAN – июльские новости от Google
Задачи синтеза изображений обычно выполняются глубокими GAN-сетями, VAE и авторегрессионными моделиями. Все они способны синтезировать высококачественные выборки на сложных наборах данных с высоким разрешением, но каждая имеет свои недостатки. Например, GAN часто страдают от нестабильного обучения, а модели авторегрессии обычно работают медленно. Исследователи из Google AI предлагают обойти эти ограничения с помощью диффузионных моделей, впервые предложенных в 2015 году. Сегодня они переживают второе рождение, стабильно выдавая отличные результаты при генерации изображений и звука. Модели диффузии искажают обучающие данные, добавляя гауссовский шум и медленно стирая детали, превращая исходные данные в чистый шум, а затем обучая нейросеть на обратном процессе восстановления. При выполнении обратного искажения данные синтезируются из чистого шума путем его постепенного снижения до получения чистого образца. Эту процедуру синтеза можно интерпретировать как алгоритм оптимизации по градиенту плотности данных для получения вероятных выборок.
Июльское исследование Google представляет два связанных подхода, которые расширяют границы синтеза изображений для моделей диффузии: SR3 и CDM. SR3 обеспечивает высокие результаты сверхвысокого разрешения изображения лучше GAN. А CDM генерирует высокоточные образцы ImageNet, которые намного превосходят BigGAN-deep и VQ-VAE2 по шкале FID и по точности классификации. https://ai.googleblog.com/2021/07/high-fidelity-image-generation-using.html
🕺🏼Умный ковер от ученых MIT
Это не ковер-самолет, но он может распознавать динамику и статику людей без использования камер, что пригодится для автономного персонализированного здравоохранения, умного дома и игр. Недорогая ковровая дорожка 10 метров на 60 см сделана из коммерческой, чувствительной к давлению пленки и проводящей нити с более чем девятью тысячами датчиков, каждый из которых преобразует давление человека в электрический сигнал. Система обучена синхронизированным тактильным и визуальным данным человеческих движений на примере таких физических упражнений, как отжимания от пола.
Видеокамеры использовались только для создания обучающего датасета, фиксируя момент, когда человек выполнял действие. Выводы о трехмерной человеческой фигуре и характере ее движения делала глубокая нейросеть, используя только тактильную информацию с ковровых датчиков. Эта DL-модель смогла предсказать позу человека с погрешностью менее 10 сантиметров. Для классификации конкретных действий система была точной в 97% случаев. https://www.csail.mit.edu/news/intelligent-carpet-gives-insight-human-poses
💨Структура белков от DeepMind AI
Нейросеть AlphaFold, разработанная лондонской дочерней компанией Google DeepMind, недавно предсказала структуру почти всех из 350 тысяч белков человеческого организма, а также сделала тоже самое для мышей, кукурузы, малярийных паразитов и еще пары десятков других живых существ и растений. Впервые DeepMind удивил сообщество медико-биологических наук в 2020 году, когда обновленная версия AlphaFold приняла участие в двухгодичном исследовании по прогнозированию белков, структуры которых были определены экспериментально, но еще не опубликованы. Некоторые прогнозы AlphaFold очень точно совпадали с экспериментальными моделями. А в июле 2021 DeepMind опубликовал исходный код последней версии AlphaFold и подробное описание того, как она была разработана. Компания доработала эту нейросеть, чтобы повысить эффективность кода: раньше некоторые прогнозы рассчитывались целыми днями, а теперь обновленная версия AlphaFold может сделать это за пару часов или даже несколько минут.
https://www.nature.com/articles/d41586-021-02025-4
👻NLP с Deep Learning: 3 перспективных ИИ-стартапа
За последние несколько лет в ИИ-обработке естественного языка подходы на базе глубокого обучения все чаще заменяют классические статистические методы. Самым ярким примером здесь стала нейросеть GPT-3, способная генерировать текст, неотличимый от человеческого, и формировать программный код. Но, это не единственный интересный кейс применения DL к NLP-задачам. Сегодня рассмотрим три разных стартапа: Explosion, Huggingface и John Snow Labs, которые сочетают DL-модели с NLP-подходами.
Explosion – разработчик популярной open-source NLP-библиотеки spaCy, написанной на языках Python и Cython. Она без труда справляется с огромными рабочими нагрузками и идет в ногу с новейшими NLP-технологиями, включая конвейеры на предварительно обученных Transformer-моделях, таких как BERT, с возможностью интеграции PyTorch и TensorFlow. Также Explosion предлагает коммерческий продукт Prodigy, который позволяет создавать выразительные аннотации наборов данных с возможностью создания сценариев, Поддерживая аннотирование изображений, аудио и видео, с Prodigy DS-специалисты могут снизить затраты на создание богатых датасетов и более совершенных DL-моделей.
Huggingface – компания, которая создала библиотеку PyTorch и постоянно выпускает множество Transformer-моделей NLP для разных доменов и языков. Решения Huggingface используется во множестве продуктов, от Grammarly до решений Microsoft, Google и Facebook. А недавно Huggingface выпустил библиотеку Accelerate, которая упрощает обучение больших моделей на множестве распределенных машин.
John Snow Labs продвигает Spark NLP для реализации множества приложений: распознавание именованных сущностей, поиск информации, классификация и анализ настроений с помощью огромного количества DL-моделей и более 400 конвейеров для различных приложений. NLP-модуль использует преимущества масштабирования Apache Spark, что упрощает его распределенное развертывание. Из практических кейсов Spark NLP от John Snow Labs стоит отметить Healthcare AI - управляемую платформу поверх Kubernetes для анализа и исследований в сфере здравоохранения с набором дополнительных пакетов для распознавания и связывания клинических объектов, извлечения медицинских концепций из текста и пр. Здесь же упомянем другой коммерческий продукт - Spark OCR для распознавания текста, который может захватывать области изображения с буквами и выводить их в форматах DICOM и PDF, поддерживая сквозное извлечение именованных сущностей. https://www.infoworld.com/article/3621022/3-ai-startups-revolutionizing-nlp.html
🎲Не только GAN: DL-метод NeRF для генерации трехмерных изображений
Neural Radiance Fields — метод глубокого обучения для генерации изображений любых новых ракурсов для конкретного фотосета. Нейросеть обучается на ограниченном числе фотографий. Широкой публике NERF был представлен на конференции ECCV весной 2020 года. Благодаря включению в вычислительную функцию данных о координатах точки в пространстве, RGB-цветах и вектору направления, NeRF позволяет получить весьма фотореалистичные изображения. Так можно симулировать спекулярные view-dependent отражения на основе пары десятков фотографий с разных углов, чтобы они показывали заметное пересечение областей.
У большинства других методов сканирования и генерации изображений со стандартным рендерингом текстурных Mesh’ей спекуляры получаются не очень хорошо. Это преимущество позволяет с помощью NERF получать новые виды трехмерной сцены с различных ракурсов и высокой детализацией, что актуально для производства рекламных роликов и художественных фильмов, а также научных исследований.
Однако, при всех своих достоинствах фон на фотографии вызывает сильное переобучение нейросети и вносит значительный шум в генерируемую сцену. Эта проблема решается удалением фона на обучающей фотографии. Кроме того, NeRF-модели очень долго обучаются и требуют много аппаратных ресурсов. Для ускорения можно использовать версию NeRF от Google Research с элементами JAX и распараллеливания на нескольких GPU и TPU.
Наконец, главным недостатком является заточенность NERF под конкретную сцену из-за особенностей архитектуры нейросети. Чтобы восстановить непрерывное представление новой сцены, требуется заново тренировать нейросеть на новом наборе фотографий. Хотя сегодня активно ведутся исследования в сторону универсализации этого метода и DS-специалисты ищут способы получения novel views на сценах, которых не было в обучающей выборке.
Больше подробностей про NERF:
https://www.matthewtancik.com/nerf
https://github.com/google-research/google-research/tree/master/jaxnerf
https://habr.com/ru/company/twin3d/blog/569174/
🏂Китайская DL-нейросеть Wu Dao 2.0 превзошла GPT-3
Обученная на китайском и английском языках на 4,9 терабайт изображений и текстов, эта нейросеть от Пекинской AI-академии имеет 1,75 трлн параметров, что в десять раз больше GPT-3 и Google Switch Transformer. Wu Dao 2.0 вышла в июне 2021 года, всего через 3 месяца после выпуска первой версии в марте 2021. В отличие от аналогов, эта DL-нейросеть универсальна: она может генерировать тексты, изображения и предсказывать 3D-структуры белков как AlphaFold, требуя небольшого количества новых данных для решения новых задач. Продуктом уже заинтересовался Xiaomi и другие известные китайские компании: Meituan, Kuaishou и пр.
https://habr.com/ru/news/t/560854/
🔥SeqSNR от Google AI
Хотя многозадачное обучение фиксирует взаимозависимости между разными объектами, его сложно реализовать на практике: совместно выполняемые задачи часто мешают друг другу, вызывая эффект «отрицательной передачи». Исследователи Google AI предлагают смягчить эту проблему с помощью автоматической оптимизации распределения информации между задачами за счет последовательной подсетевой маршрутизацией (SeqSNR, Sequential Sub-Network Routing). SeqSNR – это адаптация временного ряда SNR-архитектуры, которая объединяет уровень глубокого встраивания (Deep Embedding) со слоями рекуррентной нейросети (RNN). Разделяя маршрут распространения данных на несколько модулей, между блоками разных уровней, можно снизить отрицательную передачу и отфильтровать данные. По сути, это означает, что каждая задача использует свой путь в модели.
Ощутимое повышение производительности SeqSNR наблюдается при небольшом количестве обучающих меток. Эта модель была протестирована в прогнозировании клинических исходов у пациентов отделения интенсивной терапии на датасете EHR MIMIC-III, который данные о 36 498 взрослых из 52 038 госпитализаций в клинику Beth Israel Deaconess Medical Center в период с 2001 по 2012 год. https://ai.googleblog.com/2021/07/multi-task-prediction-of-organ.html
🗣AdaShare: глубокое мультизадачное машинное обучение
Многозадачное обучение - открытая и сложная проблема компьютерного зрения. Обычно с глубокими нейросетями используются вручную созданные схемы, которые разделяют все начальные уровни и разветвляются в одной точке или применяются отдельные сети для конкретных задач с дополнительным механизмом совместного использования/слияния фич. Альтернативой этим методам является адаптивный подход к совместному использованию, который решает, что разделять при выполнении каких задач для достижения наилучшей точности распознавания с учетом эффективности использования ресурсов. Основная идея подхода в том, чтобы изучить шаблон совместного использования с помощью политики для конкретной задачи, которая выборочно выбирает, какие уровни выполнять для нее в многозадачной сети. Оптимизация политики для конкретной задачи выполняется вместе с весами сети, используя стандартное обратное распространение. Такой дифференцированный подход к эффективному многозадачному обучению позволяет получить единую сеть, которая поддерживает отдельные пути выполнения для разных задач.
На практике это актуально для беспилотных автомобилей, где нужно выполнять несколько задач в режиме реального времени, например, обнаружение объектов и оценку глубины. Метод реализован в модели AdaShare, представленной на конференции NeurIPS 2020 и вызвавший широкой интерес профессионального DS-сообщества.
https://github.com/sunxm2357/AdaShare
https://pythonrepo.com/repo/sunxm2357-AdaShare-python-deep-learning
🎯Универсальное ИИ-решение от DeepMind
Компания DeepMind, специализирующаяся на глубоком обучении, планирует разработать многоцелевую AI-архитектуру, которая сможет обрабатывать все типы данных, решая любые задачи: от распознавания образов до синтеза текстов. Поэтому в 2021 году на международной ML-конференции ICML сотрудники DeepMind представили Perceiver - архитектуру общего назначения на базе Transformer, которая способна обрабатывать данные: изображения, облака точек, аудио, видео и их комбинации. Но Perceiver ограничен задачами с простыми выходными данными, такими как классификация. Чтобы снять эти ограничения, проект получил развитие в виде Perceiver IO - более общая версия архитектуры Perceiver, которая может выдавать широкий спектр выходных данных из множества различных входных данных. Благодаря этому Perceiver IO можно применять к различным областям реального мира, используя в NLP, CV, мультимодальном понимании и сложных играх, например, StarCraft II.
https://deepmind.com/blog/article/building-architectures-that-can-handle-the-worlds-data
https://arxiv.org/abs/2107.14795
https://github.com/deepmind/deepmind-research/tree/master/perceiver
Forwarded from Big Data Science [RU]
⚡️ Ситимобил запускает митапы о применении Data Science в городских и геосервисах, логистике и технологиях умных городов - Citymobil Data Meetup.
Первый митап состоится 12 августа в 18:00, онлайн.
Звездный состав спикеров с очень интересными темами:
🚕 Артём Солоухин (Product Owner Surge Pricing в Ситимобил) поделится своими знаниями о «Switchback-экспериментах и сетевом эффекте»
🏢 Андрей Критилин (Руководитель центра моделирования ЦИАН) расскажет о «Работе с географически неоднородными данными в моделях онлайн-оценки»
🚖 Фёдор Лаврентьев (Head of Internal Efficiency в Yandex Go) выступит с докладом «Границы Москвы: эволюция географии в отчетности Яндекс Такси»
После докладов будет дискуссия со спикерами в которой смогут принять участия слушатели.
Ведущий мероприятия – Алексей Чернобровов.
❗️Регистрация по ссылке: https://citymobil.timepad.ru/event/1730682/
🥁2 датасета разговорного NLP от Google AI
Главная проблема обработки естественного языка – это создание диалоговых агентов, которые могут понимать реальную речь живых людей, которые не всегда заранее обдумывают, что именно они собираются сказать. Естественная беседа прерывается междометиями, повторами и исправлениями, а также более сложными семантическими отклонениями, когда изменяется основное значение фразы. Еще понимание разговора часто требует знания временных отношений, когда одно событие предшествует другому или следует за ним. Большинство современных разговорных агентов NLP часто сталкиваются с трудностями при обработке таких данных. Отчасти это связано с отсутствием тренировочных датасетов, включающих разговорную речь.
Поэтому GooGle AI в августе 2021 представил TimeDial и Disfl-QA:
TimeDial предназначен для понимания времени с аннотированным тестовым набором из более чем 1,1 тысяч диалогов;
Disfl-QA - первый датасет, содержащий контекстные неточности в настройке поиска информации, а именно ответы на вопросы в отрывках из Википедии, с примерно 12 тысячами неудобных вопросов, аннотированных людьми.
Эти наборы данных тестов являются первыми в своем роде и демонстрируют значительный разрыв между производительностью человека и современными моделями НЛП.
https://ai.googleblog.com/2021/08/two-new-datasets-for-conversational-nlp.html