AI Для Всех
12.1K subscribers
1.01K photos
120 videos
10 files
1.28K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
MLP-Mixer: An all-MLP Architecture for Vision. В этой сетке есть только полносвязанные слои, а работает она не хуже сверхточных сетей и визуальных трансформеров.

ArXiv

Думаю в ближайшие пару недель все будут обсуждать universal approximation theory и иже с ней. А для нас это значит что пора перестать рассказывать об особой эффективности conv по сравнению с linear.

Блог-пост разбор

#images #MLP #classification
Веселая статья.
Из слов авторов получается, что self-attention слои не всегда нужны (но иногда качество улучшают, особенно когда надо выравнять два представления, в случае авторов - два предложения)

Pay Attention to MLPs

Не хватает рисунка как в Mixer MLP зависимости качества разных архитектур от объема обучающей выборки.

#MLP #images #multimodal
Статья про предсказание энергии молекулы нейросетью.

В принципе - работает. Зачем нужно - в молдинамике часть расчетов опирается на энергию, которую и пытается предсказать нейросеть. Предсказания можно засовывать вместо времязатратных алгоритмов и за счет этого ускорять работу молдинамики.

У нейросети очень простая архитектура - предобработанные признаки кормятся в многослойный персептрон. Единственная выгода по сравнению с обычным бустингом - можно дообучить на интересующий вас класс веществ.

Почему-то авторы до сих пор не пытаются делать GNN - учитывая простоту действа, по-видимому, что-то тривиальное из графовых нейронок не работает лучше. Вполне возможно, ибо признаки хитроватые и придуманные не из головы, а на основе подходов до этого.

Статья

#ScientificML #chemistry #MLP
#ScientificML #medicine #biology #transformer #classification #mlp #smalldataset #datasets

Была статья в 2020 о том, что на самом деле attention transformer - это современная хопфилдовская сеть, которая сходится за один шаг. Что дает такая идея - в современных хопфилдовских сетях есть часть, которая, фактически, хранит наиболее "харизматичные" паттерны из выборки.

По сути - то, что мы в явном виде делаем для SVM. В нем опорные вектора - это как раз самые важные для классификации объекты, с которыми мы сравниваем поступивший на вход новый объект. Именно потому, кстати, SVM можно рассматривать как очень хитрый KNN (особенно если SVM набрала в опорные вектора всю обучающую выборку, что у меня в задаче происходит).

На основе этой интуиции авторы, выпустили статью с применением хопфилдовских сетей для классификации immune repertoire человека. К сложности этой задачи относится то, что размерность входного объекта в разы больше, чем число объектов, которые можно собрать в обозримое время. То есть нужна модель с довольно жесткой регуляризацией, иначе все переобучится.

Статья в принципе интересная, однако прям видно, что выучивается что-то типо SVM (качество нейросети не отличается значимо от созданной под эти цели SVM, смотрите таблицу 1 в статье). При этом понятно, что бонус нейросетевого решения - возможность transfer learning и в принципе шкалируемость метода. Ибо SVM работает на больших датасетах очень долго.

Но как бы сделать все очень тупо и просто, но в виде attention? Авторы новой статьи предлагают решить это просто - пусть теперь key и values в наших слоях будут не вычисляться динамически на основе входных данных, а будут обучаемыми весами.
В идеале эти веса как раз и выучат паттерны и соответствующими им характеристики, нужные для решения задачи.
Кроме этого, бонусом идет то, что число паттернов можно ставить
1) не очень большое (у авторов работают значения k = 64)
2) сложность вычисления на слоях кроме первого в начинает зависеть от длины входной последовательности только линейно

Для части задач у авторов получается хорошее качество, сравнимое с state-of-the-art. При этом в идеале можно из выучиваемых весов вытаскивать какие-то инсайты по решаемой задаче.
Hire-MLP: Vision MLP via Hierarchical Rearrangement

В Hire-MLP предлагается идея иерархической перегруппировки для объединения локальной и глобальной пространственной информации. Более того, чтобы обеспечить обмен информацией между различными регионами и уловить глобальный контекст, предлагается межрегиональная перестановка для кругового смещения всех эмбедингов вдоль пространственных направлений.

Hire-MLP достигает 83.4% точности на ImageNet, что превосходит предыдущие модели на основе трансформеров и MLP (SOTA).

#images #mlp
ConvMLP: Hierarchical Convolutional MLPs for Vision

Недавно было показано, что архитектуры на основе MLP, состоящие из последовательных блоков многослойных перцептронов (см тут), сравнимы с сверточными и трансформерными методами. Однако большинство этих пространственных MLP принимают фиксированные размерные входные данные, поэтому их нельзя применять для решения последующих задач, таких как обнаружение объектов и семантическая сегментация. Более того, одноступенчатые конструкции еще больше ограничивают производительность в других задачах компьютерного зрения, а полностью связанные слои требуют больших вычислений.

Для решения этих проблем авторы предлагают ConvMLP: иерархический сверточный MLP для визуального распознавания, который представляет собой легкую, поэтапную, совместную конструкцию сверточных слоев и MLP. В частности, ConvMLP-S достигает 76,8% точности top-1 на ImageNet-1k с 9M параметрами и 2,4G MACs (15% и 19% от MLP-Mixer-B/16, соответственно).

Статья
Код

#MLP #CNN #segmentation #detetctiton
Sparse-MLP: A Fully-MLP Architecture with Conditional Computation

Mixture-of-Experts (MoE) с разреженными условными вычислениями - эффективная архитектура для масштабирования моделей attention на большее количество параметров.

Sparse-MLP - это по сути MLP-Mixer с разреженными слоями MoE. Подмножество dense блоков MLP-Mixer заменяется на разреженные (sparse) блоки. В каждом этом блоке применяется два этапа слоев MoE: один с экспертами MLP, смешивающими информацию внутри каналов по размеру патча изображения, другой с экспертами MLP, смешивающими информацию внутри патчей по размеру канала.

Кроме того, для снижения вычислительных затрат авторы используют слои Re-represent в каждом блоке Sparse. Эти слои предназначены для изменения масштаба представления изображений с помощью двух простых, но эффективных линейных преобразований.

На небольших задачах классификации изображений, т.е. Cifar10 и Cifar100 модель Sparse-MLP достигает лучшей производительности, чем базовые модели.

Статья

#mlp #images #conditional
Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?

В этой работе авторы исследуют, является ли основной модуль self-attention в трансформере ключом к достижению превосходных результатов в распознавании изображений. Для этого они строят сеть без внимания на основе MLP.
Для лексем двумерного изображения sMLP применяет одномерную MLP вдоль осевых направлений, а параметры разделяются между строками или столбцами. Благодаря разреженному соединению и разделению веса, модуль sMLP значительно сокращает количество параметров модели и вычислительную сложность. Успех sMLPNet говорит о том, что механизм self-attention не обязательно является серебряной пулей в компьютерном зрении.

📎 Статья
🖥 Код

#mlp #transformer
An Image Patch is a Wave: Phase-Aware Vision MLP

В отличие от сверточных нейросетей (CNN) и визуальных трансформеров (ViT), многослойные перцептрон (MLP) - это вид моделей с чрезвычайно простой архитектурой, которая складывается только из линейных слоев. Входное изображение для зрительной MLP обычно разбивается на несколько патчей.

В статье предлагается представить каждый патч в виде волновой функции с двумя частями - амплитудой и фазой. Амплитуда - это исходная характеристика, а фаза - комплексное значение, изменяющееся в зависимости от семантического содержания входных изображений.

Основываясь на волновом представлении патчей, авторы создали новую архитектуру Wave-MLP для задач зрения.

Wave-MLP превосходит современные архитектуры MLP в различных задачах зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация.

📎 Статья

#MLP #images