AI Для Всех
12K subscribers
1K photos
119 videos
10 files
1.26K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers (Шмидтхубер)

В последнее время было предложено множество наборов данных для проверки способности нейронных сетей к систематическому обобщению. Базовые трансформеры, обычно обучаемые с гиперпараметрами по умолчанию на основе стандартных задач, с обобщением не справляются.

В статье демонстрируется, что, пересмотрев такие базовые конфигурации модели, как масштабирование embeddings, early stopping, relative positional embeddings и универсальные варианты трансформеров, мы можем значительно улучшить обобщающую способность трансформеров.

Авторские модели повышают точность с 50% до 85% в наборе PCFG и с 35% до 81% в наборе COGS. Важно отметить, что различия в производительности между этими моделями, как правило, незаметны на срезе данных IID. Это говорит о том, что для разработки нейронных сетей, которые обобщают систематически, необходимо использовать соответствующие валидационные наборы для обобщения.

Статья
Код
Видео

#training #transformer
Learning to Prompt for Vision-Language Models

Устали от настройки prompts для моделей языка зрения, таких как CLIP?

Почему бы не использовать CoOp для изучения prompts! Он эффективен с точки зрения данных и обобщаем в конкретных областях😎

Основная идея CoOp заключается в моделировании контекста в подсказках с помощью непрерывных представлений и выполнении сквозного обучения на основе данных. CoOp демонстрирует способность к эффективному обучению на основе данных, а также устойчивость к изменению распределения.

Статья
Код

#prompting #transformer #multimodal #images #text #text2image
Shatter: An Efficient Transformer Encoder with Single-Headed Self-Attention and Relative Sequence Partitioning (Google language)

Популярная архитектура Transformer, основанная на self-attention, является основой больших предварительно обученных моделей, таких как BERT, которые стали устойчивой парадигмой в NLP. Несмотря на свою мощь, вычислительные ресурсы и время, необходимые для предварительного обучения таких моделей, могут оказаться непомерно большими.

В этой работе авторы представляют альтернативную архитектуру self-attention, Shatter, которая более эффективно кодирует информацию о последовательности путем мягкого разделения пространства относительных позиций и применения различных матриц значений к различным частям последовательности.

Этот механизм позволяет упростить multi-head attention в Transformer до одноголового. Shatter достигает лучшей производительности, чем BERT, при этом предварительное обучение быстрее на шаг (15% на TPU), сходится за меньшее количество шагов и обеспечивает значительную экономию памяти (>50%). Вместе взятые, Shatter может быть предварительно обучен на 8 GPU V100 за 7 дней и сравним по производительности с BERT_Base, что делает стоимость предварительного обучения гораздо более доступной.

Статья

#transformer #attention #nlp
PermuteFormer: Efficient Relative Position Encoding for Long Sequences

Performer, расширяет Transformer до более длинных последовательностей с линейным механизмом внимания. Однако он не совместим с кодированием относительной позиции, которое имеет преимущества перед кодированием абсолютной позиции.

В этой статье обсуждаются возможные способы добавления кодирования относительной позиции в Performer. Предлагают PermuteFormer с кодированием относительной позиции, которая линейно масштабируется на длинных последовательностях. PermuteFormer применяет позиционно-зависимое преобразование keys и queries для кодирования позиционной информации в модуле внимания. Это преобразование продумано таким образом, чтобы конечный результат self-attention не зависел от абсолютного положения лексем.

Эксперименты показывают, что PermuteFormer равномерно улучшает производительность Performer почти без вычислительных затрат и превосходит ванильный Transformer в большинстве задач.

Статья
Код

#transformer #nlp
Panoptic Segformer

Panoptic SegFormer - общая архитектура для сквозной паноптической сегментации с использованием трансформеров. Предлагаемый метод расширяет деформируемый DETR с единым рабочим процессом предсказания масок для вещей и предметов, делая пайплайн паноптической сегментации лаконичным и эффективным. Используя за основу ResNet-50, метод достигает 50.0% PQ на тестовом сплите COCO, превосходя предыдущие современные методы на значительную величину без всяких прибамбасов.

Статья

#segmentation #transformer #images
An End-to-End Transformer Model for 3D Object Detection (Facebook AI)

Фэйсбук продолжает свой курс на метавселенные. Выпустили 3DETR (3D DEtection TRansformer) - это трансформер для 3D детекции. 3DETR достигает сравнимой или лучшей производительности, чем методы 3D детекции, такие как VoteNet. Кодер также может быть использован для других 3D-задач, таких как классификация форм.

Статя
Проект
Код

#3d #transformer #detection
Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?

В этой работе авторы исследуют, является ли основной модуль self-attention в трансформере ключом к достижению превосходных результатов в распознавании изображений. Для этого они строят сеть без внимания на основе MLP.
Для лексем двумерного изображения sMLP применяет одномерную MLP вдоль осевых направлений, а параметры разделяются между строками или столбцами. Благодаря разреженному соединению и разделению веса, модуль sMLP значительно сокращает количество параметров модели и вычислительную сложность. Успех sMLPNet говорит о том, что механизм self-attention не обязательно является серебряной пулей в компьютерном зрении.

📎 Статья
🖥 Код

#mlp #transformer
Localizing Objects with Self-Supervised Transformers and no Labels 🏷

Аннотация или labelling данных, довольно нудное и трудоёмкое занятие.

В статье предлагают простой подход к решению этой проблемы. Давайте научимся локализоваться объекты в режиме self-supervised. В качестве нейросети - используют трансформер (ViT, про который я писал тут).

Авторы сравниваются с SOTA обнаружения объектов, превосходят на 8 баллов CorLoc на PASCAL VOC 2012. Более того, показывают многообещающие результаты в задаче обнаружения объектов без наблюдения.

Статья
Код

#SSL #transformer #detection
Relative Molecule Self-Attention Transformer

Self-supervised learning обещает произвести революцию в предсказании свойств молекул - центральной задаче открытия лекарств и многих других отраслей промышленности - благодаря возможности эффективного обучения на основе скудных экспериментальных данных.

Авторы полагают, что что-бы все реально заработало нужно решить проблему с выбором правильной архитектуры, которая, по их мнению, может быть самой проблемной частью.

Авторы предлагают новый вариант self-attention, адаптированный для обработки молекул, вдохновленный слоем relative self-attention, который предполагает объединение встроенного графа и отношений расстояния между атомами. Основной вклад работы - Relative Molecule Attention Transformer (R-MAT): новая модель на основе трансформера, которая достигает современных или очень конкурентоспособных результатов в широком диапазоне задач предсказания свойств молекул.

📎Статья

#ScientifcML #chemistry #transformer #SSL
SSAST: Self-Supervised Audio Spectrogram Transformer

Вообще стараюсь не писать про статьи без кода, но тут прям круг замкнулся. Следите за руками. Сначала придумали DL для картинок, потом попробовали применять этот картиночный DL к сигналам, поняли что что-то не так. Придумали использовать его на спектрограммах (2х мерное представление звука) - заработало. Потом придумали трансформеры, что бы работать непосредственно с time-series. Класс, все работает. Но! Потом придумали трансформеры для картинок (Visual Transformers - ViT), а теперь их же используют для спектрограмм. У меня все.

📎Статья

#transformer #signal #sound #SSL
Эффективное обучение визуальных трансформеров на небольших наборах данных

Визуальные трансформеры (ViT) уже почти сравнялись по популярности со сверточными сетями (CNN). Однако, ViT требуется намного больше данных, чем CNN.

В статье анализируются различные ViT, сравнивается их устойчивость в режиме малого набора данных для обучения, и демонстрируется, что, несмотря на сопоставимую точность при обучении на ImageNet, их производительность на меньших наборах данных может значительно отличаться.

Авторы предлагают self-supervised задачу, которая может извлекать дополнительную информацию из изображений с незначительными вычислительными затратами. Эта задача побуждает ViT изучать пространственные отношения внутри изображения и делает обучение ViT гораздо более надежным в условиях нехватки обучающих данных. Задача используется совместно с supervised обучением и не зависит от конкретных архитектурных решений. Этот метод помогает улучшить конечную точность ViT.

📎 Статья
🖥 Код

#transformer #SSL #images
PolyViT: Co-training Vision Transformers on Images, Videos and Audio

Можно ли обучить один трансформер, который сможет обрабатывать множество модальностей и наборов данных, шэря при этом почти все обучаемые параметры?

Оказалось что да. Тут выкатили PolyViT - модель, обученную на изображениях, аудио и видео. Совместное обучение различным задачам на одной модальности позволяет повысить точность каждой отдельной задачи и достичь SOTA на 5 стандартных наборах данных для классификации видео и аудио. Совместное обучение PolyViT на нескольких модальностях и задачах приводит к тому, что модель становится еще более эффективной по параметрам и обучается представлениям, которые обобщаются в различных областях.

📎 Статья

#multimodal #audio #video #images #transformer
Media is too big
VIEW IN TELEGRAM
End-to-End Referring Video Object Segmentation with Multimodal Transformers

Предположим вы хотите сегментировать объекты на видео по их текстовому описанию. Эту задачу можно разбить на составляющие части: понимание текста и видео, а так же непосредственно сегментация и треккинг объектов.

В данной работе авторы предлагают простой (забавное слово) подход на основе трансформеров. Их система, названная Multimodal Tracking Transformer (MTTR), моделирует задачу как проблему предсказания последовательности. MTTR основан на том, что видео и текст могут быть эффективно и элегантно обработаны одной мультимодальной трансформерной моделью.

Оценка на стандартных бэнчмарках показала, что MTTR значительно превосходит предыдущие методы по многим показателям. В частности, MTTR демонстрирует впечатляющий прирост точности при обработке 76 кадров в секунду (то есть ее можно гонять real-time даже на хороших камерах с 60 fps).

📎 Статья
🖥 Код

#multimodal #video #transformer #text #segmentation
Language Models as Zero-Shot Planners

Большие языковые модели (LLM), такие как GPT-3 и Codex, могут планировать действия для воплощенных агентов (embodied - ну всякие там роботы и тд),
даже без дополнительного обучения.

То есть ты говоришь GPT:
- Алиса, сделай завтрак!
А она это преобразует в последовательность действий для робота:
- дойди до холодильника
- открой холодильник
- и тд

📎 Статья
🖥 Код
🦸‍♀️ Проект

#gpt #transformer #reasoning
MaskGIT: Masked Generative Image Transformer

Генеративные трансформаторы быстро завоевали популярность для синтеза реалистичных изображений.

В статье предлагается новая парадигма синтеза изображений с использованием двунаправленного декодера трансформера, который авторы называют MaskGIT. Во время обучения, MaskGIT учится предсказывать случайные спрятанные кусочки. Во время инференса модель начинает с одновременной генерации всех кусочков изображения, а затем итеративно уточняет изображение с учетом предыдущей генерации.

Эксперименты показывают, что MaskGIT значительно превосходит SOTA на ImageNet и ускоряет декодинг до 64 раз.

📎 Статья

#transformer #gan #generative #images
3 вещи которые нужно знать про Visual Transformers:

1. Residual слои ViT можно эффективно распараллелить, на точности это практически не скажется

2. Для адаптации ViT к более высокому разрешению и к другим задачам классификации достаточно файнтюнинга слоев внимания.

3. Добавление слоев предварительной обработки патчей на основе MLP улучшает self-supervised обучение по типу BERT (на основе маскировки патчей)

📝 Статья

#transformer #vit