AI Для Всех
12.1K subscribers
1.01K photos
120 videos
10 files
1.29K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
Efficient Visual Pretraining with Contrastive Detection

Self-supervised learning обещает использовать огромные объемы данных, но существующие методы - медленные и дорогостоящие.

Звездный коллектив авторов из DeepMind представляет контрастное обнаружение (contrastive detection)- новый таргет, который позволяет получать полезные представления для многих задач, используя в 10 раз меньше вычислений.

Контрастное обнаружение усиливает полезный сигнал от каждого изображения, разрезая его на части и обучаясь на каждой из них одновременно. Этот подход особенно хорошо работает при переносе на сложные задачи, такие как обнаружение, сегментация и оценка глубины.

Статья

#SSL #ContrastiveLearning #detection #images
Online Hard Example Mining

Некоторые наборы данных для обнаружения объектов содержат подавляющее число легких примеров и небольшое число трудных примеров. Автоматический отбор этих трудных примеров может сделать обучение более эффективным и результативным. OHEM, или Online Hard Example Mining, - это метод бутстраппинга, который модифицирует SGD для неравномерной выборки сэмплов в зависимости от текущего лосса каждого рассматриваемого сэмпла.

arXiv
GitHub

#basics #detection #segmentation
Large-Scale Unsupervised Object Discovery

Существующие подходы к обнаружению объектов без наблюдения (UOD) не масштабируются на большие наборы данных без аппроксимаций, которые снижают их производительность. Авторы предлагают новую формулировку UOD как задачи ранжирования, которая поддается арсеналу распределенных методов, доступных для решения проблем собственных значений и анализа связей. Обширные эксперименты с COCO и OpenImages показывают, что, когда на каждом изображении ищется один заметный объект, предлагаемый подход LOD (Large-scale Object Discovery) сравним с или превосходит SOTA средних наборов данных (до 120 тыс. изображений), и более чем на 37% превосходит единственные другие алгоритмы, способные масштабироваться до 1,7 млн. изображений. В условиях многообъектного обнаружения, когда на каждом изображении ищется несколько объектов, предлагаемый LOD более чем на 14% превосходит по средней точности (AP) все другие методы.

arXiv

#detection #SSL #images
MDETR: Modulated Detection for End-to-End Multi-Modal Understanding

Если по простому - даёте любую фотографию или картинку, пишете текстом что вы хотите на ней найти (например розовый слоник в балетной пачке) и сеть выдаёт координаты этого объекта. Попробуйте сами на Spaces

Если по умному - этот репозиторий содержит код и ссылки на предобученные модели для MDETR (Modulated DETR) для претренинга на данных, содержащих выровненный текст и изображения с аннотациями, а также для файнтюнинга на задачах, требующих тонкого понимания изображения и текста.

Сайт
GitHub
Colab
ArXiv
Демо на Spaces

#multimodal #demo #nlp #images #detection
2D Animal Keypoint Dataset

Содержит датасеты:
* Animal pose 🦔
* Horse-10 🐎
* Macaque Pose 🐒
* Vinegar Fly 🪰
* Desert locust 🏜
* Grevy’s Zebra 🦓
* ATRW 🐅

Доступно через MMPose тут

#datasets #ScientificML #pose #detection #biology
A Novel Dataset for Keypoint Detection of quadruped Animals from Images

Этот набор данных содержит значительно больше ключевых точек на одно животное и имеет гораздо большее разнообразие животных, чем существующие датасеты для обнаружения ключевых точек животных.

Статья
Датасет

#datasets #ScientificML #pose #detection #biology
Common Objects in 3D (Facebook AI)

Common Objects in 3D - это крупномасштабный набор данных с реальными многоракурсными изображениями категорий объектов, аннотированными позами камер и наземными облаками точек 3D. Набор данных содержит в общей сложности 1,5 миллиона кадров из почти 19 000 видео, на которых запечатлены объекты из 50 категорий MS-COCO, и поэтому он значительно превосходит альтернативные варианты как по количеству категорий, так и объектов.

Датасет
Блог-пост
Статья

#datasets #3d #images #detection
An End-to-End Transformer Model for 3D Object Detection (Facebook AI)

Фэйсбук продолжает свой курс на метавселенные. Выпустили 3DETR (3D DEtection TRansformer) - это трансформер для 3D детекции. 3DETR достигает сравнимой или лучшей производительности, чем методы 3D детекции, такие как VoteNet. Кодер также может быть использован для других 3D-задач, таких как классификация форм.

Статя
Проект
Код

#3d #transformer #detection
Localizing Objects with Self-Supervised Transformers and no Labels 🏷

Аннотация или labelling данных, довольно нудное и трудоёмкое занятие.

В статье предлагают простой подход к решению этой проблемы. Давайте научимся локализоваться объекты в режиме self-supervised. В качестве нейросети - используют трансформер (ViT, про который я писал тут).

Авторы сравниваются с SOTA обнаружения объектов, превосходят на 8 баллов CorLoc на PASCAL VOC 2012. Более того, показывают многообещающие результаты в задаче обнаружения объектов без наблюдения.

Статья
Код

#SSL #transformer #detection