AI Для Всех
12.1K subscribers
1.01K photos
120 videos
10 files
1.28K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale

XLS-R - модель для обучения межъязыковым репрезентациям устной речи, основанная на wav2vec 2.0. Авторы из MetaAI (Facebook) обучили модель с
2B параметров на почти полумиллионе часов общедоступных аудиозаписей речи на 128 языках.

По аналогии с задачей моделирования языка по маске в BERT, XLS-R обучается контекстуализированным представлениям речи путем случайной маскировки векторов признаков перед передачей их в self-supervised transformer (т.е. диаграмма слева внизу).

XLS-R демонстрирует впечатляющие улучшения по сравнению с предыдущими SOTA в распознавании речи, переводе речи и идентификации диктора/языка.

📎 Статья
🔭 Блог-пост
🖥 Код
🤗 Демо

#SSL #sound #audio #speech
DABS - The Domain Agnostic Benchmark for Self-Supervised Learning.

Можно ли использовать self-supervised обучение (SSL) с любыми данными? DABS - это бенчмарк методов SSL в семи различных областях, включая рентгеновские снимки грудной клетки, носимые датчики и мультиязычный текст.

Модели обучаются на не размеченном наборе данных в каждой области, а затем оценивают на последующих задачах в той же области.

Методы SSL, которые хорошо работают на DABS, могут быть особенно полезны для научных, медицинских, мультимодальных и других реальных задач, где не хватает меток или их дорого собирать.

📎 Статья
🖥 Код
📈 Бенчмарк
🌎 Красивый сайт

#SSL #ScientificML
Эффективное обучение визуальных трансформеров на небольших наборах данных

Визуальные трансформеры (ViT) уже почти сравнялись по популярности со сверточными сетями (CNN). Однако, ViT требуется намного больше данных, чем CNN.

В статье анализируются различные ViT, сравнивается их устойчивость в режиме малого набора данных для обучения, и демонстрируется, что, несмотря на сопоставимую точность при обучении на ImageNet, их производительность на меньших наборах данных может значительно отличаться.

Авторы предлагают self-supervised задачу, которая может извлекать дополнительную информацию из изображений с незначительными вычислительными затратами. Эта задача побуждает ViT изучать пространственные отношения внутри изображения и делает обучение ViT гораздо более надежным в условиях нехватки обучающих данных. Задача используется совместно с supervised обучением и не зависит от конкретных архитектурных решений. Этот метод помогает улучшить конечную точность ViT.

📎 Статья
🖥 Код

#transformer #SSL #images
Self-Supervised Contrastive Pre-Training For Time Series via Time-Frequency Consistency

Предварительное обучение на временных рядах (например график температуры, цена акций и тп) представляет собой сложную проблему из-за потенциального несоответствия между тренировочными и тестовыми данными (например сдвиги во временной динамике, циклические эффекты и тп).

По сравнению с другими модальностями, во временных рядах мы ожидаем, что временные и частотные представления одного и того же примера расположены близко друг к другу во временно-частотном пространстве. Это значит что мы можем посчитать эмбеддинг сигнала во временном домене и его же эмбединг в частотном. Если наша сеть обучена правильно, то эти эмбединги (их косинусное расстояние) будут располагаться близко друг другу.

📖 Статья
🤖 Код

#signalprocessing #SSL
What Do We Maximize in Self-Supervised Learning?

Вышла статья за авторством в том числе Лекуна, в которой рассуждают о том что такое self-supervised learning (#SSL) и почему оно работает.

В статье рассматриваются методы SSL обучения, в частности VICReg. Делают следующее:
1. Демонстрируют, как SSL можно сделать для детерминированной сети, предлагая возможную альтернативу предыдущим работам, которые полагаются на стохастические модели.

2. Это позволяет авторам нам продемонстрировать, как VICReg может быть (пере)обнаружен из первых принципов и его предположений о распределении данных.

3. Эмпирически демонстрируют обоснованность своих предположений, подтверждая понимание VICReg.

4. Постулируют что их метод может быть обобщен на многие другие методы SSL, открывая новые пути для теоретического и практического понимания SSL и transfer learning.

Другое дело, что пусть сначала продемонстрируют, а там и поговорим :)

Статья

(1) Изображение сгенерировано проектом Simulacra

(
2) За наводку спасибо @j_links
Awesome self-supervised learning

С увеличением количества немаркированных данных в Интернете, появляется множество преимуществ в разработке методов, которые позволяют нам использовать немаркированные данные. Self-supervised learning (#SSL) - один из таких методов.

Нашёл хороший репозиторий, в котором собраны статьи, блоги и доклады по SSL.
Object Discovery and representatIon Networks (ODIN)

Self-supervised learning (все ещё не придумали хороший перевод #SSL) может выдавать хорошие описания целых сцен, но не позволяет выделить отдельные объекты. Это изменилось с выходом Odin от DeepMind.

Odin - это новый метод, который одновременно обнаруживает объекты и учится их представлять без какого-либо контроля.

Odin изучает признаки на уровне объектов с помощью контрастной цели и приблизительных масок изображений. Он обнаруживает объекты путем кластеризации этих признаков и передает полученные маски обратно в цель обучения, участвуя в непрерывном цикле представления и качества сегментации.

Наконец, Odin не требует никаких предварительных знаний о структуре объектов в реальных сценах.

📖 Статья
Самообучающийся искусственный интеллект демонстрирует сходство с работой мозга

Животные - в том числе и люди - не используют наборы маркированных данных для обучения. По большей части они самостоятельно исследуют окружающую среду и при этом получают богатое и глубокое понимание мира.

Некоторые специалисты по вычислительной неврологии начали изучать нейронные сети, которые были обучены на небольшом количестве данных, помеченных человеком, или вообще без них. Эти алгоритмы self-supervised (#SSL) оказались чрезвычайно успешными для моделирования человеческого языка и, совсем недавно, распознавания образов. В последних работах вычислительные модели зрительной и слуховой систем млекопитающих, построенные с использованием моделей SSL, показали более близкое соответствие функциям мозга, чем их аналоги с контролируемым обучением.

Некоторые нейробиологи считают, что искусственные сети начинают раскрывать некоторые из реальных методов, используемых нашим мозгом для обучения.

Подробнее
This media is not supported in your browser
VIEW IN TELEGRAM
Использование искусственного интеллекта для декодирования речи из активности мозга

В Meta разработали модель ИИ, которая может декодировать речь на основе неинвазивных записей активности мозга.

На основе трех секунд мозговой активности модель может декодировать соответствующие сегменты речи с точностью до 73% от верхнего предела из словарного запаса в 793 слова, т.е. большую часть слов, которые люди обычно используют в повседневной жизни.

В качестве модели используют wav2vec2, в качестве данных ЭЭГ и МЭГ (более 150 часов записей 169 здоровых добровольцев, слушавших аудиокниги и изолированные предложения на английском и голландском языках).

Результаты исследования показывают, что self-supervised learning (#SSL) может успешно декодировать воспринимаемую речь на основе неинвазивных записей активности мозга, несмотря на шум и изменчивость, присущие этим данным.

📇 блог-пост
📖 статья
Media is too big
VIEW IN TELEGRAM
Multi-layered Mapping of Brain Tissue via Segmentation Guided Contrastive Learning

В
прошлом году в Google оцифровали 1 мм³ ткани коры головного мозга получив 3d карту высокого разрешения объемом 1,4 Пбайт. Для подробного изучения такой карты сначала нужно идентифицировать типы клеток и их синаптические связи, но разметить такое количество данных вручную невозможно (привет).

Для решение проблемы авторы предложили новую сеть SegCLR (модификация SimCLR). Она способна различать элементы меньше 10 µm с высокой точностью, тогда как эксперты уже не справляются.

Благодаря self-supervised (#SSL) подходу авторам удалось извлечь 8 млрд эмбеддингов без ручной аннотации. Далее, они были сгруппированы в кластеры и используя лишь небольшое количество размеченных данных, кластерам был присвоен лейбл. Кроме того, сеть понижает размерность данных до 64-мерных векторов, что облегчает обучение моделей для downstream задач.

Таким образом был получен размеченный датасет, который был вложен в открытый доступ.

🔬Блог
📖Статья
@karray
Self-Supervised Learning based on Heat Equation

Авторы обратили внимание на то, что карты активации классов полученные из global average pooling сверточных сетей похожи на физическое рассеивание тепла. Вдохновившись теплопередачей из физики они адаптировали уравнение теплопроводности и использовали его вместо лейблов, что позволило перевести задачу из supervised в self-supervised learning (#SSL).

На этапе обучения pretext-задачи, изображение делят на 4 патча, один из которых подается на вход модели, а остальные 3 предсказываются ей. Таким образом модель учит латентное представление.

Авторы утверждают, что их подход применим как для классификации изображений, так и для обнаружения объектов. Код обещают позже.

📖 Статья
@karray
This media is not supported in your browser
VIEW IN TELEGRAM
DINOv2: Learning Robust Visual Features without Supervision

Авторы из Meta AI решили провести ревизию и масштабировать существующие подходы self-supervised learning (#SSL) для извлечения скрытых признаков из изображений (pre-text task).

DINOv2 - комбинация идей из DINO, iBOT и SwAV. Авторы показали, что увеличивая количество параметров растёт и производительность. Их модель на 1.1B параметров обошла weakly-supervised методы в 8 из 10 бенчмарках на downstream задачах сегментации и построении карт глубины (код и веса уже доступны).

Для увеличения количества параметров моделей требуется больше данных, и SSL идеален в этом смысле, поскольку не требует наличия ручной разметки. Но эффективность обучения напрямую зависит от качества данных. Для решения этой проблемы авторы предложили новый подход сбора изображений из непроверенных источников используя курируемые наборы данных (такие, как ImageNet).

Они предложили пайплайн состоящий из нескольких техник фильтрации изображений из непроверенных источников. Например, они используют существующие SSL модели для извлечения эмбеддингов из изображений для последующей кластеризации. Используя эмбеддинги из курируемых наборов данных, они размечают кластеры и сортируют похожие изображения. Таким образом им удалось создать большой и сбалансированный набор данных высокого качества.

Статья | Код | Демо

@karray
Поваренная книга Self-supervised Learning (#SSL) от Meta.

Meta выпустили новую "Поваренную книгу самоконтролируемого обучения" - практическое руководство для исследователей и практиков ИИ о том, как сориентироваться в рецептах SSL (self-supervised learning), понять его различные “ручки и рычаги” и получить ноу-хау, необходимые для экспериментов с SSL.

Self-supervised learning (SSL), которое называют "темной материей интеллекта", является ключевым ингредиентом недавних прорывов в области ИИ.

Оно расширило границы глубокого обучения во многих областях, позволяя обучаться на огромных объемах немаркированных данных, а не полагаться на тщательно аннотированные наборы данных. Сегодня SSL лежит в основе передовых моделей для всех модальностей - язык (например, перевод и большие языковые модели), аудио (например, data2vec) и зрение (например, модель SEER, обученная на одном миллиарде изображений, и DINOv2).

Но обучение SSL похоже на приготовление изысканного блюда - это сложное искусство с высоким барьером для входа. Хотя многие ингредиенты могут быть знакомы, успешный рецепт SSL включает в себя головокружительный набор вариантов, от выбора правильных задач до обучения с тщательно подобранными и выдержанными гиперпараметрами.

Вы также найдете советы и рекомендации от более чем десятка авторов из различных университетов, включая Нью-Йоркский университет, Университет Мэриленда, Калифорнийский университет в Дэвисе, Университет Монреаля, а также ведущих исследователей Meta AI, таких как Янн ЛеКун.

📕 Книга
🐕 Анонс
Связь между self-supervised learning и теорией информации

ИИ может делать удивительные вещи, но ему обычно требуется много помеченных данных. На помощь приходит self-supervised learning (#SSL) - способ, позволяющий ИИ обучаться без меток. В новой статье Яна Лекуна и Равида Швартца авторы глубоко погружаются в мир self-supervised learning и теории информации.

При supervised learning обучении мы сохраняем полезную информацию и выкидываем все остальное. Но в случае self-supervised обучения все сложнее: как сильно мы должны сжать данные, чтобы обучение было эффективным?

Для ответа на этот вопрос необходимо найти баланс между сжатием и максимизацией информации. Авторы вводят "предположение о многоракурсности", чтобы помочь справиться с этой проблемой.

В статье рассматриваются:

* пересечение теории информации, self-supervised learning и глубоких нейронных сетей.
* Единая структура для понимания self-supervised learning
* Роль предположения о многоракурсности и его ограничения
* Современные алгоритмы self-supervised learning
* Измерение информации в нейронных сетях

📕Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
Дежа вю у моделей self-supervised learning (#SSL)

Еще одно исследование по SSL от Meta AI, где авторы исследуют проблему оверфиттинга SSL моделей, которую они называют Дежа вю. В исследование обсуждается риски связанные с тем, что SSL модели могут с высокой точностью извлекать или даже визуально реконструировать объекты из обучающей выборки только по фрагменту изображения (например, воду, небо, траву), что создает риски конфиденциальности для изображений с чувствительной информаций.

Дело в том, что для обучения SSL моделей чаще всего создают несколько представлений одного и того же изображения, используя аугментации (например, crop), где лосс минимизирует расстояние между эмбуддингами этих представлений (подробнее об SSL). Таким образом, эмбеддинг фона изображения может находиться близко к эмбеддингу интересующего нас объекта и, имея только фрагмент фона, можно идентифицировать целевой объект (в статье используют фрагмент озера в качестве фона и черного лебедя в качестве целевого объекта).

Поскольку SSL не требует никакой разметки, нет простого способа тестирования таких моделей, как например, Grad-CAM для supervised-learning. В статье авторы описывают способы идентификации оверфиттинга и предлагают набор техник для его минимизации.

📜 Сатья
🖥 Код
@karray
This media is not supported in your browser
VIEW IN TELEGRAM
Materialistic: Selecting Similar Materials in Images

MIT совместно с Adobe разработали метод сегментации похожих материалов. Этот метод хорошо работает с различными условиями освещения и тенями, и не полагается на семантическую сегментацию.

В этом подходе используется предварительно обученная self-supervised (#SSL) модель DINOv1 от Меты. Несмотря на свои впечатляющие возможности, эмбеддинги в DINO не инвариантны и поэтому не могут быть использованы для сегментации материалов. Для решения этой проблемы, авторы добавили к DINO энкодер материалов, который сопоставляет эмбеддинги из DINO с материалом и преобразует пространственно неточные представления в более точные попиксельные представления. Cross-Similarity модуль позволяет пользователю выбирать материал, который будет сцементирован по всему изображению.

📜 Статья
🌐 Примеры

@karray
Ай-ЖЕПА: умная модель AI, которая учится понимать мир как люди

Meta представили первую AI модель, основанную на ключевом компоненте видения Яна ЛеКуна. Модель I-JEPA выучивает скрытое представление окружающего мира и отличается высокой эффективностью в различных задачах компьютерного зрения.

В прошлом году главный научный сотрудник по AI в Meta, Ян ЛеКун, предложил новую архитектуру, призванную преодолеть ключевые ограничения даже самых передовых AI систем сегодня. Его видение - создать машины, которые способные понять, как работает мир. Он считает что тогда они и обучаться будут быстрее, и планировать, как выполнять сложные задачи, и легко адаптироваться к незнакомым ситуациям тоже смогут.

И вот, Meta наконец то представили первую AI модель, основанную на ключевом компоненте видения ЛеКуна. Эта модель, Image Joint Embedding Predictive Architecture (I-JEPA), учится создавать модель окружающего мира с помощью сравнения абстрактных образов (вместо сравнения просто пикселей.

I-JEPA демонстрирует потенциал self-supervised (#SSL) архитектур для представлений изображений без необходимости в дополнительном знании, закодированном через ручные преобразования изображений. Это важный шаг к применению и масштабированию self-supervised методов для изучения общей модели мира.

И пусть "Ай-ЖЕПА" в русском языке может и звучать немного забавно, Meta делает ставку на то, что AGI к нам придет от зрения (вообще кажется все компании так или иначе делают ставку на один орган осязания, например на язык как в случае с Open AI).

✌️ Блог-пост
📖 Статья
💾 Код
Deep TDA работает лучше, чем традиционные алгоритмы снижения размерности🔬🧮

Мы вступаем в новую эру анализа данных благодаря прорывному алгоритму - Deep TDA. Этот новаторский метод позволяет добывать инсайты из сложных данных. Он сочетает в себе мощь self-supervised learning (#SSL) и Топологического Анализа Данных (TDA).

Долгое время такие инструменты, как t-SNE и UMAP, были непревзойденными в области снижения размерности. Их роль в анализе сложных наборов данных неоценима, причем t-SNE, разработанный Хинтоном и ван дер Маатеном еще в 2008 году, до сих пор очень популярен.

Но ветер перемен дует! Deep TDA обещает впечатляющие возможности:

1️⃣ Он демонстрирует устойчивость к шуму и выбросам.
2️⃣ Он эффективно масштабируется для сложных, высокоразмерных наборов данных.
3️⃣ Он снимает необходимость в тщательной настройке или глубоком понимании данных.
4️⃣ Он охватывает и отображает более полную картину набора данных.

На картинке сверху сравнительное исследование всех трех техник на временном ряде (исследователи повесили акселерометр на корову, посмотрите как TDA создает кластеры для разных типов движения):

• t-SNE удерживает слишком много структуры, большая часть которой не существует.
• UMAP справился лучше, хотя структура казалась несколько размытой.
• TDA, однако, сработал великолепно, сохраняя детализированную структуру данных.

Deep TDA это еще один важный шаг к светлому будущему анализа данных!

🦾 Блог-пост
Explainable AI для self-supervised learning

Self-supervised learning (#SSL) - подход в машинном обучении, в котором модель учит представление данных (скрытую структуру, лежащую в основе данных), не требуя для этого никакой ручной разметки. Такие модели ещё называют энкодерами, потому что на выходе у них эмбеддинги.

В последнее время SSL демонстрирует впечатляющие результаты и поэтому важно понимать, что модель выучила на сама деле, перед тем как использовать её в таких критических сферах, как, например, здравоохранение.

Explainable AI (#XAI) помогает понять, как модель пришла к определенному решению. В компьютерном зрении это могут быть тепловые карты регионов изображения, которые были решающими для классификации.

Проблема в том, что классические подходы XAI из supervised learning тут не работают, так как для вычисления метрики “соответствия истине” (score function) требуются лейблы.

Например, в Grad-CAM мы можем вычислить отклонение предсказания от целевого лейбла и обратным распространением ошибки получить тепловую карту важных областей для этого класса. Подробнее об этом методе мы писали тут.

К сожалению, для SSL моделей такой подход работать не будет, так как нам не с чем сравнивать их вывод. На данный момент для SSL очень мало XAI методов и в следующих постах я бы хотел поделиться наиболее перспективными из них.

Подпишись на @nn_for_science
RELAX: Representation Learning Explainability

Aдаптация #XAI метода RISE для #SSL моделей, в котором случайным образом маскируются части изображения.

Если в RISE в качестве score function сравнивается отклонение предсказания от целевого класса замаскированных изображений, RELAX в качестве score function использует меру сходства (cosine similarity или L2 норму) между эмбеддингом, полученный из исходного изображения с эмбеддингами маскированных изображений.

Другими словами, эмбеддинг исходного изображения используется как лейбл, что позволяет определить, какие области изображения больше всего «отдаляют» эмбеддинги маскированных изображений от исходного. Суммируя все маскировочные карты, умноженные на этот коэффициент, получаем тепловую карту.

Минусы такого подхода - низкое разрешение тепловых карт, так как для маскировки всех комбинаций пикселей не хватит никаких ресурсов (для изображения 32х32 понадобится 2^1024 карт маскировки).

Кроме того, мы не можем быть уверены, что модель выучила реальное представление данных. Поэтому исходный эмбеддинг не обязательно является истинным.

📄 Статья

Подпишись на @nn_for_science