AI Для Всех
12K subscribers
1K photos
119 videos
10 files
1.27K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP

За 2021 год, мы увидели множество прорывов в области self-supervised learning (это когда человек вообще не размечал данные). Одним из таких прорывов был CLIP, который умеет соотносить между собой текст и картинки (предвестник безумного ML-арта).

У CLIP есть проблема - иногда он «срезает» углы и предсказывает что-то, на основании ложных признаков (как в истории про умную лошадь по имени Ганс, которая «умела» в математику). Эту проблему можно решить с помощью сетей Хопфилда, которые служат в качестве ассоциативной системы памяти.

Что подводит нас собственно к CLOOB (Contrastive Leave One Out Boost)- новому методу self-supervised обучения, в котором сети Хопфилда повышают эффективность обучения. CLOOB преодолевает проблему срезания «углов», характерную для CLIP с помощью замены признаков входной картинки/текста на признаки, которые извлекаются из сети Хопфилда.

🔭 Блог-пост
📎 Статья
🖥 Код

#multimodal #text #image #hopfield #SSL
This media is not supported in your browser
VIEW IN TELEGRAM
Я тут делаю курс по машинному обучению для науки. Поделитесь в комментариях, какие на ваш взгляд самые бомбические применения ML в науке? Желательно те, которые существуют уже, но можно и те, которые в разработке.
This media is not supported in your browser
VIEW IN TELEGRAM
ByteTrack 👀

Многообъектное отслеживание (MOT) работает путём определения границ и идентификации объектов в видео. Большинство методов определяют один и тот же ли это объект на разных кадрах путем объединения блоков обнаружения, чьи оценки превышают пороговое значение. Объекты с низкой оценкой обнаружения, например, перекрытые объекты, просто отбрасываются, что приводит к пропуску истинных объектов и фрагментации траекторий.

В статье, авторы объясняют, что так делать не надо, а надо брать объекты с вообще всеми оценками, а потом их перевешивать.

📎 Статья
🖥 Код
🤩 Онлайн-демо

P.S.: демка работает только с фото, но на гитхабе код норм для видео.

#video #tracking #demo
This is Heloween

На просторах твиттера откопал колабчик, который позволяет преобразовать любое лицо во что угодно с помощью текста (CLIP). Самое то для следующих выходных 🎃

💻 Colab

#gan #text2image #CLIP
🤯 wav2CLIP

Новый метод обучения аудиопредставлений путем дистилляции из контрастивного предварительного обучения языку и изображению (CLIP).

Авторы оценивают Wav2CLIP на различных аудиозадачах, включая классификацию, поиск и генерацию, и показывают, что Wav2CLIP превосходит общедоступные алгоритмы предварительного обучения audio representation.

Wav2CLIP проецирует аудио в общее пространство эмбедингов с изображениями и текстом, что позволяет использовать его в мультимодальных задачах, таких как классификация zero-shot и кросс-модальный поиск. Более того, Wav2CLIP требуется всего ~10% от данных необходимых для supervised learning.

📎 Статья
🖥 Код

#clip #audio #video #multimodal
This media is not supported in your browser
VIEW IN TELEGRAM
Квантовые симуляции NFT

Кибер-панк подъехал откуда не ждали. Умельцы додумались продавать квантовые симуляции как NFT. Надо видимо волны от землетрясений тоже в NFT заминтить. Ну а чего?

Показывают тут
SciCap: Generating Captions for Scientific Figures

Исследователи используют рисунки (figures) для передачи богатой, сложной информации в научных статьях. Подписи к этим рисункам имеют решающее значение для эффективной передачи информации. Однако в научных статьях часто встречаются низкокачественные подписи к рисункам, что может снизить уровень их понимания.

Что бы начать с этой проблемой справляться нейронными методами, выпустили SCICAP - крупномасштабный набор данных с подписями к рисункам. В основном используют рисунки из статей arXiv по информатике, опубликованных в период с 2010 по 2020 год. SCICAP содержит более двух миллионов рисунков, извлеченных из более чем 290 000 статей.

Боюсь что подписи все равно генерировать будет сложно без текста статьи, но что-то мультимодальное наверное в ближайшее время справится и с такой задачей.

📎 Статья
🗂 Данные

#ScientificML #captioning #datasets
Вышел большой обзор про ML в науке

В этом обзорном докладе обсуждаются приложения и методы быстрого машинного обучения (БМО) в науке - концепцию интеграции мощных методов БМО в цикл обработки экспериментальных данных в реальном времени для ускорения научных открытий.
Обзор охватывает три основных направления: приложения быстрого ML в ряде научных областей; методы обучения и реализации производительных и ресурсоэффективных алгоритмов ML; вычислительные архитектуры, платформы и технологии для развертывания этих алгоритмов.

Этот обзор призван продемонстрировать множество примеров и вдохновить на научные открытия с помощью ML.

📎 Статья

#ScientificML #physics
This media is not supported in your browser
VIEW IN TELEGRAM
Unidentified Video Objects

UVO - это новый бенчмарк для сегментации объектов в видео с открытым миром, не зависящей от класса. Помимо смещения фокуса проблемы в сторону открытого мира, UVO значительно больше (примерно в 8 раз больше видео по сравнению с DAVIS, и в 7 раз больше по сравнению с YouTube-VOS и YouTube-VIS).

UVO также является более сложным бенчмарком, поскольку включает в себя множество видео с переполненными сценами и сложными фоновыми движениями. Некоторые основные моменты датасета включают:

Качественные, плотно аннотированные маски сэмлов.

Открытый мир: аннотирование всех объектов в каждом видео, в среднем 13,5 объектов на видео

Разнообразные категории объектов: 57% объектов не охватываются категориями COCO

📎 Статья
🗂 Датасет

#segmentation #datasets #video
Forwarded from Sberloga (Alexander C)
🚀 @SBERLOGA онлайн доклад по биоинформатике :
👨‍🔬 Александр Ташкеев (University of Liege, Animal Genomics Lab) "Базовые аспекты производства и моделирования данных РНК-секвенирования одиночных клеток"
⌚️ Пятница 29 октября, 18.00 по Москве

Поговорим про РНК-секвенирование одиночных клеток на примере коммерческого протокола 10x Genomics, самого распространенного на сегодняшний день.
Сначала рассмотрим экспериментальную часть в объеме, нужном для статистического моделирования таких данных и понимания возможных артефактов.
Потом обсудим разные подходы к моделированию - более и менее knowledge-driven, их возможные плюсы и минусы.

Ссылка на зум будет доступна через тг чат https://t.me/sberlogabio ближе к началу
AI4Mars

Мы с вами можем помочь обучить алгоритм искусственного интеллекта распознавать научные особенности на снимках, сделанных марсоходом NASA Perseverance.

ИИ обладает огромным потенциалом для помощи в изучения Вселенной космическими аппаратами. В связи с чем, предлагается размечать снимки на которых есть интересные особенности (например камне, почву и тп).

Проект, получивший название AI4Mars, является продолжением прошлогоднего проекта, в котором использовались снимки, полученные марсоходом NASA Curiosity.

Поразмечать марсианские пейзажи можно тут.

#ScientificML #datasets #training
This media is not supported in your browser
VIEW IN TELEGRAM
Braxlines

Braxlines - это серия минималистичных реализаций для формулировок задач RL, выходящих за рамки простой максимизации вознаграждения. Он построен на основе JAX физического симулятора Brax, предназначенного для использования на GPU и прочих ускорителях. Brax эффективен как для одноядерного обучения, так и для массивно-параллельного моделирования.

Обучение политикам с помощью Braxlines занимает менее нескольких минут. Brax работает со скоростью миллионы физических шагов в секунду на TPU (доступно в колабе)

💻 Код и Colab
📎 Статья

#RL
Ученые - Норм!

На канале «Русские норм!» вышел первый эпизод спецпроекта «Ученые — норм!». Это серия выпусков про людей, которые двигают науку, да и все человечество, вперед.
Первый выпуск — про лингвистику. Многие считают, что лингвистика — это наука, которую сложно приложить к реальной жизни, но это вовсе не так.
Ученые из «Яндекса» Иван Ямщиков и Андрей Малинин учат нейросети генерировать тексты и строят модели, которые могут оценить границы собственных знаний и сказать, что чего-то не понимают. Нейролингвист Ольга Драгой исследует нарушения речи у детей и помогает хирургам проводить операции на мозге. А доцент Школы лингвистики ВШЭ Борис Орехов изучает поэтическую речь. Они рассказали нам о том, насколько разной бывает лингвистика, о своем пути в науку, о главных качествах ученого и о том, почему вообще наука — это интересно. Помимо науки, наши герои увлекаются искусством и спортом, они взбираются на горные вершины, катаются на мотоциклах, снимают кино, пишут подкасты и коллекционируют аналоговые фотоаппараты.

#ScientificML #linguistics
This media is not supported in your browser
VIEW IN TELEGRAM
👾Space Invaders in Jupyter

Обучение моделек - это долго и нудно!

Лучше, пока модель учится, поиграйте в соревновательную игру "Космические захватчики" прямо в своём блокноте.

Проверьте, сможете ли вы попасть на вершину лидерборда (хотя тут у ребят и девчат обучающих огроменные модели явно есть преимущество).

Как поставить
This media is not supported in your browser
VIEW IN TELEGRAM
Drawdata ✏️

Для тех кто преподаёт. Это небольшое приложение на питоне позволяет рисовать датасеты в блокноте Jupyter (и в Colab тоже). Мне кажется эта штука может быть очень полезна при обучении алгоритмам машинного обучения.

🖥 Код

#teaching #datasets
This media is not supported in your browser
VIEW IN TELEGRAM
🦹 Лекция StyleGAN 1-2-3 Speed Dive от самого L4RZ

Вы и так знаете StyleGAN кудесника из твиттера L4RZ по косплей моделям, женщинам-кошкам (неко-тян) из моих постов и постов Denis Sexy IT и эйай ньюз (первый, второй), так что в представлении мастер не нуждается.

В эту субботу в 14-00 состоится нечто невероятное! L4RZ решил сделать 2х часовую лекцию по StyleGAN 1, 2, Ada, даже StyleGAN3

▫️GAN
- What is a GAN? Generator VS Discriminator
- Milestone works (Goodfellow, Mooch, Karras)
▫️StyleGAN 1-2-3
- Issues encountered (mode collapse, positional artifacts)
- StyleGAN 1 -> 2 -> ada -> 3
▫️Practical Aspects
- Training
- Sampling
- Visualizing
- Cool projects

🎓 Когда? 14:00 (эта суббота) 30 октября
🎬 Где? YouTube канал Трансформер
👉 регистрация на лекцию L4RZ: StyleGAN 1-2-3 Speed Dive | ссылки вышлем на почту в пт в 21:00 и в сб в 12:00

p.s.: Саша Грей приглашает тебя на лекцию и найти ее самому по текстовому описанию в пространстве гана L4RZ
🔮колаб StyleGAN2/3+CLIP
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing (Microsoft)

Self-supervised learning (SSL) уже достигло больших успехов в распознавании речи. При этом в для других задач обработки речи были предприняты лишь ограниченные попытки. Поскольку речевой сигнал содержит многогранную информацию, включая личность диктора, паралингвистику, содержание речи и т.д., обучение универсальным представлениям для всех речевых задач является сложной задачей.

В этой статье авторы предлагают новую модель WavLM для решения речевых задач полного стека. WavLM построена на основе архитектуры HuBERT с акцентом на моделирование речевого контента и сохранение идентичности диктора.

📎 Статья
🖥 Код

#SSL #signals #speech #audio
Теперь вместо FAANG, можно говорить MANGA. The geeks will inherit the Earth, indeed

Источник
AugMax: Adversarial Composition of Random Augmentations for Robust Training

Аугментация (дополнение) данных - это простой и эффективный способ улучшения генерализации глубоких нейронных сетей.

Авторы предлагают схему аугментации данных, названную AugMax (отсылка к AugMix). AugMax сначала случайным образом выбирает несколько операторов дополнения, а затем обучается состязательной смеси выбранных операторов.

📎 Статья
🖥 Код

#augmentation #training