AI Для Всех
12K subscribers
1K photos
119 videos
10 files
1.26K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
DocTR: Document Text Recognition

Оптическое распознавание символов стало простым и доступным для всех, на базе TensorFlow 2 (PyTorch в бета-версии)

Чего ожидать от этого репозитория:

* эффективные способы разбора текстовой информации (локализация и идентификация каждого слова) из ваших документов
* руководство по интеграции в вашу текущую архитектуру

GitHub

#ocr #text #nlps
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP (Tencent)

CLIP2Video - сеть для end-to-end переноса модели переобученой на изображениях и языке в видеотекстовый поиск. В частности, основываясь на пространственной семантике, улавливаемой моделью Contrastive Language-Image Pretraining (CLIP), модель включает в себя блок Temporal Difference для захвата движений в видеокадрах и блок Temporal Alignment для повторного выравнивания лексем видеоклипов и фраз и улучшения мультимодальной корреляции.

arXiv
Github

#clip #multimodal #video #nlp #text
SummerTime - Text Summarization Toolkit for Non-experts

Библиотека, помогающая пользователям выбрать подходящие инструменты обобщения на основе их конкретных задач или потребностей. Включает модели, метрики оценки и наборы данных.

SummerTime поддерживает различные модели (например, TextRank, BART, Longformer), а также обертки моделей для более сложных задач обобщения (например, JointModel для обобщения нескольких документов, BM25 retrieval для обобщения на основе запросов).

Код
Colab
Демо

#nlp #text #ScientificML
Learning to Prompt for Vision-Language Models

Устали от настройки prompts для моделей языка зрения, таких как CLIP?

Почему бы не использовать CoOp для изучения prompts! Он эффективен с точки зрения данных и обобщаем в конкретных областях😎

Основная идея CoOp заключается в моделировании контекста в подсказках с помощью непрерывных представлений и выполнении сквозного обучения на основе данных. CoOp демонстрирует способность к эффективному обучению на основе данных, а также устойчивость к изменению распределения.

Статья
Код

#prompting #transformer #multimodal #images #text #text2image
HuggingFace Datasets

🤗 Datasets - это легкая и расширяемая библиотека для удобного обмена и доступа к наборам данных и метрикам оценки для обработки естественного языка (NLP).

🤗 Datasets имеет много интересных особенностей (помимо простого обмена и доступа к наборам данных/метрикам):

* Встроенная совместимость с Numpy, Pandas, PyTorch и Tensorflow 2
* Наборы данных естественным образом освобождают пользователя от ограничений памяти RAM, все наборы данных по умолчанию отображаются на диске.
* Интеллектуальное кэширование: вам никогда не придётся ждать, пока ваши данные будут обрабатываться несколько раз
* В настоящее время 🤗 Datasets предоставляет доступ к ~1000 наборам данных и ~30 метрикам оценки и разработан для того, чтобы сообщество могло легко добавлять и делиться новыми наборами данных и метриками оценки. Вы можете просмотреть полный набор наборов данных в режиме реального времени с помощью программы просмотра 🤗 Datasets.

Датасеты
Статья
GitHub

#nlp #datasets #text
CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP

За 2021 год, мы увидели множество прорывов в области self-supervised learning (это когда человек вообще не размечал данные). Одним из таких прорывов был CLIP, который умеет соотносить между собой текст и картинки (предвестник безумного ML-арта).

У CLIP есть проблема - иногда он «срезает» углы и предсказывает что-то, на основании ложных признаков (как в истории про умную лошадь по имени Ганс, которая «умела» в математику). Эту проблему можно решить с помощью сетей Хопфилда, которые служат в качестве ассоциативной системы памяти.

Что подводит нас собственно к CLOOB (Contrastive Leave One Out Boost)- новому методу self-supervised обучения, в котором сети Хопфилда повышают эффективность обучения. CLOOB преодолевает проблему срезания «углов», характерную для CLIP с помощью замены признаков входной картинки/текста на признаки, которые извлекаются из сети Хопфилда.

🔭 Блог-пост
📎 Статья
🖥 Код

#multimodal #text #image #hopfield #SSL
Media is too big
VIEW IN TELEGRAM
End-to-End Referring Video Object Segmentation with Multimodal Transformers

Предположим вы хотите сегментировать объекты на видео по их текстовому описанию. Эту задачу можно разбить на составляющие части: понимание текста и видео, а так же непосредственно сегментация и треккинг объектов.

В данной работе авторы предлагают простой (забавное слово) подход на основе трансформеров. Их система, названная Multimodal Tracking Transformer (MTTR), моделирует задачу как проблему предсказания последовательности. MTTR основан на том, что видео и текст могут быть эффективно и элегантно обработаны одной мультимодальной трансформерной моделью.

Оценка на стандартных бэнчмарках показала, что MTTR значительно превосходит предыдущие методы по многим показателям. В частности, MTTR демонстрирует впечатляющий прирост точности при обработке 76 кадров в секунду (то есть ее можно гонять real-time даже на хороших камерах с 60 fps).

📎 Статья
🖥 Код

#multimodal #video #transformer #text #segmentation
ClipCap: CLIP Prefix for Image Captioning

Нейронки научились хорошо предсказывать описания любых картинок. Сначала изображение прогоняют через CLIP (получают эмбеддинг изображения), а затем вытаскивают соответствующее текстовое описание из языковой модели.

Основная идея статьи заключается в том, что вместе с предварительно обученной языковой моделью (GPT2) авторы получают широкое понимание как визуальных, так и текстовых данных.

Таким образом, без дополнительных аннотаций или предварительного обучения, сеть эффективно генерирует осмысленные подписи для любых изображений.

📎 Статья
💻 Colab
🖥 Код
🤗 Онлайн

#clip #images #captioning #text
Roadmap for Information Retrieval

Поиск информации (IR), задача поиска и доступа к соответствующим знаниям, вероятно, является одной из наиболее определяющих проблем информационного века. Люди используют IR каждый день, чтобы найти книги в электронной библиотеке, обувь в интернет-магазине, песни в стриминговом музыкальном сервисе и многое другое.

Нейронные модели - отличный метод для решения этой задачи, благодаря их способности глубоко понимать язык. Подобно тому, как людям, занятым на наукоемких работах, обычно приходится обращаться к знаниям в Интернете, нейронные сети должны эффективно искать более масштабные источники знаний. В последнее время исследователи добились больших успехов в повышении точности и эффективности предварительно обученных языковых моделей.

Почитать о том, что они придумали можно в блоге одной «экстремистской организации» 🤦‍♂️.

#information #text