AI Для Всех
12.1K subscribers
1.02K photos
120 videos
10 files
1.29K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
MedCLIP

Позволяет осуществлять поиск по медицинским изображениям.

Поиграть можно тут 👉
Онлайн-демо

#CLIP #images #medicine #multimodal #demo
AI Шеф-повар 👨‍🍳.

Посмотрите какая крутая штука!!! Выбираете себе повара, даёте ему ингредиенты и он генерирует рецептик и даже показывает, как блюдо будет выглядеть.

🤗 Онлайн-демо (можно играться с телефона)

#generative #images #multimodal #nlp #transformer #demo
Evaluating CLIP: Towards Characterization of Broader Capabilities and Downstream Implications

В новой статье OpenAI анализирует #CLIP. CLIP снижает потребность в обучающих данных для конкретной задачи, что потенциально открывает многие нишевые задачи для автоматизации. CLIP также позволяет пользователям гибко задавать классы классификации изображений на естественном языке, что, как выяснили авторы, может изменить характер проявления баесов.

Результаты дополняют растущее число работ, призывающих изменить понятие "лучшей" модели - перейти от простого определения более высокой точности, к более широкому понятию "лучше", которое учитывает критически важные особенности инференса, такие как различные контексты использования и людей, которые взаимодействуют с моделью.

Статья

#generative #multimodal #images #nlp
The WikiScenes Dataset

Набор данных WikiScenes состоит из парных изображений и языковых описаний мировых достопримечательностей и культурных объектов, с соответствующими 3D-моделями и позами камеры. WikiScenes получен из обширного публичного каталога свободно лицензируемых краудсорсинговых данных проекта Wikimedia Commons, который содержит большое количество изображений с подписями и другими метаданными.

Описание
GitHub

#datasets #multimodal #images #nlp #3d
AI Для Всех
CLIP Guided Diffusion HQ Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации. Картинка сгенерирована по тексту: a beautiful watercolor painting of wind #text2image #generative #CLIP #diffusion
CLIP Guided Diffusion Uncond

Вновь обновился Colab с Guided Diffusion (нейросеть которая позволяет из любого текста сделать картинку). Качество изображений стало ещё лучше, теперь неплохо получаются лица.

Бежим играть - делитесь в комментах, что у вас получилось.

(Prompt с обложки поста: the rise of consciousness)

#generative #diffusion #CLIP #images #multimodal #text2image
CLIPIT PixelDraw

Возможно некоторые из вас уже видели новую сеть для генерации Pixel Art из текстового описания. И вот наконец к ней выложили Colab с которым можно поиграться самостоятельно.

#generative #CLIP #multimodal #images #text2image
MDETR: Modulated Detection for End-to-End Multi-Modal Understanding

Если по простому - даёте любую фотографию или картинку, пишете текстом что вы хотите на ней найти (например розовый слоник в балетной пачке) и сеть выдаёт координаты этого объекта. Попробуйте сами на Spaces

Если по умному - этот репозиторий содержит код и ссылки на предобученные модели для MDETR (Modulated DETR) для претренинга на данных, содержащих выровненный текст и изображения с аннотациями, а также для файнтюнинга на задачах, требующих тонкого понимания изображения и текста.

Сайт
GitHub
Colab
ArXiv
Демо на Spaces

#multimodal #demo #nlp #images #detection
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP (Tencent)

CLIP2Video - сеть для end-to-end переноса модели переобученой на изображениях и языке в видеотекстовый поиск. В частности, основываясь на пространственной семантике, улавливаемой моделью Contrastive Language-Image Pretraining (CLIP), модель включает в себя блок Temporal Difference для захвата движений в видеокадрах и блок Temporal Alignment для повторного выравнивания лексем видеоклипов и фраз и улучшения мультимодальной корреляции.

arXiv
Github

#clip #multimodal #video #nlp #text