Deep Dive 2 Deep Learning
388 subscribers
23 photos
4 videos
330 links
Канал про глубокое машинное обучение: кейсы, новости, открытия и факапы из мира нейросетей и не только
Download Telegram
🤖🤖ИИ для создания реалистичных 3D-миров
Roblox Assistant — это проект, предназначенный для создания трехмерных миров и доступная как для детей, так и для взрослых. Согласно разработчикам, этот искусственный интеллект способен обеспечить участие более 200 миллионов пользователей одновременно.
Технический директор Roblox Дэниел Стурман заявил, что скептически относится к генеративному ИИ, однако он считает Roblox Assistant интересным применением этой технологии. По его словам, инструмент может создавать базовые игровые модели поведения, например, телепортировать игроков в нужное место после прикосновения к двери. Roblox Assistant также помогает с написанием кода и отвечает на вопросы о разработке на платформе.
🤖🔥Техноблогер собрал лазеры, которые управляются взглядом
Ютубер Hacksmith сделал наплечные лазеры, которые управляются движением глаз.
Под капотом устройства находится нейронка, с распознаванием взгляда. Как отмечает разработчик, металл такой лазер не пробьет, но шарики лопает на раз-два. Вся электроника спрятана в рюкзаке, а система наведения встроена в очки.
Подробнее про данную разработку можно узнать тут
🤖😳ИИ для полного цикла разработки ПО
Стартап Cognition из США представил новую нейросеть, названную Devin. По заявлению компании, данная разработка обладает способностью автоматизировать весь процесс создания программного обеспечения на более высоком уровне автономности, возможно, даже заменяя роль инженера-программиста.
Разработчики рассказали, что нейрорешение Devin обучено рассуждать, самостоятельно планировать и реализовывать проекты в области написания ПО, принимать по мере их выполнения различные решения. Также ИИ проекта не только обучается, но и исправляет допущенные ошибки и ориентируется в контексте.
Cognition оценили Devin по SWE-Bench бенчмарку и выяснили, что он решает 13.86% всех задач без какой-либо помощи. Этот показатель превосходит другие передовые модели ИИ-помощников программистов, которые в этом тесте в среднем получают 1.96% без помощи и 4.80% с помощью человека.
Согласно пояснению Cognition, основные возможности нейросети Devin включают в себя:
1. Комплексную разработку приложений — создание и развёртывание полнофункциональных веб-приложений, добавление новых опций в проект по мере поступления отзывов от пользователей
2. Адаптацию к новым технологиям — освоение незнакомых инструментов с помощью чтения документации
3. Обучение ИИ — установка и настройка больших языковых моделей на основе инструкций из различных открытых репозиториев
4. Автономное обнаружение ошибок — выявление, исправление и отлаживание проблем в коде. В этом случае Devin выступает полноценным участником в разработке проектов
5. Умение самостоятельно решать программные задачи по веб-разработке и другим направлениям на различных биржах фриланса, включая Upwork.
🤖😎ИИ для пространственно-временной диффузии от Google Research
Lumiere — модель диффузии текста в видео, предназначенную для синтеза видеороликов, которые изображают реалистичное, разнообразное и связное движение.
Используя одно эталонное изображение, Lumiere может создавать видеоролики в нужном вам стиле, используя точно настроенные веса модели преобразования текста в изображение.
Lumiere AI работает с использованием передовой модели диффузии, известной как Space-Time U-Net или StuNet. Эта модель отличается от традиционных методов генерации видео тем, что она учитывает как пространственные, так и временные аспекты видео. Она генерирует всю длительность видео за один проход, обеспечивая более последовательное движение. Такой подход позволяет искусственному интеллекту Lumiere эффективно обрабатывать более длинные видеоролики с высоким разрешением.
Как отмечают разработчики, по сравнению с другими моделями видео с искусственным интеллектом, такими как Pika, Runway, Stability AI и ImagenVideo, Lumiere AI выделяется в нескольких аспектах. Он превосходит эти модели по величине движения, временной стабильности и общему качеству.
Однако, несмотря на свои расширенные возможности, искусственный интеллект Lumiere не лишен ограничений. Специфика данных, используемых для обучения модели, не полностью прозрачна. Кроме того, возникают трудности при создании видеороликов с несколькими кадрами или переходами между сценами, которые часто встречаются в обычных видеороликах.
Модель пока недоступна для публичного тестирования, так как еще находится на стадии разработки
💡🤖😎ИИ, который поможет составить план к обучению
Learn Anything – это ИИ-сервис, который помогает пользователям находить инструменты, необходимые им для изучения всего, что они хотят. Нейронная сеть преобразует абстрактные желания и запросы в структурированный учебный план, предоставляя статьи, руководства и видеоуроки.
Просто введя в текстовое поле то, что они хотят узнать, пользователи увидят карту со ссылками на веб-сайты с информацией, необходимой им для достижения их цели.
🤖💡🔎Локальная система метапоиска

LLocalSearch - это проект, который представляет собой систему метапоиска, использующую LLM-агентов.
Пользователь может задать вопрос, и система будет использовать цепочку ИИ-агентов для поиска ответа. Пользователь может видеть прогресс работы и окончательный ответ. При этом нетребуется никаких ключей или токенов доступа от OpenAI или Google API.

▪️Github
💡🤖Модель для генерации похожих лиц
Arc2Face - это модель основы лица с уникальной идентичностью,учитывая встраивание человека в ArcFace, способна создавать многообразные фотореалистичные изображения с высокой степенью схожести лиц, превосходящей существующие модели.
Arc2Face для управления генерацией необходимы только отличительные функции ArcFace.
Таким образом, Arc2Face предлагает надежную основу решения для множества задач, где согласованность идентификаторов имеет первостепенное значение.
📖Написать комикс со своим сюжетом теперь достаточно просто
AI Comic Factory предлагает удобный интерфейс и оптимизированные инструменты. Независимо от того, ребенок вы или взрослый, интуитивно понятный дизайн позволяет без труда создавать персонализированные комиксы.
AI Comic Factory обеспечивает простой и интуитивно понятный интерфейс, который позволяет пользователям легко создавать уникальные сюжеты и диалоги для своих комиксов.
Сервис может сгенерировать любые сюжеты и даже визуализировать сны. В общем, достатчно написать промт и вуаля - новый комикс.
😎🤖Подборка ИИ-моделей для работы с видео
MiniGPT4-Video — мультимодальная модель большого языка (LLM), разработанная специально для понимания видео. Модель способна обрабатывать как временные визуальные, так и текстовые данные, что позволяет ей понимать сложности видео. Модель превосходит существующие современные методы, регистрируя прирост на 4,22%, 1,13%, 20,82% и 13,1% по тестам MSVD, MSRVTT, TGIF и TVQA соответственно.
MA-LMM - большая мультимодальная модель с расширенной памятью для понимания контекста длинных видео. Модель позволяет использовать длинный контекст за счет существенного сокращения использования памяти графического процессора.
Chat-UniVi - унифицированная зрительно-языковая модель, способная понимать и участвовать в разговоре с использованием изображений и видео с помощью визуального представления. Модель обучается на смешанном наборе данных, содержащем как изображения, так и видео, что позволяет напрямую применять его к задачам, включающим оба носителя, без каких-либо модификаций.
CameraCtrl - модель, которая обеспечивает точное управление положением камеры, что позволяет точно контролировать ракурсы и движения камеры при генерации видео.
Video-LLaVA - демонстрирует замечательные возможности интерактивного взаимодействия между изображениями и видео, несмотря на отсутствие пар изображение-видео в наборе данных.
😎🤖Огромный список репизиториев open-source LLM-моделей и не только
На гитхабе появился весьма внушительных размеров список с открытыми репозиториями различных LLM-моделей и не только: от разработки ML-пайплайнов до обработки различных текстов .
Также имеется отдельная таблица с описанием данных репозиториев. Таблицу можно найти по этой ссылке.
🤖💡Преобразование плоской картинки в 3D-модель
DUSt3R — новый подход геометрического конструирования 3D на основе 2D (Dense and Unconstrained Stereo 3D Reconstruction).
DUSt3R не требует калибровки камеры или данных о точке обзора
Ключевые возможности DUSt3R:
1. Работа с произвольными коллекциями изображений
2. Интеграция монокулярных и бинокулярных методов реконструкции с помощью регрессии точечных карт
3. Выравнивание многоракурсные карты точек в общую систему координат
4. Использование кодеров/декодеров с предварительно обученными моделями
🤖💡Инструмент для решения множества задач извлечения и унификации информации
Mirror - это модель, которая решает задачи извлечения и унификации информации из текстов.
Предварительно обученная модель Mirror в настоящее время поддерживает задачи IE на английском языке.
Модель способна решать такие задачи, как:
1. Распознавание именованных сущностей
2. Извлечение связей между сущностями
3. Извлечение событий
4. Аспектно-ориентированный анализ настроения
5. Многопространственное извлечение (например, Discontinuous NER)
6. N-арное извлечение (например, Hyper Relation Extraction)
7. Экстрактивное машинное понимание прочитанного (MRC) и ответы на вопросы
8. Классификация и MRC с несколькими вариантами ответов
🤖Анонс альфа-версии библиотеки torch tune от Pytorch
torchtune - это библиотека, созданная на базе PyTorch для файнтюнинга LLM.
Даный фреймворк сочетает в себе функции файнтюнинга, которые можно использовать, экономя память. По словам разработчиков, они будут легко интегрироваться в любые инструменты. Доступный функционал библиотеки:
1. Загрузка и подготовка наборов данных и контрольных точек модели
2. Настройка обучения с помощью композитных строительных блоков, поддерживающих различные архитектуры моделей, методы эффективной тонкой настройки параметров (PEFT) и многое другое
3. Ведение журнала прогресса и метрик для получения информации о процессе обучения
4. Оценка точно настроенной модели на популярных бенчмарках
5. Запуск локальных выводов для тестирования настроенных моделей
6. Совместимость контрольной точки с популярными производственными системами вывода
С деталями анонса можно ознакомится по данной ссылке.
🤖🔎Модель LLM Reka Core от стартапа Reka
Стартап Reka, основанный бывшими разработчиками DeepMind, представил свою последнюю разработку в области искусственного интеллекта — мультимодальную языковую модель (LLM) под названием Reka Core. Данная нейросеть способна обрабатывать текст, изображения, аудио и видео, чем выделяется среди других технологий в своем классе.
Reka Core обладает впечатляющим контекстным окном на 128 000 токенов и поддерживает обработку данных на 32 языках, что делает её одной из самых мощных и универсальных систем на рынке. Как отмечают разработчики, эта функциональность открывает новые возможности для разработчиков и исследователей в области ИИ, позволяя модели эффективно справляться с задачами обработки больших объемов разнообразных данных.
В ряде мультимодальных оценок Reka Core продемонстрировала результаты, превосходящие показатели таких известных моделей, как Claude 3 Opus и Gemini Ultra. Особенно заметно это стало в области обработки видеоконтента, где Reka Core вышла на первое место, превзойдя Gemini Ultra. Кроме того, модель показала конкурентоспособные результаты с GPT-4 в задачах по пониманию изображений, что свидетельствует о высоком качестве и универсальности разработки.
🤖💡Стартап, способный перевернуть медицину
Медицина переворачивается благодаря нейросети OpenCRISPR - она может изменять ДНК человека как детали LEGO.
OpenCRISPR-1 - это созданный ИИ генный редактор, состоящий из Cas9-подобного белка и направляющей РНК, полностью разработанный с помощью больших языковых моделей (LLM) компании Profluent. Белок OpenCRISPR-1 сохраняет прототипическую архитектуру нуклеазы Cas9 типа II, но на сотни мутаций отличается от SpCas9 или любого другого известного природного CRISPR-ассоциированного белка.
Таким образом, OpenCRISPR-1 можно использовать в деактивированном или никейном формате для редактирования генов следующего поколения, таких как редактирование оснований, праймов или эпигенома.
🤖Бенчмарк для оценки безопасности AI-моделей
AI Safety - некоммерческий проект MLCommons, занимающийся созданием и поддержкой бенчмарков, широко используемых в ИИ-индустрии
AI Safety v0.5 находится на стадии proof-of-concept и позволяет оценивать большие языковые модели (LLM), стоящие за современными чат-ботами, анализируя ответы на запросы из «опасных категорий». Необходимость в появлении такого инструмента давно назрела, поскольку технологию оказалось довольно легко использовать в неблаговидных и даже опасных целях. Например, можно применять для подготовки фишинговых атак и совершения других киберпреступлений, а также для распространения дезинформации и разжигания ненависти.
Бенчмарк включает более 43 тыс. промтов. Методика позволяет классифицировать угрозы, конвертируя ответы в понятные даже непрофессионалам характеристики, вроде «высокий риск», «умеренно-высокий риск» и т.д. При этом разработчики заявляют, что LLM чрезвычайно трудно оценивать по ряду причин.
😱🤖LLM управляют компьютером
Open Interface - это инструмент, который позволяет управлять любым компьютером через LLM.
Сервис может выполнять такие функции, как:
1. Самостоятельно управлять компьютерами, посылая пользовательские запросы в бэкэнд LLM (GPT-4V и т.д.) для определения необходимых действий.
2. Автоматически выполнять действия, имитируя ввод с клавиатуры и мыши.
3. При необходимости корректировать курс, отправляя LLM текущий скриншот компьютера.
Более подробное руководство по установке представлено для MacOS, Linux и Windows по этой ссылке.
🤖💡Подход для коррекции языковых моделей
Галлюцинация — это большая тень, нависшая над быстро развивающимися мультимодальными моделями (MLLM), относящаяся к явлению, заключающемуся в том, что сгенерированный текст несовместим с содержимым изображения.
Большие языковые модели могут вызывать галлюцинации и генерировать ложную информацию, что приводит к потенциальной дезинформации и путанице.
Woodpecker - новый метод для борьбы с галлюцинациями в современных исследованиях, который не требует переобучения модели
Woodpecker состоит из пяти этапов: извлечение ключевой концепции, формулировка вопросов, проверка визуальных знаний, формирование визуальных утверждений и коррекция галлюцинаций. Woodpecker может легко обслуживать различные MLLM, при этом его можно интерпретировать, получая доступ к промежуточным результатам пяти этапов.
🤖📸Камера-поэт
Разработчики Келин Кэролин Чжан и Райан Мэзер представили стартап в виде ИИ-фотоаппарата Poetry Camera — устройством с открытым исходным кодом, которое создаёт стихотворения, соответствующие концепциям снимков.
Энтузиасты начали разрабатывать проект, когда получили доступ к GPT-3. В основе устройства лежит Raspberry Pi, а камера захватывает изображения и взаимодействует с GPT-4 для создания стихов.
Raspberry Pi использует алгоритмы компьютерного зрения для анализа визуальных данных. Затем модели ИИ интерпретируют изображение, определяя ключевые элементы, цвета, узоры и эмоции в кадре. Эта информация служит основой для процесса создания стихов. Poetry Camera печатает их на бумаге, которая напоминает чековую📃.
Изобретатели говорят, что вывод камеры не ограничивается одним форматом. Поскольку исходный код устройства открыт, пользователи могут выбирать из различных поэтических форм, таких как хайку, сонет и другие, в зависимости от своих предпочтений.
🤖😎Создание пользовательских LLM - да легко
Ludwig — Python-фреймворк для создания пользовательских LLM и нейронных сетей
Он позволяет легко создавать пользовательские модели: декларативный YAML-конфиг — все, что вам нужно, чтобы обучить современную LLM на ваших данных. Поддержка многозадачного и мультимодального обучения. Комплексная проверка конфигурации позволяет обнаружить недопустимые комбинации параметров и предотвратить сбои во время выполнения.
Ludwig оптимизирован для масштабирования и эффективности: автоматический выбор размера партии, распределенное обучение (DDP, DeepSpeed), эффективная тонкая настройка параметров (PEFT), 4-битное квантование (QLoRA), страничные и 8-битные оптимизаторы, наборы данных больше, чем память. Также он даёт полный контроль над своими моделями вплоть до функций активации. Поддержка оптимизации гиперпараметров, интерпретируемость и богатые возможности визуализации. Разработан для продакшена: готовые Docker-контейнеры, встроенная поддержка запуска с Ray на Kubernetes, экспорт моделей в Torchscript и Triton, загрузка в HuggingFace одной командой.