Deep Dive 2 Deep Learning

🤖🤖ИИ для создания реалистичных 3D-миров
Roblox Assistant — это проект, предназначенный для создания трехмерных миров и доступная как для детей, так и для взрослых. Согласно разработчикам, этот искусственный интеллект способен обеспечить участие более 200 миллионов пользователей одновременно.
Технический директор Roblox Дэниел Стурман заявил, что скептически относится к генеративному ИИ, однако он считает Roblox Assistant интересным применением этой технологии. По его словам, инструмент может создавать базовые игровые модели поведения, например, телепортировать игроков в нужное место после прикосновения к двери. Roblox Assistant также помогает с написанием кода и отвечает на вопросы о разработке на платформе.

Roblox

Assistant | Documentation - Roblox Creator Hub

How to use the Assistant to help you build, grow, and monetize your creations.

159 views15:58

Deep Dive 2 Deep Learning

🤖🔥Техноблогер собрал лазеры, которые управляются взглядом
Ютубер Hacksmith сделал наплечные лазеры, которые управляются движением глаз.
Под капотом устройства находится нейронка, с распознаванием взгляда. Как отмечает разработчик, металл такой лазер не пробьет, но шарики лопает на раз-два. Вся электроника спрятана в рюкзаке, а система наведения встроена в очки.
Подробнее про данную разработку можно узнать тут

YouTube

We Built Real Life Superman Tech! (HEAT VISION!)

Huge thanks to OnePlus for sponsoring this video! Visit this link: https://gleam.io/HP48b/oneplus-x-hacksmith-industries-giveaway and enter the giveaway for your chance to win one of 50 OnePlus Buds Z2 or one of 25 OnePlus Phones.
#superman #lasereyes #heatvision…

135 views15:59

Deep Dive 2 Deep Learning

🤖😳ИИ для полного цикла разработки ПО
Стартап Cognition из США представил новую нейросеть, названную Devin. По заявлению компании, данная разработка обладает способностью автоматизировать весь процесс создания программного обеспечения на более высоком уровне автономности, возможно, даже заменяя роль инженера-программиста.
Разработчики рассказали, что нейрорешение Devin обучено рассуждать, самостоятельно планировать и реализовывать проекты в области написания ПО, принимать по мере их выполнения различные решения. Также ИИ проекта не только обучается, но и исправляет допущенные ошибки и ориентируется в контексте.
Cognition оценили Devin по SWE-Bench бенчмарку и выяснили, что он решает 13.86% всех задач без какой-либо помощи. Этот показатель превосходит другие передовые модели ИИ-помощников программистов, которые в этом тесте в среднем получают 1.96% без помощи и 4.80% с помощью человека.
Согласно пояснению Cognition, основные возможности нейросети Devin включают в себя:
1. Комплексную разработку приложений — создание и развёртывание полнофункциональных веб-приложений, добавление новых опций в проект по мере поступления отзывов от пользователей
2. Адаптацию к новым технологиям — освоение незнакомых инструментов с помощью чтения документации
3. Обучение ИИ — установка и настройка больших языковых моделей на основе инструкций из различных открытых репозиториев
4. Автономное обнаружение ошибок — выявление, исправление и отлаживание проблем в коде. В этом случае Devin выступает полноценным участником в разработке проектов
5. Умение самостоятельно решать программные задачи по веб-разработке и другим направлениям на различных биржах фриланса, включая Upwork.

136 views15:59

Deep Dive 2 Deep Learning

🤖😎ИИ для пространственно-временной диффузии от Google Research
Lumiere — модель диффузии текста в видео, предназначенную для синтеза видеороликов, которые изображают реалистичное, разнообразное и связное движение.
Используя одно эталонное изображение, Lumiere может создавать видеоролики в нужном вам стиле, используя точно настроенные веса модели преобразования текста в изображение.
Lumiere AI работает с использованием передовой модели диффузии, известной как Space-Time U-Net или StuNet. Эта модель отличается от традиционных методов генерации видео тем, что она учитывает как пространственные, так и временные аспекты видео. Она генерирует всю длительность видео за один проход, обеспечивая более последовательное движение. Такой подход позволяет искусственному интеллекту Lumiere эффективно обрабатывать более длинные видеоролики с высоким разрешением.
Как отмечают разработчики, по сравнению с другими моделями видео с искусственным интеллектом, такими как Pika, Runway, Stability AI и ImagenVideo, Lumiere AI выделяется в нескольких аспектах. Он превосходит эти модели по величине движения, временной стабильности и общему качеству.
Однако, несмотря на свои расширенные возможности, искусственный интеллект Lumiere не лишен ограничений. Специфика данных, используемых для обучения модели, не полностью прозрачна. Кроме того, возникают трудности при создании видеороликов с несколькими кадрами или переходами между сценами, которые часто встречаются в обычных видеороликах.
Модель пока недоступна для публичного тестирования, так как еще находится на стадии разработки

Lumiere - Google Research

Space-Time Text-to-Video diffusion model by Google Research.

152 views15:59

Deep Dive 2 Deep Learning

💡🤖😎ИИ, который поможет составить план к обучению
Learn Anything – это ИИ-сервис, который помогает пользователям находить инструменты, необходимые им для изучения всего, что они хотят. Нейронная сеть преобразует абстрактные желания и запросы в структурированный учебный план, предоставляя статьи, руководства и видеоуроки.
Просто введя в текстовое поле то, что они хотят узнать, пользователи увидят карту со ссылками на веб-сайты с информацией, необходимой им для достижения их цели.

146 views15:59

Deep Dive 2 Deep Learning

🤖💡🔎Локальная система метапоиска

LLocalSearch - это проект, который представляет собой систему метапоиска, использующую LLM-агентов.
Пользователь может задать вопрос, и система будет использовать цепочку ИИ-агентов для поиска ответа. Пользователь может видеть прогресс работы и окончательный ответ. При этом нетребуется никаких ключей или токенов доступа от OpenAI или Google API.

▪️Github

GitHub

GitHub - nilsherzig/LLocalSearch: LLocalSearch is a completely locally running search aggregator using LLM Agents. The user can…

LLocalSearch is a completely locally running search aggregator using LLM Agents. The user can ask a question and the system will use a chain of LLMs to find the answer. The user can see the progres...

148 views15:59

Deep Dive 2 Deep Learning

💡🤖Модель для генерации похожих лиц
Arc2Face - это модель основы лица с уникальной идентичностью,учитывая встраивание человека в ArcFace, способна создавать многообразные фотореалистичные изображения с высокой степенью схожести лиц, превосходящей существующие модели.
Arc2Face для управления генерацией необходимы только отличительные функции ArcFace.
Таким образом, Arc2Face предлагает надежную основу решения для множества задач, где согласованность идентификаторов имеет первостепенное значение.

GitHub

GitHub - foivospar/Arc2Face: Arc2Face: A Foundation Model of Human Faces

Arc2Face: A Foundation Model of Human Faces. Contribute to foivospar/Arc2Face development by creating an account on GitHub.

127 views15:59

Deep Dive 2 Deep Learning

📖Написать комикс со своим сюжетом теперь достаточно просто
AI Comic Factory предлагает удобный интерфейс и оптимизированные инструменты. Независимо от того, ребенок вы или взрослый, интуитивно понятный дизайн позволяет без труда создавать персонализированные комиксы.
AI Comic Factory обеспечивает простой и интуитивно понятный интерфейс, который позволяет пользователям легко создавать уникальные сюжеты и диалоги для своих комиксов.
Сервис может сгенерировать любые сюжеты и даже визуализировать сны. В общем, достатчно написать промт и вуаля - новый комикс.

Aicomicfactory

AI Comic Factory - Бесплатный онлайн генератор комиксов на базе ИИ

AI Comic Factory является онлайн-платформой для генерации комиксов с помощью ИИ, которая позволяет вам создавать собственные комиксы с помощью ИИ.

112 views15:59

Deep Dive 2 Deep Learning

😎🤖Подборка ИИ-моделей для работы с видео
MiniGPT4-Video — мультимодальная модель большого языка (LLM), разработанная специально для понимания видео. Модель способна обрабатывать как временные визуальные, так и текстовые данные, что позволяет ей понимать сложности видео. Модель превосходит существующие современные методы, регистрируя прирост на 4,22%, 1,13%, 20,82% и 13,1% по тестам MSVD, MSRVTT, TGIF и TVQA соответственно.
MA-LMM - большая мультимодальная модель с расширенной памятью для понимания контекста длинных видео. Модель позволяет использовать длинный контекст за счет существенного сокращения использования памяти графического процессора.
Chat-UniVi - унифицированная зрительно-языковая модель, способная понимать и участвовать в разговоре с использованием изображений и видео с помощью визуального представления. Модель обучается на смешанном наборе данных, содержащем как изображения, так и видео, что позволяет напрямую применять его к задачам, включающим оба носителя, без каких-либо модификаций.
CameraCtrl - модель, которая обеспечивает точное управление положением камеры, что позволяет точно контролировать ракурсы и движения камеры при генерации видео.
Video-LLaVA - демонстрирует замечательные возможности интерактивного взаимодействия между изображениями и видео, несмотря на отсутствие пар изображение-видео в наборе данных.

GitHub

GitHub - camenduru/MiniGPT4-video-jupyter

Contribute to camenduru/MiniGPT4-video-jupyter development by creating an account on GitHub.

127 views15:59

Deep Dive 2 Deep Learning

😎🤖Огромный список репизиториев open-source LLM-моделей и не только
На гитхабе появился весьма внушительных размеров список с открытыми репозиториями различных LLM-моделей и не только: от разработки ML-пайплайнов до обработки различных текстов .
Также имеется отдельная таблица с описанием данных репозиториев. Таблицу можно найти по этой ссылке.

GitHub

chiphuyen's list / Cool LLM repos

GitHub is where people build software. More than 100 million people use GitHub to discover, fork, and contribute to over 420 million projects.

142 views15:59

Deep Dive 2 Deep Learning

🤖💡Преобразование плоской картинки в 3D-модель
DUSt3R — новый подход геометрического конструирования 3D на основе 2D (Dense and Unconstrained Stereo 3D Reconstruction).
DUSt3R не требует калибровки камеры или данных о точке обзора
Ключевые возможности DUSt3R:
1. Работа с произвольными коллекциями изображений
2. Интеграция монокулярных и бинокулярных методов реконструкции с помощью регрессии точечных карт
3. Выравнивание многоракурсные карты точек в общую систему координат
4. Использование кодеров/декодеров с предварительно обученными моделями

GitHub

GitHub - naver/dust3r: DUSt3R: Geometric 3D Vision Made Easy

DUSt3R: Geometric 3D Vision Made Easy. Contribute to naver/dust3r development by creating an account on GitHub.

115 views15:59

Deep Dive 2 Deep Learning

🤖💡Инструмент для решения множества задач извлечения и унификации информации
Mirror - это модель, которая решает задачи извлечения и унификации информации из текстов.
Предварительно обученная модель Mirror в настоящее время поддерживает задачи IE на английском языке.
Модель способна решать такие задачи, как:
1. Распознавание именованных сущностей
2. Извлечение связей между сущностями
3. Извлечение событий
4. Аспектно-ориентированный анализ настроения
5. Многопространственное извлечение (например, Discontinuous NER)
6. N-арное извлечение (например, Hyper Relation Extraction)
7. Экстрактивное машинное понимание прочитанного (MRC) и ответы на вопросы
8. Классификация и MRC с несколькими вариантами ответов

GitHub

GitHub - Spico197/Mirror: 🪞A powerful toolkit for almost all the Information Extraction tasks.

🪞A powerful toolkit for almost all the Information Extraction tasks. - Spico197/Mirror

117 views15:59

Deep Dive 2 Deep Learning

🤖Анонс альфа-версии библиотеки torch tune от Pytorch
torchtune - это библиотека, созданная на базе PyTorch для файнтюнинга LLM.
Даный фреймворк сочетает в себе функции файнтюнинга, которые можно использовать, экономя память. По словам разработчиков, они будут легко интегрироваться в любые инструменты. Доступный функционал библиотеки:
1. Загрузка и подготовка наборов данных и контрольных точек модели
2. Настройка обучения с помощью композитных строительных блоков, поддерживающих различные архитектуры моделей, методы эффективной тонкой настройки параметров (PEFT) и многое другое
3. Ведение журнала прогресса и метрик для получения информации о процессе обучения
4. Оценка точно настроенной модели на популярных бенчмарках
5. Запуск локальных выводов для тестирования настроенных моделей
6. Совместимость контрольной точки с популярными производственными системами вывода
С деталями анонса можно ознакомится по данной ссылке.

GitHub

GitHub - pytorch/torchtune: A Native-PyTorch Library for LLM Fine-tuning

A Native-PyTorch Library for LLM Fine-tuning. Contribute to pytorch/torchtune development by creating an account on GitHub.

117 views15:59

Deep Dive 2 Deep Learning

🤖🔎Модель LLM Reka Core от стартапа Reka
Стартап Reka, основанный бывшими разработчиками DeepMind, представил свою последнюю разработку в области искусственного интеллекта — мультимодальную языковую модель (LLM) под названием Reka Core. Данная нейросеть способна обрабатывать текст, изображения, аудио и видео, чем выделяется среди других технологий в своем классе.
Reka Core обладает впечатляющим контекстным окном на 128 000 токенов и поддерживает обработку данных на 32 языках, что делает её одной из самых мощных и универсальных систем на рынке. Как отмечают разработчики, эта функциональность открывает новые возможности для разработчиков и исследователей в области ИИ, позволяя модели эффективно справляться с задачами обработки больших объемов разнообразных данных.
В ряде мультимодальных оценок Reka Core продемонстрировала результаты, превосходящие показатели таких известных моделей, как Claude 3 Opus и Gemini Ultra. Особенно заметно это стало в области обработки видеоконтента, где Reka Core вышла на первое место, превзойдя Gemini Ultra. Кроме того, модель показала конкурентоспособные результаты с GPT-4 в задачах по пониманию изображений, что свидетельствует о высоком качестве и универсальности разработки.

176 views15:59

Deep Dive 2 Deep Learning

🤖💡Стартап, способный перевернуть медицину
Медицина переворачивается благодаря нейросети OpenCRISPR - она может изменять ДНК человека как детали LEGO.
OpenCRISPR-1 - это созданный ИИ генный редактор, состоящий из Cas9-подобного белка и направляющей РНК, полностью разработанный с помощью больших языковых моделей (LLM) компании Profluent. Белок OpenCRISPR-1 сохраняет прототипическую архитектуру нуклеазы Cas9 типа II, но на сотни мутаций отличается от SpCas9 или любого другого известного природного CRISPR-ассоциированного белка.
Таким образом, OpenCRISPR-1 можно использовать в деактивированном или никейном формате для редактирования генов следующего поколения, таких как редактирование оснований, праймов или эпигенома.

GitHub

GitHub - Profluent-AI/OpenCRISPR: AI-generated gene editing systems

AI-generated gene editing systems. Contribute to Profluent-AI/OpenCRISPR development by creating an account on GitHub.

99 views15:58

Deep Dive 2 Deep Learning

🤖Бенчмарк для оценки безопасности AI-моделей
AI Safety - некоммерческий проект MLCommons, занимающийся созданием и поддержкой бенчмарков, широко используемых в ИИ-индустрии
AI Safety v0.5 находится на стадии proof-of-concept и позволяет оценивать большие языковые модели (LLM), стоящие за современными чат-ботами, анализируя ответы на запросы из «опасных категорий». Необходимость в появлении такого инструмента давно назрела, поскольку технологию оказалось довольно легко использовать в неблаговидных и даже опасных целях. Например, можно применять для подготовки фишинговых атак и совершения других киберпреступлений, а также для распространения дезинформации и разжигания ненависти.
Бенчмарк включает более 43 тыс. промтов. Методика позволяет классифицировать угрозы, конвертируя ответы в понятные даже непрофессионалам характеристики, вроде «высокий риск», «умеренно-высокий риск» и т.д. При этом разработчики заявляют, что LLM чрезвычайно трудно оценивать по ряду причин.

MLCommons

AI Safety - MLCommons

AI Safety Working Group Meeting Schedule Join Related Blogs and News AI Safety Working Group Projects MLCommons AI Safety MLCommons AI Safety Benchmarks

101 views15:58

Deep Dive 2 Deep Learning

😱🤖LLM управляют компьютером
Open Interface - это инструмент, который позволяет управлять любым компьютером через LLM.
Сервис может выполнять такие функции, как:
1. Самостоятельно управлять компьютерами, посылая пользовательские запросы в бэкэнд LLM (GPT-4V и т.д.) для определения необходимых действий.
2. Автоматически выполнять действия, имитируя ввод с клавиатуры и мыши.
3. При необходимости корректировать курс, отправляя LLM текущий скриншот компьютера.
Более подробное руководство по установке представлено для MacOS, Linux и Windows по этой ссылке.

GitHub

GitHub - AmberSahdev/Open-Interface: Control Any Computer Using LLMs

Control Any Computer Using LLMs. Contribute to AmberSahdev/Open-Interface development by creating an account on GitHub.

97 views15:58

Deep Dive 2 Deep Learning

🤖💡Подход для коррекции языковых моделей
Галлюцинация — это большая тень, нависшая над быстро развивающимися мультимодальными моделями (MLLM), относящаяся к явлению, заключающемуся в том, что сгенерированный текст несовместим с содержимым изображения.
Большие языковые модели могут вызывать галлюцинации и генерировать ложную информацию, что приводит к потенциальной дезинформации и путанице.
Woodpecker - новый метод для борьбы с галлюцинациями в современных исследованиях, который не требует переобучения модели
Woodpecker состоит из пяти этапов: извлечение ключевой концепции, формулировка вопросов, проверка визуальных знаний, формирование визуальных утверждений и коррекция галлюцинаций. Woodpecker может легко обслуживать различные MLLM, при этом его можно интерпретировать, получая доступ к промежуточным результатам пяти этапов.

GitHub

GitHub - BradyFU/Woodpecker: ✨✨Woodpecker: Hallucination Correction for Multimodal Large Language Models. The first work to correct…

✨✨Woodpecker: Hallucination Correction for Multimodal Large Language Models. The first work to correct hallucinations in MLLMs. - BradyFU/Woodpecker

86 views15:59

Deep Dive 2 Deep Learning

🤖📸Камера-поэт
Разработчики Келин Кэролин Чжан и Райан Мэзер представили стартап в виде ИИ-фотоаппарата Poetry Camera — устройством с открытым исходным кодом, которое создаёт стихотворения, соответствующие концепциям снимков.
Энтузиасты начали разрабатывать проект, когда получили доступ к GPT-3. В основе устройства лежит Raspberry Pi, а камера захватывает изображения и взаимодействует с GPT-4 для создания стихов.
Raspberry Pi использует алгоритмы компьютерного зрения для анализа визуальных данных. Затем модели ИИ интерпретируют изображение, определяя ключевые элементы, цвета, узоры и эмоции в кадре. Эта информация служит основой для процесса создания стихов. Poetry Camera печатает их на бумаге, которая напоминает чековую📃.
Изобретатели говорят, что вывод камеры не ограничивается одним форматом. Поскольку исходный код устройства открыт, пользователи могут выбирать из различных поэтических форм, таких как хайку, сонет и другие, в зависимости от своих предпочтений.

poetry.camera

poetry camera

a camera that prints poems of what it sees

49 views15:59

Deep Dive 2 Deep Learning

🤖😎Создание пользовательских LLM - да легко
Ludwig — Python-фреймворк для создания пользовательских LLM и нейронных сетей
Он позволяет легко создавать пользовательские модели: декларативный YAML-конфиг — все, что вам нужно, чтобы обучить современную LLM на ваших данных. Поддержка многозадачного и мультимодального обучения. Комплексная проверка конфигурации позволяет обнаружить недопустимые комбинации параметров и предотвратить сбои во время выполнения.
Ludwig оптимизирован для масштабирования и эффективности: автоматический выбор размера партии, распределенное обучение (DDP, DeepSpeed), эффективная тонкая настройка параметров (PEFT), 4-битное квантование (QLoRA), страничные и 8-битные оптимизаторы, наборы данных больше, чем память. Также он даёт полный контроль над своими моделями вплоть до функций активации. Поддержка оптимизации гиперпараметров, интерпретируемость и богатые возможности визуализации. Разработан для продакшена: готовые Docker-контейнеры, встроенная поддержка запуска с Ray на Kubernetes, экспорт моделей в Torchscript и Triton, загрузка в HuggingFace одной командой.

GitHub

GitHub - ludwig-ai/ludwig: Low-code framework for building custom LLMs, neural networks, and other AI models

Low-code framework for building custom LLMs, neural networks, and other AI models - ludwig-ai/ludwig

42 views15:59

About

Blog

Apps

Platform