AI Для Всех
12.1K subscribers
1.01K photos
120 videos
10 files
1.28K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
PermuteFormer: Efficient Relative Position Encoding for Long Sequences

Performer, расширяет Transformer до более длинных последовательностей с линейным механизмом внимания. Однако он не совместим с кодированием относительной позиции, которое имеет преимущества перед кодированием абсолютной позиции.

В этой статье обсуждаются возможные способы добавления кодирования относительной позиции в Performer. Предлагают PermuteFormer с кодированием относительной позиции, которая линейно масштабируется на длинных последовательностях. PermuteFormer применяет позиционно-зависимое преобразование keys и queries для кодирования позиционной информации в модуле внимания. Это преобразование продумано таким образом, чтобы конечный результат self-attention не зависел от абсолютного положения лексем.

Эксперименты показывают, что PermuteFormer равномерно улучшает производительность Performer почти без вычислительных затрат и превосходит ванильный Transformer в большинстве задач.

Статья
Код

#transformer #nlp
Textless NLP: Generating expressive speech from raw audio

Facebook AI представили Generative Spoken Language Model (GSLM), первую высокопроизводительную модель NLP, которая освобождается от зависимости от текста. GSLM использует последние достижения в области representation learning, что позволяет ей работать непосредственно на основе только необработанных аудиосигналов, без каких-либо меток или текста. Это открывает дверь в новую эру безтекстовых приложений НЛП для потенциально любого языка, на котором говорят на Земле - даже тех, которые не имеют значительных наборов текстовых данных.

Модель работает примерно как BERT, но естественно со своими особенностями.

По сути, Facebook говорит - ASR устарел и работать теперь распознованием речи будет по принципу "из конца в конец", от речевого входа до речевого выхода. Они сравнивают свою систему с дошкольником, который увит язык исключительно на основе сенсорного опыта.

Блог-пост
Статья 1
Статья 2
Статья 3
Код

#audio #speech #SSL #nlp
Тут в статье A Recipe For Arbitrary Text Style Transfer with Large Language Models предложили прикольный рецепт для авто-аугментации текста в режиме Few-Shot. Берем затравку как на картинке, а дальше начинаем фантазировать. У меня получилось (курсивом на вход, жирным на выход):

1. {I need to go to the bathroom}. Here is a rewrite of the text, which is more like a geoscientist: {A huge volume of rock, called a pluton, is pushed up rapidly into the Earth's crust}.

2. {Мне нужно в туалет}. Here is
a rewrite of the text, which is more like a president:
{Мне не нужно в туалет}

3. {Give me a BigMac and some chips}. Here is a rewrite of the text, which is more like a CEO of Burger King: {Let's start a BurgerKing store in my neighborhood}

Ну вы поняли идею =) Много крутых примеров тут. А попробовать самим можно в ElutherAI GPT-J (GPT-3 для бедных) на их интеркативном демо-сайте. Делитесь в комментах что получилось!

#gpt #generative #fewshot #nlp
Efficient Nearest Neighbor Language Models

Непараметрические нейролингвистические модели (NLM) изучают прогностические распределения текста, используя внешнее хранилище данных, что позволяет им обучаться за счет явного запоминания сэмплов. Несмотря на свою эффективность, эти модели часто требуют извлечения данных из большого хранилища во время тестирования, что значительно увеличивает накладные расходы на вывод и, таким образом, ограничивает применение непараметрических NLM в практических приложениях. Авторы предлагают эффеективную версию модели. Эксперименты на стандартном бэнчмарке WikiText-103 и наборе данных для адаптации к домену показывают, что их методы методы позволяют добиться 6-кратного увеличения скорости вывода при сохранении сопоставимой производительности. Представленный авторами эмпирический анализ может послужить руководством для будущих исследований, направленных на разработку или внедрение более эффективных непараметрических NLM.

Статья
Код

#nlp #knn #inference
​​Summarizing Books with Human Feedback

#OpenAI fine-tuned #GPT3 to summarize books well enough to be human-readable. Main approach: recursively split text into parts and then meta-summarize summaries.

This is really important because once there will be a great summarization #SOTA we won't need editors to write posts for you. And researchers ultimatively will have some asisstance interpreting models' results.

BlogPost: https://openai.com/blog/summarizing-books/
ArXiV: https://arxiv.org/abs/2109.10862

#summarization #NLU #NLP
This media is not supported in your browser
VIEW IN TELEGRAM
CLIPort

Рисовать картинки с помощью CLIP и GAN было весело. А теперь у CLIP нашлось новое, асболютно бомбическое применение! Оказалось, что CLIP можно использовать для того что бы давать команды манипулятору.

В работе CLIPort (загляните на сайт, там много красивых примеров) предлагают сетку которая понимает команды данные на человеческом языке, при этом робот не ограничен каким-то заранее известным набором команд и способен “понимать” чего от него хотят!

Статья
Код

#CLIP #robots #NLP #multimodal
Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling Approach

Тут запилили модель, которая дополняет недостающий текст транслитерациями древних месопотамских манускриптов, первоначально написанных на клинописных глиняных табличках (2500 г. до н. э. - 100 г. н. э.). Из-за порчи табличек ученые часто полагаются на контекст, чтобы вручную заполнить недостающие части текста (субъективный и трудоемкий процесс).

Авторы определили, что эта задача может быть сформулирована как задача моделирования языка по маске (masked language model). Были разработаны несколько моделей, сфокусированных на аккадском языке, лингва-франка того времени. Для предварительного обучения использовали данные из других языков и различных временных периодов.

Наконец, они проводят оценку на людях, демонстрируя применимость их моделей для помощи экспертам в расшифровке текстов на вымерших языках.

#ScientificML #nlp #linguistics #history
Too long; didn’t read

Вы прочитали картинку? Большинство из вас скорее всего прочитали только нижнюю часть, и то наискосок.

TLDR9+ - масштабный набор данных для обобщения, содержащий более 9 миллионов учебных примеров, извлеченных из дискуссионного форума Reddit. Этот набор данных специально собран для выполнения экстремального обобщения (т.е. генерации резюме из одного предложения с высокой степенью сжатия и абстракции).

Скорее бы появилось что-то в открытом доступе, а то сколько можно статей то в день прочитать :)

Датасет

#datasets #nlp #summarization
Model-based analysis of brain activity reveals the hierarchy of language in 305 subjects

Интересная статья от авторов из Facebook AI и 2х Парижских университетов, про то как можно воспользоваться большими языковыми моделями для изучения корреляции между человеческой речью и активными зонами мозга. Хотя результаты у меня пока вызывают сомнение, посмотрим опубликуют ли вообще такое.

📎Статья

#ScientificML #nlp #biology
OpenAI добавила возможность получать эмбеддинги текста или кода напрямую из своего API

Эмбеддинги - это числовые представления каких-то понятий (например слов или кусочков кода), преобразованные в последовательности чисел (например [1.,…,2.]), которые облегчают компьютеру понимание отношений между этими понятиями.

Эмбеддинги полезны при работе с естественным языком и кодом, поскольку их можно легко использовать и сравнивать с другими моделями машинного обучения и алгоритмами, такими как кластеризация или поиск.

То есть получается, берём например текст -> прогоняем его через OpenAI API -> получаем эмбеддинг -> и можем его использовать с любыми моделями машинного обучения (не только с OpenAI, а то получилось бы еще одна «экосистема» по типу Apple).

Для тех, кто потихонечку вкатывается в NLP рекомендую почитать блог-пост. Там простым и понятным языком написано.

📸 Блог-пост
📎 Статья

#gpt #nlp #basics
Пока все спорят о том что такое сознание, и есть ли оно в больших языковых моделях, предлагаю сосредоточится на более научной дискуссии.

ArgSciChat - это набор данных аргументированных диалогов. Он состоит из 498 сообщений, собранных из обсуждения 20 научных статей.

Датасет может быть использован для оценки разговорных агентов и дальнейшего стимулирования исследований в области аргументированных научных агентов.

🗂 Датасет

#ScientificML #nlp #datasets