AI Для Всех

A Generalizable Approach to Learning Optimizers (OpenAI)

Нейронные сети зачастую плохо генерализуются на проблемы реального мира. Чтобы решить эту проблему, коллектив авторов из OpenAI описывает вот такую систему: вместо того что бы обновлять параметры модели напрямую, обучается обновление гиперпараметров оптимизатора.

Такой полученный оптимизатор превосходит Adam во всех нейросетевых задачах, в том числе на модальностях, которые не рассматривались во время обучения. Авторы достигают 2-кратного ускорения на ImageNet и 2,5-кратного ускорения на задаче моделирования языка.

В чем подвох спросите вы? И почему же статья вышла в июне и мы до сих пор им не пользуемся? Подвох конечно же в вычислительных ресурсах, которых надо на несколько порядков больше что бы вся эта штука работала.

ArXiv

#training #optimizers

232 viewsArtemii, edited 08:06

AI Для Всех

Continual Backprop: Stochastic Gradient Descent with Persistent Randomness

Алгоритм Backprop (обратное распространение ошибки) для обучения в нейронных сетях использует два механизма: во-первых, стохастический градиентный спуск и, во-вторых, инициализацию с небольшими случайными весами, где последний необходим для эффективности первого. В статье рассказывается про то, что в системах непрерывного обучения Backprop показывает хорошие результаты на начальном этапе, но со временем его эффективность снижается. Стохастический градиентный спуск сам по себе недостаточен для непрерывного обучения; изначальная рандомность позволяет только качественное начальное обучение, но не непрерывное.

Для решения этой проблемы авторы предлагают алгоритм, который постоянно вводит случайные фичи наряду с градиентным спуском, используя новый процесс генерации и тестирования - непрерывный Backprop.

Continual Backprop способен непрерывно адаптироваться как в задачах обучения с учителем, так и в задачах RL.

ArXiv

#training #optimizers

223 viewsArtemii, edited 05:54

AI Для Всех

Bits and Bytes (Facebook AI)

Bitsandbytes - это легковесная обертка вокруг пользовательских функций CUDA, в частности, 8-битных оптимизаторов и функций квантования.

Основные фишки:
⚡️ 8-битные оптимизаторы: Adam, AdamW, RMSProp, LARS, LAMB (экономит 75% памяти!!!)
🙌 Стабильный слой эмбединга: Улучшенная стабильность за счет лучшей инициализации и нормализации
🌗 8-битное квантование: Квантильная, линейная и динамическая квантизация
⚡️ Быстрая оценка квантилей: В 100 раз быстрее, чем другие алгоритмы

Я ждал пока библиотека пройдёт тест временем, и очевидно, что она его прошла. Так что вперед - обновлять свои оптимизаторы.

🖥 Код
📎 Статья
📼 Видео

#training #optimizers

2.0K views17:15

About

Blog

Apps

Platform