AI Для Всех

How Can Increased Randomness in Stochastic Gradient Descent Improve Generalization?

В недавних работах сообщается, что увеличение скорости обучения или уменьшение размера минимального батча в стохастическом градиентном спуске (SGD) может улучшить производительность на тесте. Авторы утверждают, что это ожидаемо при некоторых условиях в моделях с функцией потерь с несколькими локальными минимумами. Предлагается использовать приближенный, но аналитический подход, вдохновленный методами физики, для изучения роли скорости обучения SGD и размера батча в генерализации.

Авторы характеризуют производительность на тесте при сдвиге (data shift) между распределениями обучающих и тестовых данных для функций потерь с несколькими минимумами. Сдвиг может быть вызван просто выборкой и поэтому обычно присутствует в практических приложениях.

Оказывается, что вызванное этим сдвигом смещение локальных минимумов ухудшает производительность теста.

Еще показывают, что скорость обучения, деленная на размер минимального батча, играет роль, аналогичную температуре в статистической механике, и подразумевает, что СГД, включая его стационарное распределение, в значительной степени инвариантен к изменениям скорости обучения или размера батча, которые оставляют его температуру постоянной. Авторы показывают, что повышение температуры SGD способствует выбору локальных минимумов с меньшей кривизной и может обеспечить лучшее обобщение.

arXiv

#theory #training

207 viewsArtemii, edited 16:01

AI Для Всех

How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers (Google AI)

Visual Transformers (ViT) показали, что они достигают высокой конкурентоспособности в широком спектре задач зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация. По сравнению со сверточными нейронными сетями, более слабый индуктивный баес трансформатора зрения обычно приводит к увеличению зависимости от регуляризации модели или аугментации данных ("AugReg" для краткости) при обучении на небольших наборах данных. В статье проводится систематическое эмпирическое исследование взаимосвязанности между количеством обучающих данных, AugReg, размером модели и вычислительным бюджетом.

В результате этого исследования обнаружили, что сочетание увеличения вычислительных ресурсов и AugReg может выдавать модели с такой же производительностью, что и модели, обученные на значительно большем количестве обучающих данных.

arXiv

#transformer #images #training #theory

217 viewsArtemii, edited 15:14

AI Для Всех

Максим Рябинин из Yandex Research рассказал на Хабре о новом подходе к обучению больших нейросетей — DeDLOC. Технология не требует дата-центра с сотнями мощных видеокарт — вместо этого объединяются компьютеры волонтёров.

Это совместная научная работа исследователей Яндекса, Hugging Face, студентов ШАД, ВШЭ и МФТИ, а также профессора Университета Торонто. Модель и код доступны всем — вы можете применить их для своих проектов

Habr

#training

218 viewsArtemii, edited 06:32

AI Для Всех

Train short. Test long. Attention with linear biases enables input length extrapolation. (Facebook AI)

Ещё со времён появления первых трансформеров остается открытым фундаментальный вопрос: как добиться экстраполяции на более длинные последовательности, чем те, на которых сеть обучалась?

Авторы описывают простой и эффективный метод, Attention with Linear Biases (ALiBi), который позволяет проводить такую экстраполяцию. ALiBi не добавляет позиционные эмбединги к эмбедингам слов; вместо этого it biases the query-key attention scores with a term that is proportional to their distance.

Авторы показывают, что этот метод позволяет обучить модель с 1,3 миллиардами параметров на входных последовательностях длиной 1024, которая экстраполируется на входные последовательности длиной 2048, достигая той же сложности, что и синусоидальная модель позиционных эмбедингов, обученная на входных данных длиной 2048, на 11% быстрее и используя на 11% меньше памяти. Индуктивный баес ALiBi в сторону рекуррентности позволяет ему превзойти несколько сильных позиционных методов на эталоне WikiText-103.

Статья
GitHub
Видео-разбор от Яника

#training #transformer

219 viewsArtemii, edited 07:50

AI Для Всех

Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners

Огромные предобученные языковые модели внесли значительный вклад в обработку естественного языка. Однако их эффективность зависит в основном от масштабирования параметров модели, что препятствует их применению в большинстве реальных приложений. В этом исследовании предлагается новый масштабируемый и эффективный подход, названный DifferentiAble pRompT (DART).

Основной принцип этого подхода заключается в переформулировании потенциальных задач обработки естественного языка в задачи предобучения языковой модели и дифференциальной оптимизации шаблона подсказки и целевой метки с помощью обратного распространения. Кроме того, предложенный подход может быть: (i) использован с любыми предобученными языковым моделями; (ii) расширен на задачи классификации.

Статья

#nlp #training #prompting

177 viewsArtemii, edited 16:36

About

Blog

Apps

Platform