Deep Dive 2 Deep Learning

💰Слишком дорого: главное ограничение DL-моделей
Модели глубокого обучения чрезмерно параметризованы, то есть у них больше параметров, чем точек данных, доступных для обучения. В классическом ML это приводит к переобучению, когда модель не может адекватно работать с данными, на которых была обучена. Глубокое обучение позволяет избежать этого, случайным образом инициализируя параметры, а затем итеративно корректируя их наборы для лучшего соответствия данным, используя стохастический градиентный спуск. Это обеспечивает хорошее обобщение изученной модели и огромную гибкость. Обратной стороной этих достоинств является огромные вычислительные, и, соответственно, финансовые затраты.
Во-первых, как и для всех статистических моделей, чтобы повысить производительность в k раз, необходимо использовать как минимум k2 дополнительных точек данных для обучения. А чрезмерная параметризация увеличивает вычислительные затраты до k4. Это уже становится дорого: например, 10-кратное улучшение требует, по крайней мере, 10 000-кратного увеличения вычислений. А для достижения 5-процентного коэффициента ошибок потребуется 1019 миллиардов операций с плавающей запятой.
Ученые из MIT подсчитали экономические затраты и выбросы углерода, связанные с такой вычислительной нагрузкой: обучение DL-модели обойдется в 100 миллиардов долларов и приведет к таким же выбросам углерода, равнозначным с ежемесячным выбросом такого мегаполиса, как Нью-Йорк. А если нужна большая точность, например, в 1% ошибок, результаты будут намного хуже.
Когда дочка Google, компания DeepMind обучила свою DL-систему игре в го, это обошлось в 35 миллионов долларов. Когда исследователи DeepMind разрабатывали решение для видеоигры StarCraft II, они целенаправленно не пробовали несколько способов создания DL-архитектуры, потому что стоимость обучения была бы слишком высокой. Языковая DL-модель GPT-3 от OpenAI стоила более 4 миллионов долларов. При этом в развертывании системы допущена ошибка, которая не исправлена из-за слишком высокой стоимости обучения.
Пока расходы на DL превышают ожидаемую экономическую ценность, бизнес не стремится внедрять глубокое обучение. В частности, поэтому один из крупных европейских ритейлеров отказался от DL-системы прогнозирования продаж. Поэтому научное сообщество активно ищет способы снизить затраты на Deep Learning.
Одна из стратегий - использовать процессоры, специально разработанные для DL-вычислений: графические процессоры вместо ЦП и специализированные модули обработки тензорного кода, а также аналоговые, нейроморфные, оптические или квантовые аппаратные системы.
Другой подход - создание нейросетей, которые при реализации становятся меньше. Это снижает стоимость использования, но увеличивает стоимость обучения. Для большинства моделей эксплуатационные расходы – это самая большая часть общей суммы инвестиций. А для моделей, которые часто требуют переобучения, затраты на обучение, наоборот, доминируют. Впрочем, уменьшение масштабов недостаточно сокращает затраты. Поэтому разрабатывается метод мета-обучения, когда система обучается на различных данных, а затем может применяться во многих областях. Например, вместо того, чтобы создавать отдельные системы для распознавания собак, кошек и автомобилей на изображениях, одна система может быть обучена на всех из них и использоваться несколько раз.
Однако, ученые из MIT доказали, что мета-обучение тоже является сложным и дорогим. Даже небольшие различия между исходными и реальными данными, могут серьезно ухудшить производительность. Например, современные системы распознавания изображений сильно зависят от угла зрения на фотографируемый объект и его позы. Поэтому простая задача распознавания одних и тех же объектов в разных позах снижает точность системы почти вдвое. И даже с новыми наборами данных, специально созданными для имитации исходного обучающего датасета, производительность DL-модели падает более чем на 10%. Таким образом, если небольшие изменения в данных вызывают значительное падение производительности, итоговые расходы для комплексной системы мета-обучения могут оказаться огромными.

46 views08:30