Deep Dive 2 Deep Learning

сравнение GAN-сетей

45 views04:04

🔥Практический Reinforcement learning с TF-агентами и сервисами Vertex AI
Обучение с подкреплением (RL, Reinforcement learning) - это форма машинного обучения, при которой агент предпринимает действия в среде, чтобы увеличить заданную цель (вознаграждение) за эту последовательность шагов. RL может примениться в робототехнике, автономных транспортных средствах и пр. Фундаментальная RL-система включает в себя множество состояний, соответствующих действий и вознаграждений за эти действия. Например, в рекомендательной системе фильмов онлайн-кинотеатра «состояние» - это пользователь, «действие» - это фильм, который нужно ему порекомендовать, а «награда» - это рейтинг фильма – выставленная пользователем оценка. В частности, RL как платформа для оптимизации ML-моделей применяется музыкальным сервисом Spotify.
В обучении с подкреплением агент выполняет последовательность действий в данной среде в соответствии с некоторой политикой с целью максимизировать данное вознаграждение за эту последовательность действий. TF-Agents - это мощная и гибкая библиотека, позволяющая легко разрабатывать, внедрять и тестировать RL-приложения. Он предоставляет вам полный набор логических модулей, которые поддерживают легкую настройку следующих ключевых понятий RL:
• Политика - отображение наблюдения за окружающей средой на действие или распределение действий. Это артефакт, полученный в результате обучения, и эквивалент «модели» в системе контролируемого обучения.
• Действие – действие или поведение, которое выводится какой-либо политикой, выбирается и выполняется агентом.
• Агент – объект, который инкапсулирует алгоритм использования одной или нескольких политик для выбора и выполнения действий и обучает политику.
• Наблюдения - характеристика состояния окружающей среды.
• Окружающая среда - определение проблемы RL, которую необходимо решить. На каждом временном шаге среда генерирует наблюдение, несет эффект действия агента, а затем, учитывая предпринятые действия и наблюдение, среда отвечает вознаграждением в качестве обратной связи.
Типичный процесс создания, оценки и развертывания RL-приложений выглядит следующим образом:
• Обозначьте проблему: например, классификация цифр: наблюдения - это изображения цифр, действия - прогнозы от 0 до 9, а награды указывают, соответствуют ли прогнозы цифрам истинности.
• Разработка и реализация экспериментов с моделированием RL.
• Оцените эффективность автономных экспериментов.
• Запустите непрерывный ML-конвейер, заменив составляющие моделирования реальными взаимодействиями.
Смотрите пошаговую демонстрацию, как создать систему рекомендаций с использованием TF-агентов и сервисов Vertex AI, включая настройки гиперпараметров, прогнозирования и развертывания конечных точек.
https://cloud.google.com/blog/topics/developers-practitioners/build-reinforcement-learning-recommendation-application-using-vertex-ai

Google Cloud Blog

Build a reinforcement learning recommendation application using Vertex AI | Google Cloud Blog

44 viewsedited 06:05