AI Для Всех

The AI Economist: Optimal Economic Policy Design via Two-level Deep Reinforcement Learning

ArXiv
Работа расширяющая Фреймворк

#ScientificML #RL #economics

97 viewsArtemii, edited 10:34

AI Для Всех

Тэги доступные в канале на данный момент:
#alphafold2, #astronomy, #audio, #augmentation, #automl, #bayes, #biology, #botany, #captioning, #categorical, #chemistry, #classification, #clip, #cnn, #code, #community, #competition, #compression, #conference, #contrastivelearning, #course, #datasets, #debugging, #demo, #depth, #detection, #diffusion, #dilation, #dimensionality, #distillation, #earthscience, #economics, #explainability, #gan, #generative, #geometric, #gnn, #gpt, #gpu, #graph, #hardware, #holdontoyoirpapers, #image2text, #images, #inference, #joke, #julia, #jupyterlab, #jupyterlite, #labeling, #latex, #lnl, #medicine, #metrics, #mlp, #money, #multimodal, #nas, #news, #nlp, #noise, #novelviews, #optimizer, #outliers, #physics, #presentation, #python, #resnet, #resources, #rl, #rnn, #rocauc, #science, #scientificml, #segmentation, #SSL, #XAI, #separation, #sequences, #signal, #social, #sound, #speech, #styletransfer, #superresolution, #tabular, #text2image, #theory, #torrent, #training, #transformer, #translate, #tutorial, #twominutespapers, #video, #visualization, #waveforms, #гумунитарии, #дьяконов, #книги, #отборочные

154 viewsArtemii, edited 15:57

AI Для Всех

DECORE: Deep Compression with Reinforcement Learning

Многие глубокие нейронные сети имеют от миллионов до миллиардов параметров, что делает их непригодными для реальных приложений с ограничениями памяти или работы с низкой задержкой. Поэтому для широкого распространения глубокого обучения необходимо использовать мощные методы сжатия сетей (включая квантизация и тд). Авторы представляют DECORE, подход к обучению с подкреплением для автоматизации процесса сжатия сети. Используя простой метод градиентной политики для изучения того, какие нейроны или каналы следует оставить или удалить.

В отличие от других методов, DECORE прост и быстр в обучении, требуя всего несколько часов обучения на 1 GPU. При применении к стандартным сетевым архитектурам на различных наборах данных наш подход достигает сжатия от 11x до 103x на различных архитектурах, сохраняя при этом точность, аналогичную точности исходных больших сетей.

arXiv

#compression #inference #RL

192 viewsArtemii, edited 20:54

AI Для Всех

Лекции по RL от DeepMind

Преподаваемая исследователями DeepMind, эта серия была создана в сотрудничестве с Университетским колледжем Лондона (UCL), чтобы предложить студентам всестороннее введение в современное обучение с подкреплением.

Сайт

#RL

242 viewsArtemii, edited 08:30

AI Для Всех

This media is not supported in your browser

VIEW IN TELEGRAM

WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement Learning on a GPU

WarpDrive - это гибкая, легкая и простая в использовании система обучения с подкреплением (RL) с открытым исходным кодом, которая реализует многоагентный RL на одном GPU.

Используя возможности экстремального распараллеливания графических процессоров, WarpDrive позволяет на порядки ускорить RL по сравнению с симуляцией на CPU + реализацией моделей на GPU. Он чрезвычайно эффективен, поскольку позволяет избежать копирования данных "туда-сюда" между CPU и GPU, а также параллельно выполнять моделирование для нескольких агентов и нескольких копий среды. В совокупности это позволяет пользователю запускать тысячи параллельных мультиагентных симуляций и тренироваться на очень больших батчах, достигая более чем 100-кратной пропускной способности по сравнению с аналогами на базе CPU.

GitHub

#RL #resources

259 viewsArtemii, edited 06:43

AI Для Всех

Physics-based Deep Learning

Этот документ содержит практическое и исчерпывающее введение во все, что связано с глубоким обучением в контексте физического моделирования. По мере возможности все темы сопровождаются практическими примерами кода в виде блокнотов Jupyter для быстрого начала работы. Помимо стандартного обучения на данных, рассматривают ограничения на физические потери, дифференцируемые симуляции, а ещё обучение с подкреплением и моделирование неопределенности.

Мы живем в захватывающие времена: эти методы обладают огромным потенциалом, чтобы фундаментально изменить то, чего могут достичь компьютерные симуляции!

Книга
Сайт

#books #physics #ScientificML #RL

731 viewsArtemii, 06:42

AI Для Всех

This media is not supported in your browser

VIEW IN TELEGRAM

Braxlines

Braxlines - это серия минималистичных реализаций для формулировок задач RL, выходящих за рамки простой максимизации вознаграждения. Он построен на основе JAX физического симулятора Brax, предназначенного для использования на GPU и прочих ускорителях. Brax эффективен как для одноядерного обучения, так и для массивно-параллельного моделирования.

Обучение политикам с помощью Braxlines занимает менее нескольких минут. Brax работает со скоростью миллионы физических шагов в секунду на TPU (доступно в колабе)

💻 Код и Colab
📎 Статья

#RL

1.2K viewsedited 10:09

AI Для Всех

Команда исследователей из DeepMind нашла применение для RL в ядерном синтезе. Ядерный синтез с использованием магнитного удержания является многообещающим путем к достижению устойчивой энергии. Основной проблемой является формирование и поддержание высокотемпературной плазмы внутри сосуда токамака. Для удержания плазмы необходим нечеловеческий уровень управления катушками магнитных приводов.

В новой работе представили метод для проектирования магнитного контроллера токамака, который автономно обучается управлять полным набором катушек. DeepMind успешно демонстрируют контроль за разнообразными конфигурации плазмы.

Предложенный подход демонстрирует потенциал обучения с подкреплением для ускорения исследований в области термоядерного синтеза.

Астрологи явно обьявили 2022 год годом RL. Казалось бы, на фоне успехов в глубоком обучении, на обучение с подкреплением (RL) начали забивать даже OpenAI, которые с него начали свой звёздный путь. Но видимо это было затишье перед бурей.

📎 Статья

#ScientificML #RL

4.7K viewsedited 05:49

About

Blog

Apps

Platform