AI Для Всех
12.1K subscribers
1.01K photos
120 videos
10 files
1.29K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
Интерактивная книга Deep Learning for Molecules and Materials.

Глубокое обучение становится стандартным инструментом в химии и материаловедении. Классический пример - соединение активности и структуры молекулы. Недавний пример - значительное ускорение квантовых расчетов до такой степени, что вы можете достичь точности уровня DFT с помощью быстрого дифференцируемого расчета. Что делает глубокое обучение особенно актуальным, так это его способность генерировать новые данные.

В Веб-книге куча интерактивных примеров с кодом для различных задач.

#ScientificML #books #chemistry #resources
MolGpka: A Web Server for Small Molecule pKa Prediction Using a Graph-Convolutional Neural Network

Точная и быстрая оценка pKa малых молекул жизненно важна в процессе поиска лекарств. Авторы представляют MolGpKa, веб-сервер для предсказания pKa с помощью граф-конволюционной нейросетевой модели.

Модель работает путем автоматического изучения химических паттернов, связанных с pKa, и построения надежных предикторов с использованием изученных характеристик.

UPDATE
В то время как как возможный пример применения статья подходит, сама по себе она сделана максимально халтурно.

Самое главное - предсказываются не сами pKa, а pKa, которые уже ПРЕДСКАЗАНЫ. Ибо экспериментальных данных мало, ага.

Валидируются они на экспериментальных датасетах, где, внезапно, показывают качество похожее на качество уже известных методов предсказания pKa (не правда ли - удивительно(( ).
При этом разбиение на train и test оставляет вопросы. Они пишут, что удалили вещества, которые есть в тесте из датасета. Но удалили ли они вещества, отличающиеся на один незначимый заместитель? Из их текста это не следует, построенные гистограммы расстояний ввеществ из экспериментального датасета до обучения неинформативны - их никак не отнормировали на тот факт, что есть огромное число веществ, которые непохожи на тест.
В итоге хвост распределения - сколько похожих - не видно. А хватит и по одному на каждое вещество из теста.

Эта работа позволяет получить дифференцируемое предсказание, казалось бы. Но на вход-то нейросеть принимает описание, которое составляется детерминированным алгоритмом, который еще и исходную структуру модифицирует пуутем удаления части фрагментов.
Потому приделать эту нейросеть в качестве дискриминатора для случая, когда вы хотите генерить вещества с заданным pKa тоже не получится.

Статья
Веб-Сервер

#ScientificML #chemistry #graphs
TorchDrug

TorchDrug - это фреймворк машинного обучения, разработанный для поиска лекарств. Включает в себя методы от графового машинного обучения (графовые нейронные сети, геометрическое глубокое обучение), глубоких генеративных моделей до обучения с подкреплением. TorchDrug предоставляет комплексный и гибкий интерфейс для поддержки быстрого создания прототипов моделей для поиска лекарств в PyTorch.

Сайт
GitHub

#ScientificML #medicine #chemistry #biology
#datasets #chemistry
Датасет с данными о растворимости порядка 10000 веществ. Можно скачать с сайта, можно посмотреть их капсулу на codeocean.
Авторы берут 8 датасетов из разных источниковв и объединяют их.
При этом в разных датасетах могут быть разные данные о растворимости одного и того же вещества.

Поэтому авторы назначают каждой записи "группу достоверности"

Предварительно из всех записей о веществе оставляем только те, вв которых величина растворимости отличаются больше чем на 0.01 (таким образом, по-видимому, убираются дупликаты кочующие между базам)

Далее назначаем группу достоверности

G1 - информация о веществе встретилась один раз
G2 - если информация о веществе встретилась два раза, и разница между измерениями существенна
G3 - если информация о веществе встретилась два раза, и разница не существенна
G4 - если информация о веществе встретилась больше двух раз, и разница существенна
G5 - если информация о веществе встретилась больше двух раз, и разница не существенна

При этом в случае нескольких измерений надо еще выбрать, какое из них положить в объединенный датасет.
Авторы делают следующее:
1) если измерений больше 2, то выбирается то, которое ближе всего к их среднему
2) если измерений ровно 2, то выбирается то, которое ближе всех к предсказанию программы ALOGPS 2.1. Кстати, программа древняя, но использует нейронные сети

Статья с подробным описанием датасета
Benchmarking graph neural networks for materials chemistry

Графовые нейронные сети (GNN) вызывают повышенный интерес как быстро растущий класс моделей машинного обучения, удивительно хорошо подходящих для применения в науке о материалах. На сегодняшний день предложено и продемонстрировано несколько успешных GNN для стабильности кристаллов, прогнозирования электронных свойств химией, гетерогенного катализа. Однако последовательная оценка этих моделей по-прежнему отсутствует.

Авторы представляют рабочий процесс и платформу тестирования MatDeepLearn для быстрой и воспроизводимой оценки и сравнения GNNs и других моделей машинного обучения. Они используют эту платформу для оптимизации и оценки ряда наиболее эффективных GNN на нескольких репрезентативных наборах данных в области вычислительной химии материалов. В то же время, в работе, отмечаются и некоторые недостатки GNN и обсуждаются предложения по их совершенствованию для применения в химии материалов.

Статья
Код

#ScientificML #code #chemistry
MM-Deacon: Multimodal molecular domain embedding analysis via contrastive learning

Molecule representation learning играет важную роль в химической информатике. В последнее время популярны подходы на основе языковых моделей. Однако эти подходы используют только одну модальность для представления молекул. Исходя из того, что молекула может быть описана с помощью различных модальностей, таких как упрощенная система молекулярной линейной записи (SMILES) и Международный союз теоретической и прикладной химии (IUPAC), авторы предлагают подход к генерации мультимодальных молекулярных эмбедингов с помощью контрастного обучения под названием MM-Deacon.

Сначала строки SMILES и IUPAC кодируются с помощью двух различных языковых моделей независимо друг от друга, затем используется контрастивный лосс, чтобы приблизить эти представления из разных модальностей друг к другу, если они принадлежат одной молекуле, и отдалить эмбединги друг от друга, если они принадлежат разным молекулам.

Статья

#ScientificML #chemistry
3D-Transformer: Molecular Representation with Transformer in 3D Space

Пространственные структуры в трехмерном пространстве важны для определения свойств молекул. В последних работах по представлению молекул и прогнозированию свойств используется геометрическое глубокое обучение. Однако таки сети требуют больших вычислительных затрат для учета дальних зависимостей входных атомов, а также не учитывают неоднородность межатомных расстояний, что не позволяет изучать контекстно-зависимые представления на разных масштабах.

Чтобы решить эти проблемы, авторы придумали 3D-Transformer, вариант трансформера для молекулярных представлений, который включает трехмерную пространственную информацию. 3D-Transformer работает на полносвязных графах с прямыми связями между атомами. Чтобы справиться с неоднородностью межатомных расстояний, они разработали разномасштабный модуль self-attention.

Статья
Код

#ScientificML #chemistry #transformers #3d
Molecule3D - это новый датасет с точными геометриями основного состояния приблизительно 4 миллионов молекул, полученных на основе density functional theory (DFT).

Датасет также снабжён набор программных инструментов для обработки данных, разбиения, обучения, оценки и т.д.

Датасет
Статья

#ScientificML #graphs #chemistry #datasets
Обновления по графовым сетям, которые сейчас активно исследуются для биологических и химических целей.

(1) На YouTube выложили лекцию профессора Макса Веллинга (Max Welling) по графовым нейронным сетям для симуляции молекул.

(2) умельцы собрали Colab блокнот по обучению графовой нейронной сети для классификации молекул на основе их биологической активности. В блокноте разбираются аспекты использования Jraph (JAX библиотеки для графов).

#ScientificML #gnn #graphs #biology #chemistry
Relative Molecule Self-Attention Transformer

Self-supervised learning обещает произвести революцию в предсказании свойств молекул - центральной задаче открытия лекарств и многих других отраслей промышленности - благодаря возможности эффективного обучения на основе скудных экспериментальных данных.

Авторы полагают, что что-бы все реально заработало нужно решить проблему с выбором правильной архитектуры, которая, по их мнению, может быть самой проблемной частью.

Авторы предлагают новый вариант self-attention, адаптированный для обработки молекул, вдохновленный слоем relative self-attention, который предполагает объединение встроенного графа и отношений расстояния между атомами. Основной вклад работы - Relative Molecule Attention Transformer (R-MAT): новая модель на основе трансформера, которая достигает современных или очень конкурентоспособных результатов в широком диапазоне задач предсказания свойств молекул.

📎Статья

#ScientifcML #chemistry #transformer #SSL
ChemicalX - это библиотека на основе PyTorch и TorchDrug для оценки пар лекарств, которая предсказывает лекарственные взаимодействия, побочные эффекты полифармацевтики и возможные синергические эффекты, как в биологическом, так и в химическом контексте.

🖥 Код

#ScientificML, #chemistry, #bio