ИСТИНА |
Войти в систему Регистрация |
|
ИПМех РАН |
||
Цель – разработка новых методов машинного обучения и алгоритмов глобальной оптимизации, предназначенных для работы с естественно-научными данными графового типа.
В рамках выполнения задач проекта планируется решить промежуточные вопросы, связанные с работой отдельных компонентов для универсальной генеративной модели, способной предлагать соединения с заданными свойствами: 1) Представление кристаллической структуры и взаимодействий в структурах белков. На текущий момент существует множество вариантов представление кристаллической структуры и взаимодействий в биополимерах в машиночитаемом виде, пригодном для использования вместе с методами машинного обучения. Наиболее перспективным и позволяющим получить наиболее точные модели, является вариант кодирования в графовой сверточной нейронной сети. Однако, для работы в режиме генерации новых структур, необходим алгоритм декодирования подобной информации, что представляет собой более сложную задачу, требующую учета трансляционной симметрии. Ранее данная задача решалась частью коллектива данного проекта с использованием знаний о физических свойствах кристаллических структур [10.1039/d0mh00881h], что, однако, показало низкую долю корректного их воспроизведения. В данном проекте планируется разработать эффективную модель генерирования вектора признаков кристаллической структуры по входным данным. Предполагается начать исследования с анализа накопленного объема входных данных, использования модификации вариационного автоэнкодера, а также использования графовых нейронных сетей, о применении которых в подобных задачах научным коллективом уже накоплен позитивный опыт. Обоснованием достижимости результатов является существование автоэнкодеров и других нейросетевых архитектур, переводящих входные данные из разных областей в сжатое представление, по которому можно эффективно производить дальнейшую обработку, делать выводы о полученных данных на основе внутреннего представления, приближенно восстанавливать исходные данные. Требуется найти наиболее подходящие средства для аналогичного эффективного представления данных о кристаллической структуре вещества. 2) Учет симметрии. Симметрия молекул, кристаллических структур или волновой функции играет заметную роль в формировании свойств новых соединений или материалов. Для ее учета, соединения будут моделироваться нагруженными графами, симметрия которых при заданных ограничениях определяется их группой автоморфизмов. В общем случае задача нахождения группы автоморфизмов графа не имеет достаточно производительного решения. Наиболее продвинутыми являются субэкспоненциальные алгоритмы на основе метода Ласло Бабая. Но существуют достаточно эффективные для практического использования подходы (например, алгоритм Бердана МакКея и его модификации). Исходя из характеристик исследуемых в рамках проекта соединений, указанные алгоритмы могут быть использованы для определения их симметрии. Помимо использования результатов в рамках разработки представления из п.1, определение группы допустимых автоморфизмов является отправной точкой для обучения с подкреплением заданной модели искусственной нейронной сети, которая выбирается в соответствии с поставленной задачей генерации структур с заданными свойствами. 3) Графовое пространство соединений и взаимодействий. Переход от моделирования свойств отдельных соединений, к моделированию химического пространства, позволит расширить список моделируемых свойств за счет характеристик веществ, определяемых их взаимодействиями (термодинамическая стабильность, химические реакции). Данная задача близка к маркетинговым задачам определения характеристик потенциального покупателя по графу его взаимосвязей и успешно решается в данной области. Предполагается при использовании последних известных решений в технологии нейронных сетей, в частности, встраиваемых механизмов внимания, архитектур трансформеров, выполнить оптимизацию имеющегося нейросетевого решения поставленной задачи, включающую модификацию архитектуры, функции ошибок, оптимизатора, процедуры обучения нейронной сети и выбора ее оптимальных гиперпараметров. 4) Расширение представления за счет обучаемого глобального состояния. На текущий момент существуют подходы, описывающие графовую структуру малых органических молекул, кристаллических соединений и взаимодействий в биополимерах. Опциональным расширением таких подходов является возможность учета т.н. глобального состояния – включения в модель переменной среды (например температуры, давления и т.д.). В рамках данного проекта планируется расширить подобный подход для получения возможности моделирования новых гибридных соединений (например, металлоорганических комплексов). Для этого планируется а) переработать структуру графовой сверточной нейронной сети, для формирования еще одного потока входных данных векторного типа б) реализовать алгоритм глобальной оптимизации трехмерной структуры подобных соединений. 5) Учет квантово-механических параметров в описании структуры. Развитие технологий квантово-механического (квантово-химического) моделирования структуры и свойств соединений уже успешно позволяет решать прикладные задачи. Однако, значительное время и вычислительные ресурсы, требуемые для подобные расчетов, сильно ограничивают область их применимости. Очевидным решением является использование алгоритмов машинного обучения для аппроксимации и ускорения наиболее ресурсоемких вычислений. В рамках данного проекта планируется использовать другой подход, и использовать заранее рассчитанные квантово-механические дескрипторы для повышения точности моделей, полученных при использовании графовых сверточных нейронных сетей. Ранее, подобные дескрипторы уже подтвердили свою применимость [10.1039/d0cp01786h arXiv:2301.08734 10.1039/C6SC05720A 10.1038/s41467-021-24904-0], таким образом данная задача сводится к их имплементации в архитектуры, разработанные при выполнении других задач проекта.
Госбюджет, Программа развития МГУ |
# | Сроки | Название |
1 | 23 июня 2023 г.-31 декабря 2023 г. | Разработка алгоритмов искусственного интеллекта для работы с естественнонаучными данными графового типа |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".