Ученые Центр искусственного интеллекта, созданный при Московском государственном университете имени М.В. Ломоносова разработали метод машинного обучения, который помогает точнее предсказывать свойства молекул по их структуре. В основе подхода лежит новая архитектура нейронной сети gSelformer-MV, которая анализирует молекулы сразу в нескольких текстовых представлениях. Работа опубликована в журнале Journal of Chemical Information and Modeling.
Определение характеристик молекул на основе их структуры является одной из важнейших задач в области вычислительной химии. Эти подходы востребованы при создании лекарств, поиске инновационных материалов и изучении химических соединений, обладающих определенными свойствами. В качестве инструментария применяются алгоритмы машинного обучения, которые анализируют структуру молекулы и выявляют корреляции между её строением и физико-химическими параметрами.
В настоящее время для решения этой задачи используют два ключевых подхода. Согласно одному из них, молекула воспринимается как совокупность атомов, соединенных химическими связями, а её структура анализируется с использованием графовых нейронных сетей. Альтернативный подход предполагает представление молекулы в виде последовательности символов, отражающей её строение, которую можно обрабатывать с помощью моделей, предназначенных для анализа последовательностей. Тем не менее, эти методы, как правило, фокусируются на анализе структуры на уровне отдельных атомов и не принимают во внимание более крупные компоненты молекулы, такие как функциональные группы.
Представленный авторами метод объединяет различные представления молекулярной структуры. Он основан на формате Group SELFIES — методе записи молекул, который, помимо отдельных атомов, включает в себя функциональные группы. В новой архитектуре нейронной сети молекула отображается не как единая последовательность символов, а как несколько вариантов, полученных в результате разделения структуры на подграфы. Нейронная сеть анализирует эти представления параллельно, что позволяет учитывать как отдельные атомы, так и более крупные фрагменты молекулы.
«Наша цель заключалась в сочетании возможностей языковых моделей и данных о функциональных группах, составляющих молекулы. Применение различных способов представления структуры позволяет модели учитывать разные аспекты организации молекулы, что приводит к повышению точности прогнозов», — рассказывает руководитель научной группы «Мультимодальное обучение в материаловедении» Института ИИ МГУ, старший научный сотрудник Центра ИИ МГУ Вадим Королёв.
Предложенный метод был протестирован на типовых задачах прогнозирования молекулярных характеристик. В ходе вычислительных экспериментов, новая модель продемонстрировала повышенную точность по сравнению с алгоритмами, основанными на стандартных строковых описаниях молекул. Также, учет информации о структурных фрагментах способствует лучшей интерпретации полученных результатов.
«В химии значимы не только точные модели, но и осознание факторов, определяющих свойства вещества. Предложенный нами метод позволяет учитывать функциональные группы молекул, что повышает наглядность и понятность полученных результатов», — подчеркивает Вадим Королёв.
Авторы утверждают, что разработанный метод может быть использован для ускорения поиска химических соединений, обладающих определенными свойствами. Подобные решения особенно ценятся при создании лекарственных препаратов и новых материалов, поскольку требуют оперативного анализа большого количества потенциальных молекулярных структур.
Информация предоставлена пресс-службой МГУ