Искусственный интеллект повысил точность прогнозирования свойств молекул

Ученые Центр искусственного интеллекта, созданный при Московском государственном университете имени М.В. Ломоносова разработали метод машинного обучения, который помогает точнее предсказывать свойства молекул по их структуре. В основе подхода лежит новая архитектура нейронной сети gSelformer-MV, которая анализирует молекулы сразу в нескольких текстовых представлениях. Работа опубликована в журнале Journal of Chemical Information and Modeling.

Определение характеристик молекул на основе их структуры является одной из важнейших задач в области вычислительной химии. Эти подходы востребованы при создании лекарств, поиске инновационных материалов и изучении химических соединений, обладающих определенными свойствами. В качестве инструментария применяются алгоритмы машинного обучения, которые анализируют структуру молекулы и выявляют корреляции между её строением и физико-химическими параметрами.

В настоящее время для решения этой задачи используют два ключевых подхода. Согласно одному из них, молекула воспринимается как совокупность атомов, соединенных химическими связями, а её структура анализируется с использованием графовых нейронных сетей. Альтернативный подход предполагает представление молекулы в виде последовательности символов, отражающей её строение, которую можно обрабатывать с помощью моделей, предназначенных для анализа последовательностей. Тем не менее, эти методы, как правило, фокусируются на анализе структуры на уровне отдельных атомов и не принимают во внимание более крупные компоненты молекулы, такие как функциональные группы.

Читайте также:  Бактерии на службе человека: как использовать силу микроорганизмов

Представленный авторами метод объединяет различные представления молекулярной структуры. Он основан на формате Group SELFIES — методе записи молекул, который, помимо отдельных атомов, включает в себя функциональные группы. В новой архитектуре нейронной сети молекула отображается не как единая последовательность символов, а как несколько вариантов, полученных в результате разделения структуры на подграфы. Нейронная сеть анализирует эти представления параллельно, что позволяет учитывать как отдельные атомы, так и более крупные фрагменты молекулы.

Читайте также:  Учёные обнаружили, как раковые клетки изменяют РНК генов для выживания.

«Наша цель заключалась в сочетании возможностей языковых моделей и данных о функциональных группах, составляющих молекулы. Применение различных способов представления структуры позволяет модели учитывать разные аспекты организации молекулы, что приводит к повышению точности прогнозов», — рассказывает руководитель научной группы «Мультимодальное обучение в материаловедении» Института ИИ МГУ, старший научный сотрудник Центра ИИ МГУ Вадим Королёв.

Предложенный метод был протестирован на типовых задачах прогнозирования молекулярных характеристик. В ходе вычислительных экспериментов, новая модель продемонстрировала повышенную точность по сравнению с алгоритмами, основанными на стандартных строковых описаниях молекул. Также, учет информации о структурных фрагментах способствует лучшей интерпретации полученных результатов.

«В химии значимы не только точные модели, но и осознание факторов, определяющих свойства вещества. Предложенный нами метод позволяет учитывать функциональные группы молекул, что повышает наглядность и понятность полученных результатов», — подчеркивает Вадим Королёв.

Читайте также:  Резкие перепады температуры опасны для сердца

Авторы утверждают, что разработанный метод может быть использован для ускорения поиска химических соединений, обладающих определенными свойствами. Подобные решения особенно ценятся при создании лекарственных препаратов и новых материалов, поскольку требуют оперативного анализа большого количества потенциальных молекулярных структур.

Информация предоставлена пресс-службой МГУ