Научная интуиция является стимулом для совершения открытий. Возникает вопрос: возможно ли развить подобное качество у нейронных сетей и к каким результатам это приведет? Этот вопрос заинтересовал исследователей из Института органической химии им. Н.Д. Зелинского РАН (ИОХ РАН). В итоге их исследований был разработан уникальный компьютерный алгоритм, предназначенный для оценки сложности молекул. От других нейросетей он отличается способностью не только обрабатывать большие объемы данных, но и воспроизводить ход мысли специалиста. В будущем данная технология может упростить процесс создания новых веществ и материалов, в частности, при разработке лекарственных препаратов.
Искусственный интеллект уже сегодня является полезным инструментом для человека в различных сферах деятельности, начиная от анализа масштабных данных и заканчивая исследованием экономических тенденций. Однако у этих интеллектуальных программ есть и ограничения: им сложно справляться с задачами, требующими интуитивного подхода, который характерен для человека. В качестве примера можно привести химическую науку и оценку сложности молекул. Химик, рассматривая соединение, не прибегает к расчетам, а делает вывод, опираясь на свой многолетний опыт. И хотя может сложиться впечатление, что специалист принимает решение мгновенно, в его сознании происходят сложные ассоциативные процессы, которые нелегко выразить в числовом виде.
Несмотря на трудности, это оказалось осуществимым. Сотрудники ИОХ РАН продемонстрировали это, фактически передав искусственному интеллекту знания, которыми обладают люди, и обучив его определять сложность молекул, опираясь на опыт, а не на жесткие формулы. Ученые опубликовали статью, посвященную этой разработке опубликовали в журнале Chemical Science. Авторами исследования выступили академик Валентин Павлович Анаников, а также молодые исследователи Андрей Тырин, Даниил Бойко и Никита Коломоец.
Представители компании поделились информацией о новой технологии с корреспондентом издания «Научная Россия».
«По мнению исследователей, определение сложности молекулы имеет первостепенное значение для химиков и специалистов в области фармацевтики. Они выделили ряд важных задач, в которых это необходимо:
- создание новых лекарств: чем сложнее молекула, тем тоньше она способна взаимодействовать с мишенью в организме (например, с белком вируса или раковой клеткой); понимание сложности соединения помогает анализировать, насколько хорошо будущее лекарство будет “состыковываться” со своей целью и как его можно улучшить;
- планирование синтеза: чтобы получить нужную молекулу в лаборатории, химики продумывают многоступенчатый путь из простых “кирпичиков” — если оценить заранее, насколько сложным будет каждый шаг, можно выбрать самый короткий, дешевый и эффективный маршрут, избежав ненужных стадий;
- анализ химических реакций: можно рассматривать целые классы химических превращений и делать выводы, какие из них действительно создают сложные структуры (и потому более ценны), а какие позволяют лишь немного модифицировать уже имеющиеся соединения;
- сравнение с природой: в естественной среде (например, в растениях, производящих алкалоиды) сложные молекулы часто синтезируются не так, как их получают люди; анализ этих различий через призму сложности помогает нам учиться у биологических систем и совершенствовать свои методы.
Для облегчения восприятия можно провести аналогию между молекулами и конструкциями из LEGO. Важно не просто определить количество компонентов в модели (что можно сравнить с молекулярной массой), но и оценить её сложность, уязвимость и наличие множества мелких, взаимосвязанных элементов. Это позволяет фармацевтам разрабатывать более эффективные методы воздействия на болезни, а химикам – находить способы упрощения и ускорения процесса сборки подобных конструкций».
Чтобы обучить новую модель, была сформирована обширная база данных, включающая приблизительно 300 тысяч молекул. Сложность этих молекул оценивалась группой из 50 специалистов. Важными параметрами для исследователей оказались молекулярная масса, число ароматических колец и площадь полярной поверхности молекулы, которая представляет собой общую площадь полярных атомов в химической структуре. При этом ученые не ограничивались анализом отдельных соединений, а проводили их сравнительный анализ.
«Авторы исследования подчеркивают важность контроля качества. В процессе оценки эксперты использовали разнообразные контрольные образцы: простые, позволяющие однозначно определить правильный ответ (например, метан очевидно легче, чем толуол), средней сложности (полициклические производные) и представляющие собой сложные молекулярные структуры. Такой подход позволял обеспечить полноту охвата данных и одновременно выявлять специалистов, допускающих небрежность при выполнении задания.
В процессе обучения нейронной сети было задействовано около 200 тысяч сравнений, включающих примерно 164 тысячи сопоставленных молекул. Этот объем информации позволил программе достаточно точно определять сходство различных соединений. Впоследствии сформированный набор данных можно будет применить для проведения других исследований, схожих по задачам.
«Мы не разрабатывали совершенно новую методику машинного обучения, а использовали уже существующий, зарекомендовавший себя и результативный алгоритм для решения задач упорядочивания, который называется Gradient Boosted Decision Trees (GBDT, градиентный бустинг, основанный на деревьях решений, или, точнее, его современную версию YetiRank из библиотеки CatBoost, — пояснили ученые. — Это проверенная стратегия в машинном обучении: использовать мощную, эффективную систему и обучать ее на уникальных данных. Если проводить аналогию, мы не разрабатывали новый вид транспортного средства, а модифицировали существующую, надежную машину, чтобы она ориентировалась по специально разработанной химической карте, созданной специалистами».
При создании своей разработки специалисты Института органической химии РАН применили алгоритм машинного обучения Learning to Rank (LTR). Этот подход находит применение в программах, предназначенных для поиска информации в сети Интернет, а также в рекомендательных алгоритмах. В настоящее время эту технологию адаптировали и для использования в научных исследованиях. Применение метода LTR позволило решить поставленную задачу: программа не сортирует молекулы по заранее введенным характеристикам, а анализирует выводы ученых и уже на их основе понимает, что нужно учитывать при оценке сложности соединений.
«Learning to Rank (обучение ранжированию – это методика, при которой модель осваивает умение упорядочивать объекты по определенному критерию, — отметили авторы исследования. Для наглядности можно привести простой пример: представьте, что вы обучаете ребенка сравнивать животных по размеру. Вместо того, чтобы сообщать: «Слон – это семь баллов, мышь – один балл», вы демонстрируете пары изображений и задаете вопрос: «Кто больше?» — «Слон больше мыши», «Лошадь больше кошки». После многочисленных подобных сравнений ребенок самостоятельно формирует в своем сознании последовательность: «мышь < кошка < лошадь < слон». Аналогичным образом функционировала система, описанная в статье: химикам предлагалось расставить пять молекул по возрастанию сложности. Модель анализировала тысячи таких наборов и училась понимать принципы, которыми руководствуются эксперты при принятии решений».
В ходе проведённых испытаний новая технология продемонстрировала хорошие показатели и оказалась эффективной при решении разнообразных задач.
«По словам разработчиков, систему оценивали с помощью различных методик. Главной из них стал тест на «парную точность». Моделям демонстрировались пары молекул, и она должна была установить, какая из них имеет более сложную структуру. Точность выполнения этой задачи составила 77,5%, что является весьма показательным результатом, принимая во внимание неоднозначность задания. Кроме того, проводился тест на «здравый смысл». В рамках этого теста молекула подвергалась модификации: один атом водорода заменялся на более сложную структуру, например, бензольное кольцо, после чего проверялось, сможет ли модель определить, что измененная молекула стала сложнее. В ходе этих проверок нейросеть демонстрировала точность анализа в 98,1%, что свидетельствует об усвоении системой основных принципов логического мышления.
Следует подчеркнуть, что модель не классифицирует молекулы по фиксированным категориям, таким как «простая», «средняя» или «сложная». Вместо этого, каждому соединению присваивается непрерывный числовой показатель сложности, что обеспечивает возможность сравнения любой пары молекул. В процессе обучения эксперты оценивали химические структуры по шкале от одного до пяти, однако в конечном итоге модель освоила более тонкие различия в пределах этого диапазона».
На данный момент искусственный интеллект способен решать определенные химические задачи, такие как поиск новых лекарственных препаратов и катализаторов, анализ данных и прогнозирование поведения лекарств. Разработка, созданная учеными Института органической химии РАН, представляет собой первую реализацию, в которой модель машинного обучения имитирует интуицию специалиста, а не следует заданной последовательности действий. Значимым преимуществом является то, что цифровое представление упрощает анализ структуры соединений и делает его более объективным по сравнению с субъективной оценкой одного эксперта. Вместе с тем, авторы исследования подчеркивают, что новую программу следует рассматривать не как безупречный и единственный инструмент для работы, а как эффективную поддержку.
«Проведенное исследование указывает на множество перспектив для дальнейшего развития. Одним из них является более детальная проработка существующей модели. Она была обучена на данных, предоставленных экспертами, и, таким образом, отражает их общее представление о сложности молекул. Ученые отметили, что ее необходимо постоянно совершенствовать, включая в процесс новые данные, в особенности сведения о редких или нестандартных соединениях. Испытания нейросети продолжаются.
В будущем данная программа способна оказаться полезным инструментом в самых разных областях — начиная от науки о материалах и заканчивая фармацевтикой. Новинка может применяться для решения широкого спектра задач, в частности, для оптимизации процессов создания и разработки материалов с заданными свойствами на молекулярном уровне.
«По словам авторов исследования, разработанная модель в будущем сможет быть включена в состав масштабных систем. Подобный «измеритель сложности» может быть использован в рамках более разветвленных алгоритмов для решения следующих задач:
- автоматического планирования синтеза — чтобы искусственный интеллект предлагал последовательности реакций, которые не только приводят к желаемому результату, но и обеспечивают возможность постепенного усложнения структуры синтезируемых соединений;
- дизайна лекарств — для того чтобы при виртуальном скрининге принимались во внимание не только показатели прочности взаимодействия, но и оптимальный уровень структурной организации разрабатываемого лекарственного средства;
- анализа химических баз данных — для выявления перспективных, сложных молекул или определения степени охвата химического пространства в исследовательских библиотеках».
Источники
Комментарии авторов исследования из ИОХ РАН
Министерство науки и высшего образования РФ. Российские химики создали нейросеть, которая имитирует профессиональную интуицию
Фото на превью: pressfoto / фотобанк Freepik
Фото на главной странице: freepik / фотобанк Freepik
Источники изображений в тексте: © Авторы статьи в журнале Chemical Science, royal Society of Chemistry, 2025 г. Материал опубликован Королевским химическим обществом по лицензии CC-BY; krakenimages.com / фотобанк Freepik, 8photo / фотобанк Freepik, freepik / фотобанк Freepik, pressfoto / фотобанк Freepik.