Учёные из НИУ «Сколково» и Мюнхенского центра имени Гельмгольца разработали нейросеть для отображения химического пространства соединений, важных для фармацевтической промышленности.

Ученые из Сколтеха и Мюнхенского центра имени Гельмгольца разработали нейронную сеть для визуализации химического пространства соединений, важных для фармации.
Новый метод позволит синтезировать новые химические соединения и наглядно представить структуру существующих. Результаты работы опубликованы в научном издании. RSC Advances.
Химикам часто приходится анализировать массивные базы данных с десятками и сотнями тысяч химических структур для поиска самых перспективных вариантов.
Химик должен знать, какие типы соединений содержатся в базе данных. Перебирать тысячи молекул — задача трудная и не всегда эффективная.
Замечательно представить молекулы в виде точек на плоскости или в пространстве, где аналогичные молекулы располагались бы близко друг к другу.
Возникает возможность исследовать химическое пространство с помощью программы, подобной тому, как географ изучает рельеф с помощью электронных карт разного масштаба: для общего представления и детального изучения отдельных зон.
Как обучить алгоритм распределять молекулы в нужном порядке на плоскости, не задавая ему заранее информацию о химии?
Группа исследователей из CDISE в центре Сколтеха (Дмитрий Карлов, Сергей Соснин и Максим Федоров) совместно с Мюнхенским центром имени Гельмгольца (Игорь Тетко, HMGU) применили методы искусственного интеллекта для извлечения информации из данных.
Учёные соединили популярный способ уменьшения размерности данных, t-SNE, с глубокой нейронной сетью.
Благодаря этому появилась возможность разработать нейронную сеть, которая при получении многомерной структуры целевого соединения выдает его координаты в упрощённом двумерном виде на плоскости.
Молекулы с общими характеристиками размещаются вместе, что облегчает классификацию соединений по определенным признакам.
Исследователи обучили нейросеть на множестве связей с подтверждённой биологической активностью.
Для визуализации химического пространства фармацевтически значимых соединений был адаптирован метод t-SNE.
Этот метод сохраняет больше информации, чем некоторые другие способы уменьшения размерности, при этом его скорость работы сравнима со скоростью работы метода главных компонент, — говорит научный сотрудник Сколтеха и первый автор исследования Дмитрий Карлов.
В будущем ученые разработают программы для химиков и фармацевтов, которые покажут распределение новых соединений по сравнению с известными.
