Ученые Новосибирского государственного университета и Института катализа им. Г.К. Борескова СО РАН создают приложение для поточной обработки данных рентгеновской фотоэлектронной спектроскопии (РФЭС). Оно предназначено для использования исследователями без необходимости владения навыками программирования. Это уникальное в мировом масштабе приложение будет выполнять роль конвейера для обработки спектров, в который будет встроена глубокая нейронная сеть.
В рамках дипломной работы Артем Вахрушев, выпускник бакалавриата факультета естественных наук Новосибирского государственного университета, создал модель глубокого машинного обучения для автоматизации анализа спектров РФЭС. Его проект стал одним из победителей как первого, так и второго этапов молодежного конкурса научно-исследовательских работ «Рентгеновские, синхротронные, нейтронные методы междисциплинарных исследований». В этом году молодой исследователь успешно защитил дипломную работу, в которой была представлена первая версия приложения с графическим интерфейсом. Разработка нейросети для обработки спектров осуществлялась Артемом Вахрушевым при финансовой поддержке Министерства науки и высшего образования РФ в рамках государственного задания ИК СО РАН (проект FWUR-2024-0032), а также при поддержке Программы «Приоритет-2030». По данной теме уже опубликована первая статья в рецензируемом журнале Kinetics and Catalysis: Vakhrushev A.A., Matveev A.V., Nartova A.V. Application of a Convolutional Neural Network for Automated Analysis of X-ray Photoelectron Spectra of Heterogeneous Catalysts. В настоящее время Артем Вахрушев проходит дипломную практику в ИК СО РАН и продолжает совместно со старшими коллегами улучшать приложение для обработки данных РФЭС.
Рентгеновская фотоэлектронная спектроскопия (РФЭС) — спектроскопический метод, используемый для изучения элементного состава, химического и электронного состояния атомов в исследуемом материале, базируется на явлении внешнего фотоэффекта. Получение спектров РФЭС осуществляется путем облучения материала пучком рентгеновских лучей с последующей регистрацией зависимости интенсивности испускаемых электронов от их энергии связи. Метод РФЭС широко применяется в катализе, материаловедении, физике полупроводников и других областях современной науки. В настоящее время обработка рентгеновских фотоэлектронных спектров, как правило, выполняется вручную, что является рутинной процедурой, требующей от специалиста от 10 минут на описание одного спектра. Применение классических алгоритмов анализа спектров может приводить к существенным погрешностям при определении и подгонке пиков, что препятствует их использованию в задачах автоматизации.
— Автоматизация анализа данных РФЭС является крайне важной задачей, актуальность которой постоянно растет, особенно в связи с запуском ЦКП «Сибирский кольцевой источник фотонов» (СКИФ). Ввод в эксплуатацию высокопроизводительной станции приведет к многократному увеличению объема данных, что потребует использования инструментов для их автоматизированной обработки. Необходимо получение первичной информации с более высокой скоростью, чем при традиционных методах анализа, таких как ручной. Хотя существует немало классических подходов к решению этой задачи, они не всегда универсальны. Чтобы ученые не тратили время на промежуточный анализ спектров, необходимо для принятия решения о дальнейшем ходе исследования, мы разрабатываем специализированное приложение. Ключевым элементом этого продукта является нейронная сеть, предназначенная для идентификации пиков и определения их окрестностей, после чего разложение производится по классическим алгоритмам, используемым в стандартных программных продуктах. Для удобства пользователей все компоненты объединены в графическом интерфейсе, исключая необходимость разбираться в коде. Пользователю предлагается оболочка, позволяющая загружать спектры РФЭС и получать готовую информацию. При этом предусмотрена возможность объединения различных файлов и выбора различных опций выдачи информации, что в конечном итоге приводит к существенному ускорению анализа спектров , — рассказала преподаватель, доцент факультета естественных наук НГУ, старший преподаватель физического факультета НГУ и старший научный сотрудник ИК СО РАН Анна Нартова.
Нейронные сети способны анализировать неструктурированные данные, такие как изображения и последовательности сигналов, выявляя в них закономерности и повышая эффективность ручного труда, что позволяет решать задачи обработки спектров с помощью методов глубокого машинного обучения. Проблема обнаружения пиковых площадей и максимумов рассматривалась разработчиками приложения как задача сегментации, для обучения модели использовались синтетические данные. Каждый спектр содержал шум, пики и фон неупругого рассеяния. Разработка архитектуры модели, ее обучение и тестирование были реализованы с использованием PyTorch на Python. Благодаря оптимизированной архитектуре, время обработки спектра составляет менее секунды даже на обычном домашнем ноутбуке, в то время как ручная обработка занимает не менее 10 минут. В процессе работы над дипломной работой Артем Вахрушев обработал более сотни спектров за 30 минут, в то время как при использовании обычных методов это занимало несколько дней. Важным преимуществом применения нейронных сетей является возможность разработчиков, по мере развития самих сетей и обучающего набора данных, добавлять и изменять модуль без существенных изменений всей системы, что позволяет улучшать результаты анализа спектров. Поэтому работа по совершенствованию приложения и обучению нейронной сети будет продолжена.
— В приложение предусмотрены возможности для дальнейшего развития и усовершенствования, соответствующие прогрессу науки и технологий, и мы намерены продолжать работу в этом направлении. Для проверки модели и алгоритмов постобработки в качестве исходных данных использовались спектры хлорида серебра (AgCl). Исследования выполнялись при поддержке гранта РНФ № 24-63-00037, в рамках данного проекта планируется дальнейшее широкое внедрение автоматизации. Тестирование показало, что наш метод, объединяющий сегментацию спектров с использованием нейронной сети и алгоритмов постобработки, демонстрирует высокую степень соответствия результатам ручного анализа. В этом году мы провели бета-тестирование нашего приложения в ИК СО РАН, привлекая к участию коллег – опытных специалистов в области РФЭС. Ученые, принимавшие участие в экспериментах и являющиеся экспертами в области РФЭС, предоставили нам список своих пожеланий и объяснили, каких возможностей им не хватает для продуктивной и удобной работы с приложением. В течение ближайших шести месяцев мы будем работать над устранением указанных недостатков, учитывая все их потребности и замечания. Благодаря опыту применения РФЭС для изучения различных катализаторов и материалов, накопленным в ИК СО РАН, у нас сформирована обширная база данных спектров, которую мы используем и планируем применять в дальнейшем для обучения нейронных сетей. Мы убеждены, что подобная автоматизация должна быть интегрирована в СКИФ, поскольку в противном случае значительная часть данных, получаемых на его станции РФЭС, может быть потеряна: некоторые спектры не будут проанализированы, и, как следствие, не будут получены результаты некоторых экспериментов – как положительные, так и отрицательные. Они могут быть просто упущены и потеряны в большом объеме информации, обработка которой требует от исследователей значительных временных и трудовых ресурсов. Нейронные сети способны справляться с этой задачей практически мгновенно и в гораздо больших объемах, поэтому их использование необходимо, — пояснила Анна Нартова.