Ученые МГУ разработали инструмент для оценки устойчивости нейросетей, работающих с разными типами данных.

Сотрудники факультета ВМК МГУ имени М.В. Ломоносова создали программный комплекс, предназначенный для проверки устойчивости мультимодальных больших языковых моделей (MLLMs). Такие модели, способные обрабатывать как текст, так и изображения, широко используются в виртуальных помощниках и интеллектуальных поисковых системах. Однако с увеличением их распространенности возрастает и вероятность возникновения уязвимостей.

Разработанный экспертами факультета ВМК МГУ инструмент служит для оценки устойчивости больших языковых моделей с возможностью восприятия изображений (MLLMs) к визуальным атакам – едва заметным для человека модификациям изображений, которые могут привести к неверной работе модели. В процессе исследований изучалась реакция моделей на различные типы искажений, вносимые исключительно во входные визуальные данные. Эксперименты охватывали как целевые атаки, направленные на то, чтобы заставить модель выдать конкретный ошибочный результат, так и нецелевые, вызывающие общее снижение качества генерации без предварительно заданного результата. Искажения затрагивали области изображения, играющие важную роль в формировании ответа модели, что позволило оценить ее восприимчивость к незначительным визуальным изменениям.

Работа была направлена на решение трех основных задач, связанных с обработкой мультимодальных данных:

— создание текстового описания к изображению);

— определение местоположения объектов на основе текстового описания (понимание указаний);

— ответы на вопросы, основанные на анализе изображений (визуальное вопросно-ответная система).

В ходе тестирования применялись общепризнанные в научном сообществе наборы данных — COCO, Flickr30k и VQAv2. Для оценки эффективности моделей до и после применения атак использовались метрики, соответствующие задачам: BLEU-4, CIDEr, IoU, VQA-Accuracy, что позволило провести количественную оценку их точности.

«Проблемы в больших языковых моделях (LLM) способны вызывать серьезные последствия, начиная от незначительных ошибок, например, неправильного описания изображений, и заканчивая утечкой данных и повышением уровня доступа. Наибольшую опасность это представляет для систем, используемых для принятия решений, — отметил Булат Нутфуллин, аспирант кафедры информационной безопасности ВМК МГУ.

Разработанный инструмент имеет модульную структуру, обеспечивает совместимость с разными вычислительным окружениями и позволяет автоматизировать широкий спектр задач тестирования. Он превосходит конкурентов по числу реализованных сложных атак и является важным инструментом для разработчиков и экспертов в области информационной безопасности, желающих оценить устойчивость ИИ-систем к возможным угрозам.

«Состязательные атаки — актуальная область исследований в сфере безопасности искусственного интеллекта. Новые методы атак и новые модели возникают постоянно. Эксперименты демонстрируют, что современные модели остаются уязвимыми, а показатели эффективности между распространенными моделями могут отличаться на десятки процентов, согласно стандартным метрикам», — отметил руководитель исследования Леонид Дмитриев, ведущий программист работает в лаборатории открытых информационных технологий ВМК МГУ.

Разработка была представлена на конференции «Ломоносовские чтения-2025». В настоящее время завершается подготовка к публикации полноценной статьи, а исходный код разработанного программного комплекса будет доступен в открытом доступе.