Специалисты НОШ «Мозг, когнитивные системы, искусственный интеллект» ВМК МГУ имени М.В. Ломоносова и научные сотрудники ФИЦ ИУ РАН создали нейросетевую архитектуру QiGSAN, обеспечивающую существенное улучшение точности выделения небольших объектов на изображениях, даже при недостатке данных для обучения. О результатах исследования сообщается в журнале Big Data and Cognitive Computing.
Определение границ небольших объектов представляет собой сложную задачу в компьютерном зрении, в особенности при работе с аэрокосмическими снимками поверхности Земли. При анализе данных, полученных со спутников, возникает необходимость в выявлении объектов, размер которых составляет всего несколько пикселей на большом изображении, например, морских судов, небольших строений на земле или отдельных компонентов инфраструктуры. В подобных ситуациях современные нейросетевые подходы нередко допускают ошибки, что приводит к потере важной информации или ошибочной интерпретации шума как реальных объектов.
Чтобы справиться с этими ограничениями, исследователи разработали принципиально новую графово-сверточную нейронную сеть QiGSAN ( Quadtree—informed Graph Self—Attention Network) для решения задачи выделения небольших объектов на изображениях. Разработанный метод позволяет учитывать неопределенность при работе с недостаточным объемом данных и анализировать взаимосвязи между областями изображения на различных уровнях детализации. Его результативность подтверждается теоремой, представленной в статье, которая демонстрирует более быстрое снижение функции потерь для обученной части сети по сравнению с традиционными сверточными моделями.
Архитектура QiGSAN, прошедшая испытания при сегментации кораблей на радиолокационных изображениях из общедоступных баз данных, показала высокие результаты: зафиксировано увеличение точности по показателю F 1-мере составил от 48,6% до 63,9%, что ниже показателей современных архитектур, основанных на трансформерах и свертках.
«Нами было продемонстрировано, что применение вероятностных моделей в процессе обучения нейронных сетей позволяет существенно повысить их эффективность при работе с небольшими и несбалансированными наборами данных в задачах сегментации изображений. Это представляет собой особенную ценность для практических сфер, где доступно ограниченное количество информации и встречаются редкие объекты, такие как при анализе спутниковых снимков или изображений, полученных с использованием беспилотных аппаратов», — отмечается Андрей Горшенин, д.ф.-м.н., главный научный сотрудник Федерального исследовательского центра «Института вычислительных технологий» Российской академии наук, представитель Научной общественной школы «Мозг, когнитивные системы, искусственный интеллект».
Ученые подчеркивают, что сфера использования данной методики может значительно расширяться за рамки обработки информации со спутников. В частности, архитектура QiGSAN может оказаться полезной для решения задач в медицинской сфере, где требуется выявлять патологии на изображениях, в промышленности — для определения дефектов в процессе производства, а также в интеллектуальных транспортных системах — для распознавания пешеходов или дорожных объектов в сложных ситуациях.