Искусственный интеллект повысил точность распознавания небольших объектов на фотографиях

Специалисты НОШ «Мозг, когнитивные системы, искусственный интеллект» ВМК МГУ имени М.В. Ломоносова и научные сотрудники ФИЦ ИУ РАН создали нейросетевую архитектуру QiGSAN, обеспечивающую существенное улучшение точности выделения небольших объектов на изображениях, даже при недостатке данных для обучения. О результатах исследования сообщается в журнале Big Data and Cognitive Computing.

Определение границ небольших объектов представляет собой сложную задачу в компьютерном зрении, в особенности при работе с аэрокосмическими снимками поверхности Земли. При анализе данных, полученных со спутников, возникает необходимость в выявлении объектов, размер которых составляет всего несколько пикселей на большом изображении, например, морских судов, небольших строений на земле или отдельных компонентов инфраструктуры. В подобных ситуациях современные нейросетевые подходы нередко допускают ошибки, что приводит к потере важной информации или ошибочной интерпретации шума как реальных объектов.

Читайте также:  В Российском новом университете провели дискуссию о нарушениях речи и коммуникации.

Чтобы справиться с этими ограничениями, исследователи разработали принципиально новую графово-сверточную нейронную сеть QiGSAN ( Quadtreeinformed Graph SelfAttention Network) для решения задачи выделения небольших объектов на изображениях. Разработанный метод позволяет учитывать неопределенность при работе с недостаточным объемом данных и анализировать взаимосвязи между областями изображения на различных уровнях детализации. Его результативность подтверждается теоремой, представленной в статье, которая демонстрирует более быстрое снижение функции потерь для обученной части сети по сравнению с традиционными сверточными моделями.

Архитектура QiGSAN, прошедшая испытания при сегментации кораблей на радиолокационных изображениях из общедоступных баз данных, показала высокие результаты: зафиксировано увеличение точности по показателю F 1-мере составил от 48,6% до 63,9%, что ниже показателей современных архитектур, основанных на трансформерах и свертках.

Читайте также:  Разработан метод максимального извлечения полезных веществ из степной травы.

«Нами было продемонстрировано, что применение вероятностных моделей в процессе обучения нейронных сетей позволяет существенно повысить их эффективность при работе с небольшими и несбалансированными наборами данных в задачах сегментации изображений. Это представляет собой особенную ценность для практических сфер, где доступно ограниченное количество информации и встречаются редкие объекты, такие как при анализе спутниковых снимков или изображений, полученных с использованием беспилотных аппаратов», — отмечается Андрей Горшенин, д.ф.-м.н., главный научный сотрудник Федерального исследовательского центра «Института вычислительных технологий» Российской академии наук, представитель Научной общественной школы «Мозг, когнитивные системы, искусственный интеллект».

Читайте также:  Новая медицинская технология может повысить эффективность добычи нефти

Ученые подчеркивают, что сфера использования данной методики может значительно расширяться за рамки обработки информации со спутников. В частности, архитектура QiGSAN может оказаться полезной для решения задач в медицинской сфере, где требуется выявлять патологии на изображениях, в промышленности — для определения дефектов в процессе производства, а также в интеллектуальных транспортных системах — для распознавания пешеходов или дорожных объектов в сложных ситуациях.