Ученые из МГУ создали метрики оценки качества сжатого видео для задач машинного зрения.

В процессе экспериментов исследователи изучали влияние компрессии на точность прогнозов, генерируемых алгоритмами. Анализ показал, что уменьшение битрейта приводит к потере существенных текстурных и контурных элементов на изображении, что особенно важно для задач распознавания лиц и обнаружения небольших объектов. Исследования выявили, что различные кодеки по-разному влияют на эффективность машинного зрения. Так, современные кодеки H.266 и AV1 позволяют сохранять больше деталей при низких битрейтах по сравнению с H.264, однако при экстремальном сжатии производительность всех моделей машинного зрения снижается.

«В ходе исследования параметров сжатия, важных для машинного зрения, было установлено, что различные кодеки по-разному сказываются на точности детекции. Применение подходящего алгоритма компрессии в определенных ситуациях может уменьшить негативное воздействие без увеличения размера файла», — пояснил Иван Молодецких, специалист Лаборатории компьютерной графики и мультимедиа, факультета вычислительной математики и кибернетики МГУ.

Были созданы новые показатели, предназначенные для оценки влияния сжатия на эффективность работы алгоритмов машинного зрения при анализе изображений. Данные метрики учитывают:

  • Влияние сжатия на точность обнаружения объектов;
  • Влияние сжатия данных на процессы распознавания лиц и текстовой информации;
  • Существуют различия между показателями качества изображения, которые определяются на основе восприятия человеком, и метриками, используемыми в системах машинного зрения.

Информация предоставлена ВМК МГУ имени М.В. Ломоносова