Международная группа ученых разработала систему машинного зрения, превосходящую по скорости обнаружения движения человеческий глаз и в четыре раза обгоняющую существующие компьютерные аналоги. Новая разработка основана на принципе работы биологической сетчатки и ориентирована на выявление только движущихся объектов, что значительно уменьшило объем требуемых вычислений и сократило время отклика.
Старые методы анализа оптического потока, разработанные еще в 1950-х годах, стремятся имитировать способность человеческого глаза к мгновенной обработке визуальной информации, но их использование в робототехнике связано с высокими требованиями к вычислительным ресурсам. В качестве примера авторы исследования приводят, что обработка одного кадра с разрешением 1920×1080 пикселей с помощью флагманской видеокарты Nvidia V100 занимает свыше 0,6 секунды. Это в четыре раза превышает время, необходимое человеку для решения аналогичной задачи. При этом система Autopilot от Tesla функционирует с задержкой в 10 миллисекунд, но по качеству воспроизведения незначительных движений она пока не достигает возможностей систем, использующих оптический поток.
Для решения этой проблемы инженеры использовали принципы, основанные на работе нейронных сетей. Согласно опубликованной статье, 10 февраля в журнале Nature Communications появилась информация о разработке устройства, основанного на двумерных синаптических транзисторах. При создании этой системы ученые были вдохновлены взаимодействием между сетчаткой глаза и латеральным коленчатым телом, которое играет ключевую роль в биологическом зрении. Разработанная система не производит комплексной обработки изображений: транзисторы оперативно реагируют на изменения в яркости и выделяют лишь те области кадра, где присутствует движение. Эти «зоны интереса» впоследствии передаются стандартным алгоритмам компьютерного зрения для детального распознавания, что обеспечивает их работу с минимальной задержкой.
В процессе тестирования, имитировавшего управление беспилотными автомобилями, дронами и роботизированными манипуляторами, система регистрировала колебания освещенности всего за 100 микросекунд. Наряду с высокой скоростью, она показала значительную надежность: данные о движении сохранялись на протяжении более 10 000 секунд, а модуль успешно прошел свыше 8 000 циклов работы, не утратив эффективности. По мнению исследователей, данная технология увеличивает скорость работы действующих алгоритмов компьютерного зрения в четыре раза, а в определенных ситуациях система обходит человеческий глаз по скорости обработки.
Шо Гао, один из авторов исследования и доцент Школы приборостроения и оптоэлектронной инженерии Университета Бэйхан (Китай), отметил, что целью разработки не является создание альтернативы обычным камерам. « По словам ученого, в интервью South China Morning Post, применение специализированных аппаратных средств позволяет значительно ускорить работу алгоритмов компьютерного зрения, увеличив их производительность в четыре раза по сравнению с предыдущими результатами. Это, в свою очередь, повышает востребованность технологии в инженерной сфере ».
Создание данной технологии позволяет реализовать более сложные модели поведения автономных систем, например, моментальное предотвращение столкновений или ориентирование в непредсказуемой обстановке. Однако разработчики отмечают, что для подтверждения надёжности в различных условиях эксплуатации требуются дополнительные исследования.