Разработана нейросеть, позволяющая управлять устройствами с помощью жестов, распознаваемых по видео.

В настоящее время технологии искусственного интеллекта (ИИ) находят широкое применение в различных областях деятельности человека. ИИ-сервисы позволяют значительно ускорить обработку больших массивов информации, повысить качество принимаемых решений, оптимизировать рабочие процессы и предоставить новые перспективы для бизнеса, научных исследований и повседневной жизни.

Для успешного распространения ИИ-сервисов в повседневной жизни необходимо, чтобы системы научились правильно интерпретировать различные типы информации, получаемой от пользователей, включая не только текст и речь, но и мимику, жесты и другие невербальные сигналы.

В числе приоритетных задач, над которыми в России трудятся эксперты ведущих IT-компаний, – распознавание жестов, используемых в повседневной деятельности, при проведении переговоров и в процессе организации работы (кивки, поднятый большой палец, отрицательное покачивание головой и другие). Эта задача приобретает особую значимость для интеллектуальных систем, поскольку, к примеру, непреднамеренное нажатие физической кнопки может негативно сказаться на безопасности, или при работе человека в виртуальной среде. В связи с этим, подобные разработки сейчас активно интегрируются в коммерческое программное обеспечение с применением технологий искусственного интеллекта.

Читайте также:  Ломоносовская конференция по физике элементарных частиц начала работу в МГУ

Программное обеспечение, созданное учеными Санкт-Петербургского филиала федерального исследовательского центра РАН, способно автоматически определять 34 наиболее распространенных управляющих жеста (включая отсутствие жеста). Среди них – возможность поставить «лайк», совершить звонок, установить точку, выбрать нужный объект, а также использовать жест «rock», популярный в рок-музыке. Для работы достаточно активировать программу на ноутбуке или персональном компьютере и показать жест перед камерой.

Читайте также:  Получены спектральные данные о соединениях рения

Масштабный корпус для обучения распознавания жестов содержал более 1 млн изображений людей различного пола, возраста и национальности. Эти данные находятся в открытом доступе для исследователей всех стран мира.

Работа программного обеспечения для исследователей осуществляется поэтапно. Сначала система идентифицирует человека на изображении, после чего определяет положение его рук. Для улучшения качества распознавания применяется современная технология – нейросетевая модель, которая позволяет формировать трехмерную карту глубины изображения. Это помогает распознавать жесты даже в ситуациях, когда фон перекликается с цветом рук. Благодаря этой технологии удалось достичь беспрецедентной точности распознавания жестов – более 99,6%, что значительно превосходит показатели существующих решений.

«По словам стажера-исследователя СПб ФИЦ РАН Сергея Федчина, данная система способна функционировать как независимый интерфейс для управления цифровыми помощниками, а также выступать в роли составной части многоканальных приложений, осуществляющих взаимодействие с пользователем посредством речи, текста, выражения эмоций и других средств.

Читайте также:  Ученые открыли новый вид голожаберного моллюска, названного в честь МГУ

Исследование поддержано грантом РНФ (№ 24-71-00083). Программное обеспечение зарегистрировано в установленном государством порядке.

Информация предоставлена СПб ФИЦ РАН