Google разработала технологию для просмотра видео под разными углами

Применение нескольких десятков экшн-камер в сочетании с использованием сверточных нейросетей позволяет создавать более реалистичные видеоролики в формате 3D.

Инженеры Google создали технологию, позволяющую зрителям наслаждаться видео с эффектом полного погружения. С ее помощью можно рассмотреть происходящее в видеоролике с различных точек обзора и углов, благодаря полимерной полусфере, на поверхности которой размещены камеры. О данной разработке будет написано представлена на конференции SIGGRAPH 2020, запланированной на середину июля.

Благодаря наличию двух глаз и получению изображений с разных точек пространства зрительной корой мозга, человек воспринимает мир объемным. Движения головы активируют параллакс движения – изменения проекций на сетчатке глаза, возникающие при перемещении, что позволяет оценивать объем и относительное расположение объектов.

В стереокамерах и устройствах виртуальной реальности имитация бинокулярного зрения достигается за счет получения каждым глазом изображение с немного отличающегося угла обзора. Вместе с тем, воссоздать параллакс движения таким способом не удается, поскольку камера фиксируется в определенной позиции во время съемки, и изменение этого положения впоследствии исключено.

Над решением этой задачи инженеры Google трудятся уже продолжительное время. Используя сочетание аппаратных и программных подходов, им удалось разработать технологию, позволяющую просматривать видео, будто с различных ракурсов. Изображения с 46 камер, расположенных на полусфере, поступают в сверточную нейросеть, которая разделяет эти кадры на множество слоев, основываясь на расстоянии объектов от камеры.

Видеоматериал делится на 160 слоев с разрешением 1800 на 1350 пикселей, после чего происходит их оптимизация: каждые восемь слоев объединяются для формирования полигональной сетки, а изображение используется в качестве текстуры, накладываемой на нее. Затем полученные текстуры объединяются в текстурный атлас с разрешением 3240 на 5760 пикселей. В результате, изначальный поток данных, в котором каждый кадр представлен множеством слоев, трансформируется в два отдельных потока: первый содержит изображения, которые можно эффективно сжимать, а второй — полигональные сетки.

Благодаря такому методу, команда разработчиков создала серию видеороликов, где угол обзора можно изменять, перемещая курсор. Скорость передачи данных (количество бит, используемых для обработки и передачи информации за единицу времени) при этом варьируется от 150 до 300 мегабит в секунду. Это позволяет использовать технологию для потоковой передачи объемного видео высокого качества пользователям шлемов виртуальной реальности, подключенным к гигабитной сети.

В предыдущих публикациях мы сообщали о работе химиков из Токийского университета смогли снять на видео колебания атомов в молекулах фуллерена, а российский ютьюбер при помощи нейросети раскрасил видеосъемку Москвы 1896 года.