Для создания динамичного изображения достаточно всего восьми снимков, используемых в работе алгоритма.
Российские разработчики из «Сколково» и Samsung опубликовали статью, предварительная версия которой доступен на сайте arXiv.org, и продемонстрировали в ней алгоритм, способный превращать статичные портреты в короткие видео. При этом система может работать на основе небольшого количества кадров.
Ученые, занимающиеся разработкой искусственного интеллекта, уже добились прогресса в обучении алгоритмов, позволяющих передавать информацию с одного изображения на другое. Основная трудность этого процесса заключается в необходимости большого объема исходных данных. Так, специалисты из Университета Карнеги — Меллона, перенесли речь телеведущего Джона Оливера на видеоклип с ведущим вечернего шоу Стивеном Колбертом. Сделать то же самое на основе 16, восьми или даже одного кадра до этого момента никому не удавалось. Авторы из «Сколково» смогли добиться этого при помощи алгоритма на основе сверточной нейросети.
В него входит три нейросети — Embedder, Generator и Discriminator, — в процессе обучения использовались алгоритмы, прошедшие метаобучение. Это означает, что алгоритм был обучен на основе набора изображений лиц людей. На каждом лице нанесена маска, которая определяет границы лица и отображает мимику. Первая нейронная сеть сохраняет информацию в виде векторов. Вторая, используя набор сверточных слоев, применяет маску к изображению человека. Третья выполняет роль эксперта, оценивающего степень реалистичности полученного результата.
Благодаря этой системе разработчикам удалось осуществлять передачу данных между двумя объектами, используя всего один или два кадра. Качество результата повышается пропорционально количеству доступных алгоритму кадров. Авторы продемонстрировали возможности системы, используя фотографии Мэрилин Монро и Альберта Эйнштейна. Однако она эффективна не только при работе с портретами известных личностей, но и с произведениями изобразительного искусства. В качестве примера была использована «Мона Лиза» и «Девушка с жемчужной сережкой».
В настоящее время анимированные изображения все еще содержат заметные артефакты, а некоторые из них демонстрируют неестественные движения, что станет предметом дальнейшей работы разработчиков.
Ранее представители Nvidia продемонстрировали искусственный интеллект, который за секунды обрабатывает схематичный набросок и превращает его в фотореалистичное изображение. Нейросеть назвали GauGAN.