Благодаря пространственному модулятору света и ограниченному числу настраиваемых параметров, ученые осуществляли нелинейно-оптические вычисления в многомодовых волокнах. Производительность разработанной сети оказалась сравнимой с нейронными сетями, имеющими более чем в 100 раз больше параметров.
Для решения все более сложных задач современные генеративные модели искусственного интеллекта используют сотни миллиардов параметров. Обучение нейросетей таких масштабов сопряжено с необходимостью использования колоссальных вычислительных ресурсов, которые способны обеспечить только крупные центры обработки данных, по размеру сравнимые с ангарами и потребляющие энергию, сопоставимую с потреблением электроэнергии города. Так, для обучения языковой модели GPT-3, насчитывающей 175 миллиардов параметров, было использовано 1,3 гигаватт-часа электроэнергии, что позволяет полностью зарядить аккумуляторы 13 тысяч автомобилей Tesla Model S.
Для поддержания текущего темпа развития искусственного интеллекта требуется пересмотр как алгоритмов машинного обучения, так и вычислительной инфраструктуры, лежащей в их основе. Одним из возможных подходов является оптическая аппаратная реализация архитектуры нейронных сетей, предполагающая отказ от исключительно транзисторных вычислительных мощностей в пользу систем, основанных на оптоволокне. В новом исследовании, опубликованном в журнале Advanced Photonics, группа ученых разработала такую нейросеть.
Разработанная архитектура объединяет оптическую часть с ограниченным набором цифровых параметров. Используя метод формирования волнового фронта, исследователи смогли контролировать ультракороткие импульсы в многомодовых волокнах – это оптические волокна с расширенной сердцевиной, где световые лучи распространяются благодаря эффекту полного внутреннего отражения. Многомодовые оптические волокна поддерживают несколько поперечных мод при определенной оптической частоте и поляризации. Благодаря им ученые выполняли нелинейно-оптические вычисления при относительно низкой оптической мощности, достигавшей лишь нескольких микроватт.
Производительность при решении задачи классификации изображений оказалась на уровне цифровых систем, основанных на транзисторах, при этом их количество параметров превышало количество параметров рассматриваемой модели более чем в 100 раз при сохранении сопоставимой точности. Благодаря сокращению количества параметров модели на 97 процентов, ученым удалось уменьшить количество цифровых операций на 99 процентов по сравнению с аналогичной цифровой многослойной нейронной сетью, реализованной на транзисторной аппаратной базе. Так, система, содержащая около двух тысяч параметров, демонстрировала эффективность, сопоставимую с типичной цифровой нейронной сетью, насчитывающей более 400 тысяч параметров.
Авторы также проанализировали скорость вычислений их нейросети, которая влияет на скорость получения результатов от модели. В их реализации скорость ограничена частотой обновления жидкокристаллического пространственного модулятора света. Преодолеть это ограничение возможно, используя более быстрый способ формирования волнового фронта, например, цифровые микрозеркальные устройства и квадрантные фотодиоды. Квадрантные фотодиоды состоят из четырех оптически активных зон, разделенных небольшим промежутком, и обычно применяются для определения взаимного расположения лазерных лучей).
Использование той же архитектуры оптических вычислений и доступного коммерческого высокоскоростного оборудования могло бы обеспечить производительность, составляющую 25 терафлопс при общем энергопотреблении 12,6 ватта, что значительно ниже, чем потребление в 300 ватт классическим транзисторным графическим процессором с сопоставимой производительностью.
Заметна значительная разница в потенциале нейросетей, использующих оптические компоненты, и тех, что основаны на классических транзисторах. В случае успешного переноса этого преимущества в коммерческие продукты, оптические нейросети, вероятно, определят дальнейшее развитие больших языковых моделей, подобных GPT-4.