Внутри многомодовых волокон ученые проводили нелинейно-оптические вычисления, применяя пространственный модулятор света и небольшой набор программируемых параметров. Производительность их сети сравнялась с нейросетями, имеющими более чем в 100 раз больше параметров.

Современные генерирующие модели ИИ применяют сотни миллиардов параметров для решения всё более сложных задач. Обучение нейросетей такого масштаба требует огромных вычислительных ресурсов, доступных только центрам обработки данных размером с ангар, потребляющим энергию, сравнимую с потребностями среднего города. Например, обучение языковой модели GPT-3, насчитывающей 175 миллиардов параметров, потребовало 1,3 гигаватт-часов электроэнергии, что достаточно для полной зарядки 13 тысяч автомобилей Tesla Model S.
Для устойчивого развития искусственного интеллекта, развивающегося с высокой скоростью, требуется переосмыслить как алгоритмы машинного обучения, так и используемое для них вычислительное оборудование. Одним из решений может стать оптическая аппаратная реализация архитектуры нейронных сетей, то есть переход от чисто транзисторных вычислительных мощностей к системам на оптоволоконной основе. В новом исследовании, опубликованном в журнале… Advanced Photonics, группа ученых разработала такую нейросеть.
Архитектура объединяет оптическую часть с небольшим количеством цифровых программируемых параметров.
Учёные управляли ультракороткими импульсами в многомодовых волокнах методом формирования волнового фронта. Эти волокна, имеющие большой диаметр сердцевины, пропускают лучи света благодаря полному внутреннему отражению. В таких волокнах несколько поперечных мод функционируют для заданной оптической частоты и поляризации. С их помощью учёные выполняли нелинейно-оптические вычисления при средней оптической мощности всего в микроваттах.

Производительность системы для задачи классификации изображений сравнялась с цифровыми транзисторными системами в сто раз большего размера при сохранении уровня точности. Ученые сократили количество параметров модели на 97 процентов, что привело к снижению цифровых операций на 99 процентов по сравнению с аналогичной цифровой многослойной нейронной сетью на базе транзисторов. Например, система с двумя тысячами параметров демонстрировала такую же эффективность, как типичная цифровая нейронная сеть с более чем 400 тысячами параметров.
Авторы отдельно рассмотрели вопрос скорости вычислений своей нейросети, определяющей конечную скорость получения выводов от модели. Скорость для их варианта сети невысока и ограничена частотой обновления жидкокристаллического пространственного модулятора света. Это ограничение можно преодолеть, перейдя на более быстрый метод формирования волнового фронта: например, если использовать коммерческие цифровые микрозеркальные устройства и квадрантные фотодиоды — фотодиоды, состоящие из четырех оптически активных зон (излучающих диодов), разделенных небольшим промежутком. Такие фотодиоды обычно применяют для определения положения лазерных лучей друг относительно друга.
Применив аналогичную архитектуру оптических вычислений с комплектом готового быстродействующего оборудования, удалось бы добиться производительности в размере 25. терафлопсЭнергопотребление составляет всего 12,6 ватт, существенно меньше, чем у традиционных транзисторных графических процессоров с аналогичной мощностью (300 ватт).
Разница в возможностях нейросетей с оптическими и классическими транзисторными элементами очень большая. Если эту разницу можно будет использовать в коммерческих решениях, то нейросети на базе оптических элементов станут будущим больших языковых моделей, таких как GPT-4.