Исследование Массачусетского технологического института (США) показало, что кодирование симметрий позволяет языковым моделям учиться на меньшем объеме данных. Аспирант, применивший закон Вейля к нейросетям, установил связь между симметричностью данных и размером обучающей выборки.

Для корректной работы языковой модели ее необходимо обучить большим объёмом данных (обучающая выборка). Затем алгоритм проверяют на других данных (валидационная выборка). Чем меньше ошибок модель допускает при валидации, тем точнее алгоритм и качественнее результат.
Иногда для обучения алгоритма требуется много данных. При их наличии обучение просто. занимает много времениВ вычислительной химии недостаток данных может негативно сказываться на результатах исследований. Аспирант Массачусетского технологического института Бехруз Тахмасеби ещё во время учёбы предположил, что машинное обучение можно изучать с точки зрения дифференциальной геометрии.
Закон, примененный Тахмасеби более ста лет назад немецким математиком Германом Вейлем, традиционно использовался для описания физических процессов, таких как колебание струны. Аспирант отметил, что закон оценивает входные данные (измеряет сложность спектральной информации), но не учитывает симметрию. Тахмасеби предположил, что адаптированная формула может… облегчить машинное обучение.
С доцентом Технического университета Мюнхена Стефани Джегелкой Тахмасеби сформулировал и доказал теорему, которая демонстрирует линейную зависимость между количеством симметрий во входных данных и скоростью обучения нейросети. Если алгоритм обучается на изображениях, которые можно разделить на две симметричные части, то нейросетевой модели при кодировании симметрий понадобится «запомнить» в два раза меньше информации (половину картинки) и потратить в два раза меньше времени. Если симметричных фрагментов в каждом компоненте выборки 10, то время обучения нейросети снизится в 10 раз. При этом точность алгоритма не пострадает или даже увеличится.
Открытия Тахмасеби и Джегелки позволяют решать задачи, не всегда очевидные с первого взгляда. Например, нейросети могут выбирать все изображения с цифрой «3». Без учета симметрии алгоритм обратит внимание на ее положение (вверху, внизу, по центру, справа и т. д.) и ориентацию (перевернута, наклонена). Кодирование симметрии данных позволит модели распознавать цифру «3» вне зависимости от ее размещения на изображении.
На конференции по машинному обучению и вычислительной нейронауке получили высокую оценку научную статью, preprint которой… доступен на arxiv.orgТахмасеби и Джегелка пришли к выводу, что применение многомерной симметрии даст экспоненциальное преимущество. Вторая теорема исследователей доказывает, что это максимальный достижимый результат. Предложенный ими алгоритм универсален и применим ко всем типам симметрий, в том числе к тем, которые будут открыты в будущем.