По данным исследования, проведенного Массачусетским технологическим институтом в США, использование кодирования симметрий позволит языковым моделям проходить обучение, опираясь на меньший объем данных. Аспирант, применивший закон Вейля к работе с нейронными сетями, продемонстрировал взаимосвязь между симметричностью данных и необходимостью в обучающей выборке.
Для обеспечения корректной работы языковой модели требуется обучение на большом объеме информации, представляющей собой обучающую выборку. После этого алгоритм подвергается тестированию с использованием других данных, которые обозначаются как валидационная выборка. Уменьшение количества ошибок нейросети при валидации свидетельствует о более высокой точности алгоритма и более качественном результате.
Зачастую для обучения алгоритма требуется значительный объем информации. В этом случае процесс обучения проходит без затруднений занимает много времени. Недостаток таких данных, что случается, например, в вычислительной химии, оказывает непосредственное воздействие на итоги научных изысканий. Еще в студенческие годы аспирант Массачусетского технологического института Бехруз Тахмасеби высказал предположение о возможности рассмотрения машинного обучения с точки зрения дифференциальной геометрии.
Закон, которым воспользовался Тахмасеби, был сформулирован немецким математиком Германом Вейлем более ста лет назад. Эта формула обычно применялась для описания физических процессов, в частности, колебаний струны. Аспирант обратил внимание на то, что этот закон связан с оценкой исходных данных (он измеряет сложность спектральной информации), но не учитывает симметрию. Тахмасеби предположил, что модифицированная формула может облегчить машинное обучение.
В сотрудничестве с доцентом Технического университета Мюнхена (Германия), приглашенным преподавателем МТИ Стефани Джегелкой (Stefanie Jegelka), Тахмасеби разработал и доказал теорему, показывающую линейную связь между числом симметрий во входных данных и скоростью обучения нейросети. Если алгоритм обучается на изображениях, которые обладают симметрией и могут быть разделены на две симметричные части, нейросетевой модели для кодирования симметрий потребуется запомнить вдвое меньше информации (то есть, половину изображения), а время обучения сократится вдвое. В случае, если каждый компонент выборки содержит 10 симметричных фрагментов, время обучения нейросети уменьшится в 10 раз. При этом точность алгоритма останется прежней или даже улучшится.
Благодаря открытию Тахмасеби и Джегелки можно применять и для решения задач, которые не сразу очевидны. Например, если нейросети требуется выделить все изображения с цифрой «3», то без учета симметрии алгоритм будет учитывать расположение цифры на изображении – ее положение относительно границ (в верхней части, в нижней, по центру, справа и т.д.) и ориентацию (перевернута, наклонена). Закодировав симметричные свойства данных, модель сможет распознавать цифру «3» на изображении, независимо от ее размещения.
В научной статье, получившей высокую оценку на Конференции по машинному обучению и вычислительной нейронауке, препринт которой доступен на arxiv.org, Тахмасеби и Джегелка также сделали важный вывод: применение многомерной симметрии позволит добиться экспоненциального преимущества. Вторая теорема, предложенная исследователями, указывает на то, что это – наилучший результат, который можно получить. При этом разработанный в работе алгоритм обладает универсальностью: он может быть использован для работы с любыми симметриями, включая те, что будут открыты в будущем.