Американские психологи использовали метод аналогии для оценки способности крупной языковой модели GPT-3 справляться с новыми задачами. Такой подход традиционно применяется для определения уровня интеллектуального развития у людей, и результаты, полученные от нейросетевого алгоритма, оказались весьма неожиданными. В модифицированном тесте, основанном на стандартных прогрессивных матрицах Рейвена, модель дала больше верных ответов, чем студенты старших курсов колледжа.
Использование нейросетей для задач, на которые они не были изначально запрограммированы, представляет собой увлекательное занятие, ставшее популярным после того, как языковые модели, подобные этой, стали доступны ChatGPT познакомился едва ли не каждый пользователь интернета. Однако подобные действия могут иметь и вполне научное обоснование. Тестируя генеративный искусственный интеллект на грани его возможностей, ученые ищут способы познания человеческого разума.
Пожалуй, наиболее примечательной особенностью алгоритмов данного семейства является GPT-3 — их умение находить решения для различных новых задач, опираясь на ограниченное количество образцов ( Zero-shot). Главное — описать проблему текстом.
Этот способ мышления, заключающийся в изучении нескольких примеров, проведении параллелей с новой, ранее неизвестной, но схожей ситуацией и поиске решения на ее основе, называется аналоговым или аналогичным рассуждением ( analogical reasoning). Речь идет о рассуждении, понимаемом как компонент мыслительной деятельности, а не о словесной форме. Считается, что это уникальная черта, присущая людям. Возможно, она свойственна и некоторым наиболее развитым интеллектуально видам животных.
Исследователи из Калифорнийского университета в Лос-Анджелесе (UCLA) задались вопросом, действительно ли GPT-3 может рассуждать по аналогии. Для этого они выбрали задачи, с которыми модель точно не встречалась во время обучения.
Специалисты модифицировали систему искусственного интеллекта, предназначенную для обработки текстовой информации, внедрив в неё классический тест с прогрессивными матрицами Рейвена.
Это последовательности из девяти изображений, объединенные в группы по три, с отсутствующей девятой позицией. Участнику предлагается выбрать верный ответ из предложенных вариантов. Изображения обладают рядом характеристик, которые в каждом ряду меняются в соответствии с определенными правилами. Для правильного ответа необходимо, основываясь на первых двух рядах, определить эти правила и, используя аналогию, применить их к третьему ряду. Описание может показаться сложным, однако визуальное восприятие происходит без труда (см. иллюстрацию). С каждым последующим заданием уровень сложности увеличивается.
Поскольку GPT-3 не мультимодальная модель, то есть умеет работать только с текстом, матрицы адаптировали, но принцип остался тот же. В качестве контрольной группы выступали учащиеся колледжа UCLA. И они проиграли искусственному интеллекту.
Студенты показали результаты, соответствующие норме, дав чуть менее 60 процентов правильных ответов), GPT-3 — 80 процентов, что соответствует показателям, превышающим средние для людей, но остающимся в пределах нормы. Как отметили авторы исследования, алгоритм совершал те же ошибки, что и человек. Иными словами, высока вероятность, что процесс принятия решений был очень похожим.
Помимо матриц Рейвена, ученые предоставили алгоритму задания, взятые из общепринятого теста для поступления в американские вузы ( SAT). Многие из этих материалов не были ранее доступны широкой публике, поэтому GPT-3, вероятно, не имеет к ним доступа.
В ходе тестирования модель продемонстрировала выдающиеся показатели, сравнимые или превосходящие результаты контрольной группы людей, в заданиях, например, такого типа: «»любовь» для «ненависти» – это то же самое, что «богатство» для этого слова, какого?» (правильный ответ – «бедности»). Следовательно, алгоритму необходимо было определить, что в данном случае требуется найти антоним, не получив прямого указания на это.
Ожидаемо GPT-3 хорошо решил и более трудные вопросы, в которых аналогии нужно было провести между целыми предложениями или абзацами. А вот где модель предсказуемо села в лужу, так это в задачах на пространственное мышление.
Несмотря на детальное описание вопроса, например, «какой способ наиболее эффективен для перекладывания жевательных конфет из одной емкости в другую – с помощью трубки, ножниц или ленты», алгоритм выдавал бессмысленные ответы.
Исследование, проведенное американскими психологами, поднимает важный вопрос: воспроизводят ли большие языковые модели отдельные черты человеческого мышления или демонстрируют принципиально новый способ мышления? Если это действительно так, то возникает очевидная параллель со знаменитой философской концепцией « призрака в машине». Согласно одному из толкований, высокоразвитая искусственная система (машина) способна демонстрировать неожиданные качества, которые могут казаться проявлением человеческого сознания.
Авторы научной работы справедливо отмечают наличие двух значительных ограничений. Прежде всего, даже при максимальных усилиях исследователей невозможно дать гарантии, что GPT-3 во время обучения сталкивался с задачами, похожими на вышеописанные. Наименее вероятно, что модель тренировали на текстовых представлениях прогрессивных матриц Рейвена. Наиболее — что какие-то варианты SAT могли встречаться в наборе данных для обучения.
Это приводит ко второй трудности: исследователи не имеют возможности изучить структуру модели, что делает ее работу непрозрачной. Подобное обстоятельство препятствует прогрессу в нейронауках.
Подробное описание проведенного исследования представлено в научной статье опубликована в журнале Nature Human Behaviour. Ее препринт (неотрецензированная версия) размещен в открытом доступе на портале arXiv.