Модель GPT-3 превзошла студентов колледжей в тесте на мышление аналогиями.

Американские психологи испытали способность языковой модели GPT-3 решать новые задачи методом аналогии. Это традиционный метод оценки интеллектуального развития людей, и нейросетевой алгоритм продемонстрировал неожиданные результаты. GPT-3 дал больше верных ответов в адаптированном тесте с прогрессивными матрицами Рейвена, чем студенты старших курсов колледжа.

Фрагмент киноленты «Из машины» (2014) / © A24, Universal Pictures International / Автор: Пинария Капрариус.

Экспериментировать с нейросетями, заставляя их выполнять задачи, отличные от первоначального назначения, – увлекательное занятие, открывшееся с доступом к языковым моделям вроде… ChatGPTПрактически каждый пользователь интернета столкнулся с подобными технологиями.
Однако подобные действия могут основываться на научных принципах. Тестируя границы возможностей генеративного искусственного интеллекта, исследователи стремятся понять устройство человеческого разума.

Возможно, самое поразительное в алгоритмах этой группы… GPT-3— Способность разрешать различные новые задачи, используя минимальное количество примеров Zero-shot). Главное — описать проблему текстом.

Такая логика — проанализировать пару примеров, сравнить их с новым, непознанным, но сходным случаем и обнаружить в нём решение — получила название аналогового, или аналогичного, рассуждения. analogical reasoningРассуждение как форма мыслительной деятельности, отличает людей (и возможно, некоторые самые умные виды животных).

Исследователи из Калифорнийского университета в Лос-Анджелесе (UCLA) задались вопросом, действительно ли GPT-3Модель может рассуждать по аналогии, для чего эксперты отобрали ей задачи, которые она ранее не решала в процессе обучения.

Учёные применили для работы с текстом ИИ проверенные методики тестов, стандартизированные прогрессивными матрицами Рейвена.

Задача, составленная по модели стандартных прогрессивных матриц Рейвена.

Перед испытуемым размещается девять изображений, объединенных в три группы по три элемента. Одна ячейка остаётся пустой. Необходимо выбрать правильное изображение из нескольких вариантов для заполнения этой ячейки. В каждом ряду фигуры обладают различными свойствами, меняющимися согласно определённым правилам. Для успешного выполнения задания требуется проанализировать первые два ряда, вычислить правила изменения свойств и применить их к третьему ряду. Задания постепенно усложняются.

Поскольку GPT-3Не являясь мультимодальной, модель работает только с текстом. Матрицы были адаптированы, но принцип действия прежний. Учащиеся колледжа послужили контрольной группой. UCLA. И они проиграли искусственному интеллекту.

Студенты ответили правильно на почти шестьдесят процентов вопросов (уровень нормы). GPT-3— Восемьдесят процентов, что выше среднего показателя для людей, но всё же находится в пределах нормы. отметилиАвторы исследования утверждают, что алгоритм допускал такие же ошибки, как и человек. По всей видимости, процесс принятия решений был весьма сходным.

Кроме матриц Рейвена, исследователи предложили алгоритму задачу из экзамена на поступление в американские университеты. SATМногие из его вариантов остались неизвестными широкой публике, поэтому GPT-3, вероятно, с ними не сталкивался.

Модель справилась с задачами типа «любовь» для «ненависти» — то же, что «богатство» для этого слова, какого? (правильный ответ — «бедность»). В результате алгоритм определил, что нужно найти антоним, не имея прямого указания на это.

Ожидаемо GPT-3Успешно решённые задачи с поиском ана logй между предложениями и абзацами не помешали модели усомниться в своих силах при выполнении задач на пространственное мышление.

Независимо от того, насколько точно сформулирована проблема, например, «как переложить жевательные конфеты из одной миски в другую — трубкой, ножницами или лентой», алгоритм генерировал нелепые ответы.

В исследовании применялись тесты, представленные слева (a) — один из вариантов стандартных прогрессивных матриц Рейвена, и справа (b) — его изоморфный аналог в текстовом формате.

Американские психологи провели исследование, которое ставит под сомнение: просто имитируют ли большие языковые модели некоторые черты человеческого мышления, или же это принципиально новый тип мышления? призрака в машинеПо одному из точек зрения, высокоразвитая искусственная система способна приобретать неожиданные качества, незаметно отличающиеся от человеческого разума.

Научная работа сталкивается с двумя важными ограничениями, о которых честно предупреждают ее создатели. Прежде всего, даже при всестороннем старании ученых, нет никакой уверенности в том, что… GPT-3В процессе обучения встречал задачи, аналогичные описанным ранее. Вероятность того, что модель обучали с использованием текстовых представлений прогрессивных матриц Рейвена, мала. Большая вероятность, что использовались другие варианты. SATБыли доступны в обучающем наборе данных.

Вторая проблема заключается в том, что у ученых нет доступа к внутренней работе модели. Из-за этого процессы ее «мышления» остаются неясными, словно «черный ящик». Это тормозит развитие нейронаук.

Исследовательский труд с развернутым обзором эксперимента. опубликована в журнале Nature Human Behaviour. Ее препринт (неотрецензированная версия) размещен в открытом доступе на портале arXiv.