Чат-бот ChatGPT успешно выдержал тест Тьюринга в формате короткого взаимодействия.

В ходе пятиминутной текстовой беседы люди в 54% случаев принимали ChatGPT-4 за человека. При этом стоит отметить, что полученные результаты имеют определенные ограничения.

Фото: img.freepik.com

Тест Тьюринга используется для оценки степени схожести искусственного интеллекта с человеческим разумом. Он заключается в том, что если в процессе общения с языковой моделью люди не могут отличить ее от человека или не уверены в личности собеседника, то считается, что поведение модели приближается к человеческому. Однако, Алан Тьюринг, создатель теста в начале 1950-х годов, признавал его ограниченность. По его мнению, наиболее эффективный способ для ИИ имитировать человека – это не давать прямых ответов на вопросы, а уходить от них, отвечать уклончиво или перефразировать их. Именно такая манера общения кажется людям наиболее естественной, хотя при этом не проявляются сложность и многогранность мышления, характерные для человеческого интеллекта.

Несмотря на это, тест Тьюринга по-прежнему играет значительную роль в оценке потенциала искусственного интеллекта, а успешное прохождение теста стало одной из задач, которые ставят перед современными языковыми моделями. Были разработаны различные модификации теста, отличающиеся как заданиями для модели и человека, так и продолжительностью проведения. В результате исследования, проведенного учеными из Калифорнийского университета в Сан-Диего (США), бот ChatGPT-4, созданный компанией OpenAI, продемонстрировал способность пройти пятиминутный тест Тьюринга. Результаты эксперимента представлены в предварительном варианте публикации появился на сайте arxiv.org.

В исследовании приняли участие 402 человека, чей средний возраст равнялся 35 годам. Участникам предлагалось в течение пяти минут общаться с собеседником, выбранным случайным образом. Собеседником мог быть другой человек или одна из трех языковых моделей: ELIZA (разработанная в 1966 году, которая способна имитировать поведение психолога и дала название «эффекту ELIZA», при котором человек приписывает программе с текстовым интерфейсом человеческие качества, такие как способность мыслить, понимать и сопереживать. — Прим. ред.), Участникам эксперимента необходимо было установить, с кем они взаимодействуют, и обосновать свой выбор, в то время как языковые модели должны были имитировать человеческое общение.

Согласно результатам исследования, ChatGPT-4 вводил людей в заблуждение в 54% случаев, в то время как ChatGPT-3.5 обманывал в 50%, а ELIZA — в 22%. Участникам эксперимента удалось правильно определить, с человеком они общаются, в 67% случаев.

Успех ChatGPT-4 указывает на существенный прогресс в области искусственного интеллекта и поднимает вопросы о потенциальных рисках, связанных с возрастающей сложностью языковых моделей, которые становится все труднее отличить от человеческой речи. С одной стороны, автоматизация некоторых задач, таких как обслуживание клиентов, станет возможной, с другой – увеличится вероятность распространения ложной информации и мошеннических действий, использующих передовые технологии.

По мнению ученых, результаты недавнего эксперимента не только демонстрируют высокую сложность и адаптивность современных языковых моделей, но и ставят под сомнение принципы теста Тьюринга. В ходе исследования участники чаще оценивали «человечность» собеседника не по содержанию и достоверности ответа, а по стилю общения, чувству юмора и другим социально-эмоциональным аспектам, которые не всегда отражают общепринятые представления об интеллекте и его проявлениях. Также стоит отметить, что результаты более продолжительного исследования могли бы отличаться.