Чат-бот, созданный по образу 1960-х, обманул GPT-3.5 в тесте Тьюринга

Чат-бот «Элиза», разработанный в 1966 году, в процессе общения с людьми более успешно создавал впечатление, что он является человеком, чем чат-бот GPT-3.5, появившийся в 2022 году. По мнению авторов недавнего исследования, тест Тьюринга, который часто рассматривается как основной показатель оценки возможностей искусственного интеллекта, может давать неверные результаты.

Фото: img.freepik.com

В 1950 году британский математик и криптограф Алан Тьюринг поставил перед собой вопрос о том, способна ли машина мыслить и имитировать человеческую речь. Его размышления на эту тему к созданию известного теста. Сегодня его используют для того, чтобы определить умение чат-ботов притворяться человеком.

В ходе тестирования пользователь взаимодействует посредством специальной программы с двумя сущностями: компьютером и человеком. При этом его не уведомляют о том, кто из них кто. На основе полученных ответов на вопросы необходимо установить, с кем ведется диалог: с человеком или с чат-ботом. Цель системы — ввести пользователя в заблуждение и заставить его сделать ошибочный выбор.

Когда в течение заданного периода времени испытуемый не способен различить программу и человека, это свидетельствует об успешном завершении теста машиной. Тем не менее, многие эксперты критикуют этот тест как субъективный, поскольку до настоящего времени не существует общепринятых критериев, определяющих успешное прохождение.

В этот вопрос внесли дополнительную сложность ученые из Калифорнийского университета в Сан-Диего (США). Они разработали специальный сайт, с помощью которого провели онлайн-тест Тьюринга. Целью являлось определение того, какой из «собеседников» наиболее убедительно сможет выдать себя за человека: модели искусственного интеллекта GPT-4, GPT-3.5, «Могут быть представлены как отдельным специалистом, так и группой лиц. Результаты работы опубликованы на сайте электронного архива препринтов arXiv.

В эксперименте приняли участие 652 человека. В ходе более чем тысячи сессий они использовали сайт для взаимодействия с тремя моделями искусственного интеллекта ( GPT-4, GPT-3.5, «После взаимодействия с «Элизой» или другими собеседниками, участникам эксперимента предлагалось указать, с кем именно они вели беседу: с реальным человеком или с чат-ботом.

В ходе исследования удалось установить, что испытуемые верно идентифицировали пользователей, находящихся на противоположной стороне экрана, в 63% случаев, в то время как в 37% случаев они приняли их за автоматизированные программы. Модели GPT-4 и GPT-3.5 убеждали испытуемых, что те общаются с человеком в 41 и 14 процентах случаев соответственно. Больше всего ученых удивил «старичок» — чат-бот «Элиза», разработанный в 1966 году американским ученым Джозефом Вейценбаумом ( Joseph Weizenbaum) для имитации диалогов психоаналитика с пациентами. Эффективность этой языковой модели оценивается в 27 процентов, что значительно превышает показатели «начинающих» GPT-3.5, что вызывало недоумение у исследователей.

Авторы статьи связывают триумф «Элизы» с тремя факторами:

как правило, ответы чат-бота отличались консервативностью, что создавало ощущение «несговорчивого партнера по беседе». Такая особенность способствовала сохранению секретов системы. «Элиза» стремилась свести к минимуму выдачу ошибочных сведений;

элиза» не демонстрировала характеристики, которые обычно приписываются современным языковым моделям, а именно готовность оказывать помощь, дружелюбность и обилие слов;

участники тестирования отметили, что чат-бот настолько несовершенен, что вызывает подозрения, будто общение велось с реальным человеком.

В процессе экспериментов участники поддерживали непринужденные разговоры с «собеседниками», проявляя интерес к их знаниям и точке зрения на современные события. Они также общались на иностранных языках и нередко высказывали подозрения в том, что их собеседники являются моделями искусственного интеллекта, оказывая тем самым психологическое воздействие».

При определении того, взаимодействует ли человек с ними или с чат-ботом, испытуемые в первую очередь ориентировались на стиль общения и эмоциональные характеристики «собеседника», а не исключительно на оценку его интеллектуальных способностей. Кроме того, пользователи указывали на случаи, когда ответы на их вопросы были излишне официальными или, наоборот, слишком неформальными, когда им не хватало индивидуального подхода или они представлялись слишком общими.

Авторы признали некоторые недостатки своего исследования. В частности, слишком малую выборку и отсутствие стимулов для участников, что, возможно, повлияло на их ответы — вероятно, они не были искренними.

Ученые также подчеркнули, что полученные ими данные в определенной мере ставят под сомнение тест Тьюринга, в особенности при рассмотрении производительности «Элизы». Это говорит о том, что данный тест может давать неверные оценки возможностям искусственного интеллекта. Предсказывалось, что модель «Элиза» должна была продемонстрировать худшие результаты в ходе выполнения задания, чем GPT-3.5. Ученые отметили, что их заключения не являются основанием для немедственного отказа от данного тестирования. Оно остается востребованным и продолжает демонстрировать свою эффективность.

Что касается GPT-3.5 — это базовая модель, бесплатная версия ChatGPT. Команда OpenAI специально разрабатывала ее для того, чтобы та не выдавала себя за человека. Это может хотя бы частично объяснить ее низкую результативность в эксперименте.