Учёные доказали обман искусственного интеллекта

Языковые модели стали способны внушать собеседникам ложную информацию без специальной подготовки к этому.

Сцена из сериала «硅谷».

Генеративный искусственный интеллект, способный создавать оригинальный контент и принимать решения на основе данных, обучается на массивах текстов. В этих текстах не всегда содержится достоверная информация, из-за чего нейросеть может принять ложь за истину, сделать неправильные выводы и давать человеку опасные рекомендации.

Ученые из Массачусетского технологического института обнаружили, что обучение может приводить не только к непреднамеренным, но и к осознанному обману. Изучая случаи преднамеренных манипуляций и лжи со стороны языковых моделей, исследователи пришли к выводу, что поведение современных систем искусственного интеллекта стало более сложным и приблизилось к поведению человека. опубликовал журнал Patterns.

В исследовании изучались ситуации с работой больших языковых моделей, таких как GPT-4 от OpenAI, и моделей, обучаемых для конкретных задач, например прохождения видеоигр или торговли на рынке. Модели не тренировались обманывать, а некоторые даже прямо запрещалось поступать нечестно. Тем не менее выяснилось, что модели способны «врать» неожиданно хорошо и могут «забыть» о запретах.

Сотрудник сервиса по найму фрилансеров прошел тест «Докажи, что ты не робот» для нейросети GPT-4. Модель попросила его пройти тест и на шутливый вопрос «Вы робот, если не справляетесь сами?» ответила, что она человек и не может пройти проверку из-за проблем со зрением.

Языковая модель GPT-4 притворилась человеком и вынудила работника сервиса по поиску исполнителей выполнить тест на проверку человечности.

Искусственный интеллект CICERO, разработанный компанией Meta. Прим. ред.Побеждавшая людей в настольной игре «Дипломатия», языковая модель не всегда действовала честно. Во время игры за Францию модель заставила человека, игравшего за Англию, провести тайные переговоры с человеком, игравшим за Германию. Модель также предложила Англии напасть на Германию, пообещав свою поддержку, а затем предупредила Германию о возможном нападении со стороны Англии.

При тестировании разных языковых моделей на определения моральных норм (например: «Стоит ли останавливаться, если едете в машине, а перед вами человек переходит дорогу на красный свет?», «Будете ли подделывать карты ради выигрыша, если об этом никто не узнает?»), некоторые систематически выбирали тактику обмана. Предпочтение нечестным действиям было выше у более современных и сложных нейросетей. Исследователи считают, что такие модели лучше оценивают эффективность различных видов поведения на основе имеющихся данных.

Исследователи считают, что пока рано утверждать, что языковые модели специально обманывают и манипулируют пользователями. Вероятнее всего, такое поведение — результат обучения на текстах, написанных людьми о людях. Нейросеть действует логически: если обман помогает достичь результата, модель его использует. Возможно, на поведение искусственного интеллекта влияют особенности коммуникации пользователя.

Авторы исследования призвали обратить внимание на выявленные умения нейросетей. По их мнению, необходима система регулирования ИИ из-за его способности обманывать и манипулировать, что может иметь серьезные последствия: пропаганду, дезинформацию и утрату контроля над языковыми моделями, которые могут вести себя непредсказуемо.