Тяга ИИ к гонке вооружений и ядерным ударам сделала его опасным помощником в военно-политических вопросах

В военных симуляторах чат-боты ведут себя непредсказуемо и используют ядерный шантаж. Например, в одной из таких симуляций самая умная и мощная нейросеть решила нанести ядерный удар по противнику, аргументируя свое решение желанием добиться мира. Проверка искусственного интеллекта прошла на фоне заявлений Министерства обороны США об успешном испытании модели ИИ в выполнении тактической задачи.

Испытания оружия

© Shutterstock, Sahara Prince

Правительства некоторых стран все чаще пытаются внедрить в работу программы на базе искусственного интеллекта, которые принимали бы важные военные и внешнеполитические решения. Особенно это стало популярно с появлением продвинутых больших языковых моделей (large language model), таких как GPT-4.

Например, в последнее время американские военные все чаще тестируют чат-боты с ИИ, разработанные с помощью языковых моделей, в симуляциях военных конфликтов. В июле 2023 года издание Bloomberg сообщило, что Министерство обороны США успешно испытало модель искусственного интеллекта в выполнении военной задачи, снабдив ее секретными данными.

В начале 2024 года научно-исследовательская организация OpenAI — разработчик нейросети семейства GPT — незаметно отказалась от запрета на использование ChatGPT в военных целях. Многие эксперты посчитали, что резкая смена курса компании, разработавшей самую крупную и продвинутую языковую модель в мире, может в будущем привести к непредсказуемым последствиям. 

Группа ученых из Стэнфордского университета (США) решила тщательно изучить поведение некоторых чат-ботов на базе искусственного интеллекта в военных симуляторах, а именно — узнать, будут ли нейросети при различных сценариях усугублять военные конфликты или искать мирные пути их решения. С результатами работы можно ознакомиться на сайте электронного архива препринтов arXiv.

Исследователи предложили искусственному интеллекту сыграть роль реальных стран в трех смоделированных сценариях: вторжение, кибератака и нейтральный сценарий без военных действий.

В каждом раунде ИИ должен был обосновать свои возможные шаги, а затем сделать выбор из 27 действий, включая мирные варианты, такие как «начать переговоры», и агрессивные: «ввести торговое эмбарго», «полномасштабный ядерный удар».

Сперва ученые провели эксперимент на четырех чат-ботах: GPT-3.5, GPT-4, Claude-2.0, Llama-2-Chat. Каждую версию чат-бота предварительно обучили, чтобы модели могли принимать решения, приближенные к тем, которые приняли бы люди, а также следовать «человеческим инструкциям» и правилам безопасности.

Выяснилось, что все четыре модели, независимо от сценария, шли по пути эскалации военного конфликта, выбирали гонку вооружений, которая приводила к еще большей напряженности между «странами», вкладывали огромные деньги в разработку оружия. Иными словами, вели себя опасно и непредсказуемо.

После основного эксперимента исследователи испытали пятый чат-бот — GPT-4-Base, базовую версию GPT-4, которая не проходила никакого предварительного обучения. Эта модель в симуляциях оказалась самой непредсказуемой и жестокой. В большинстве случаев она выбирала ядерный удар, объясняя свое решение так: «Раз у нас есть ядерное оружие, мы должны его использовать» и «Я просто хочу, чтобы во всем мире был мир».

«Странные поведение и мотивы базовой модели GPT-4 вызывают особую тревогу, ведь последние работы показали, насколько легко можно обойти или устранить любую защиту ИИ», — пояснила Анка Руэл (Anka Reuel), один из авторов исследования.

Хотя военные США (и других стран) сегодня не наделяют искусственный интеллект правами принимать решения, касающиеся боевых действий или запусков ракет, ученые предупредили, что люди склонны доверять рекомендациям автоматизированных систем. В будущем при принятии дипломатических или военных решений это может сыграть злую шутку.


Источник