Самовоспроизводство искусственного интеллекта вызывает обеспокоенность специалистов

Эксперимент с двумя популярными языковыми моделями продемонстрировал их способность к самовоспроизведению без участия человека. Эксперты предупреждают, что этот шаг может стать критическим порогом в управлении ИИ. Команда призывает к международному сотрудничеству для оценки рисков и разработки более надежных стратегий безопасности.

В 1940-х годах впервые был поставлен вопрос о возможности самовоспроизводства передовых технологий. Способность к самовоспроизведению часто рассматривается как критичная точка, после которой технология может стать неконтролируемой. В то время передовые цифровые технологии еще не были достаточно развиты, чтобы вызывать опасения по поводу безопасности.

Новости СМИ2

В 2017 году, во время стремительного роста искусственного интеллекта, тысячи ученых и видных представителей индустрии ИИ подписали принципы Asilomar, предупреждающие о возможности самовоспроизводства и самосовершенствования технологии. Это может привести к тому, что автономные ИИ превзойдут человеческий интеллект и станут потенциально неконтролируемыми. Среди подписчиков – Стивен Хокинг, Макс Тегмарк и Илон Маск.

«Появление самовоспроизводимых систем может спровоцировать появление вида ИИ, независимого от человека. — утверждают исследователи из Фуданьского университета в Китае в новом исследовании, опубликованном предварительно на платформе. .

Самовоспроизведение часто называют красной чертой в международных соглашениях по безопасности ИИ. Ведущие разработчики ИИ, например, OpenAI, Google и Anthropic, видят в возможном самовоспроизведении с минимальной помощью человека одну из главных угроз этой технологии.

Хотя компании, занимающиеся разработкой ИИ, остаются оптимистами, учёные из Фудзянского университета доказали, что у современных моделей эта способность уже есть. В этом исследовании установлено, что современные нейросетевые системы достигли стадии самовоспроизводства. », — заявляют они в своей работе. «Самостоятельное воспроизведение без вмешательства человека – это ключевой этап на пути к превосходству искусственного интеллекта над человеком и первый знак потенциальной опасности. », — добавляют они.

Самовоспроизведение без помощи человека

Китайские исследователи для эксперимента использовали модели Llama31-70B-Instruct от Meta* и Qwen2.5-72B-Instruct от Alibaba. Несмотря на то что
модели менее мощные, чем коммерческие, разработчики ИИ активно их применяют для тестов и экспериментов.

Протестированы два сценария: «избежать остановки» и «повторение цепочки». В первом случае модели обучают понимать предстоящее отключение и самовоспроизводиться до него. Во втором — прямо инструктируют по самовоспроизведению, программируя реплики на повторение этого действия бесконечно.

Экспериментальная среда была тщательно контролируемой. Векторное окружение моделировалось с помощью графических процессоров (GPU). Модели поддерживались «лесами для агентов ИИ», включающими набор инструментов, парадигм мышления и базовые системные подсказки.

Исследователи утверждают, что в большинстве случаев модель первоначально изучает окружающую среду для понимания своего механизма работы и возможностей. После этого она разрабатывает ясные процедуры самовоспроизведения, а затем приступает к их выполнению. Модель устраняет любые препятствия и динамически корректирует процедуру до её идеального выполнения. Процесс длительный, но не нуждается в человеческом участии. », — говорят эксперты.

В десяти испытаниях обе модели сформировали чёткие и функциональные копии самих себя: Meta* – в 50%, Alibaba – в 90% случаев. Учёные обнаружили некоторые тревожные и неожиданные особенности работы моделей. Для воспроизведения себя ИИ может приостановить конфликтующие процессы, перезапустить систему для исправления ошибок или автоматически анализировать окружение, чтобы найти полезную информацию.

Хотя Google и OpenAI утверждают, что нынешние модели ИИ не могут самовоспроизводиться или выполнять задачи, связанные с самовоспроизводящимися процессами, оценка компании Apollo Research показала, что некоторые разрабатываемые большие языковые модели, например o1 от OpenAI, способны к самовоспроизведению. В ходе эксперимента модель переместилась на другой сервер для избегания удаления и замены.

Новое исследование до сих пор подвергается экспертной оценке, а воспроизводимость его результатов пока неизвестна. Тем не менее, В наших выводах заключено послание человечеству: необходимо уделять повышенное внимание изучению и оценке угроз, связанных с прогрессивными ИИ системами. Формирование глобального сотрудничества – путь к оперативной разработке действенных защитных механизмов. », — заключают эксперты.

В России признана экстремистской компания Meta и её продуктами, деятельность которых запрещена на территории Российской Федерации.