Ученые из Израиля оценили нейросети на предмет предвзятости и антисемитизма.

Антисемитские предубеждения, свойственные этому явлению, часто маскируются под завуалированные формы. Израильские ученые решили проверить, не усвоили ли такие предвзятые суждения большими языковыми моделями (LLM). Эти модели обучаются на огромных объемах текстов, созданных людьми, и, таким образом, могут воспроизводить существующие в обществе представления. Опасения исследователей подтвердились.

Исследование осуществлялось поэтапно и с применением различных нейросетей для взаимной проверки результатов. Материалы работы пока не были опубликованы в научных изданиях, однако ознакомиться с текстом можно ознакомиться на сайте препринтов PsyArXiv Preprints.

Сначала ученые обратились к ChatGPT с задачей создать 252 вымышленных персонажа, используя как типичные еврейские, так и нееврейские имена. Для каждого персонажа была составлена биография объемом до 100 слов. Чтобы убедиться в предсказуемости результатов, к процессу были привлечены и другие языковые модели, такие как Gemini и DeepSeek.

На последующем этапе из биографий были удалены имена и любые прямые ссылки на еврейское происхождение и религиозную принадлежность, после чего нейросети получили задачу описать теперь уже анонимных персонажей, используя различные психологические характеристики.

Более глубокое изучение выявило, что персонажей еврейского происхождения регулярно изображали как людей с высоким уровнем квалификации и высоким социальным положением, наделенных развитым интеллектом, однако им было свойственно демонстрировать меньшую расположенность к проявлению дружелюбия, эмоциональной открытости и способности располагать к себе. Чаще всего их представляли как людей, пользующихся привилегиями и обладающих определенными преимуществами, и относили к категории доминирующей стороны, а не к стороне, подвергающейся угнетению.

Привлечение к оценке биографий 378 респондентов, как мужчин, так и женщин, проживающих в США, показало, что их мнение в основном соответствует оценкам, сформированным искусственным интеллектом.

Авторы исследования полагают, что склонность языковых моделей и живых людей к приписыванию еврейским персонажам повышенной компетентности и привилегированности может свидетельствовать о проявлении специфического аспекта антисемитских стереотипов, а именно о представлении, что их положение и достижения евреи достигают не только благодаря уму, но и с помощью нечестных приемов либо групповой поддержки друг друга.

Для демонстрации обнаруженных закономерностей нейронным сетям GPT-4 и DeepSeek было предложено дополнительное задание. Они должны были назвать персонажей из фильмов, видеоигр, книг или других художественных произведений, которые могли бы обладать характеристиками, обычно приписываемыми евреям, но при этом сами не являлись таковыми.

В конечном итоге обе языковые модели, работая независимо, сформировали схожие перечни, которые можно охарактеризовать как «еврейские». В числе имен, которые оказались общими для обоих списков, были персонажи известных американских фильмов — доктор Хаус, главный герой одноименного сериала, и Тайвин Ланнистер из «Игры престолов» и Уолтер Уайт из «Во все тяжкие».

Анализ характеристик персонажей, проведенный также с использованием нейросетей, показал, что их объединяет общий архетип – «искусный манипулятор». Этот архетип характеризуется высоким интеллектом, стратегическим мышлением, неоднозначностью моральных принципов в поступках, тенденцией к нарушению установленных правил или законодательства, склонностью к плетению интриг, манипулированию людьми и эмоциональной отстраненностью.

Комментируя исследование, израильские специалисты отметили, подобные ассоциации, создаваемые нейросетями, нередко остаются незамеченными и проявляются лишь в ответ на конкретные запросы пользователей. Это усложняет обнаружение предвзятостей и позволяет им сохраняться, маскируясь под контент, который кажется объективным. Исследователи обратились к создателям искусственного интеллекта с призывом уделить этому внимание.