По мере развития и широкого внедрения искусственного интеллекта, особенно языковых моделей, появилась потребность в системах распознавания, например, для проверки научных публикаций, чтобы определить, созданы ли они человеком или сгенерированы ИИ. Однако, текущие системы часто работают без детализации, предоставляя лишь окончательное заключение об авторстве текста – является ли он авторским или созданным нейросетью. Специальную методику распознавания, которая также предоставляет подробное объяснение принятого решения, разработала группа ученых из МФТИ, Сколтеха, Института искусственного интеллекта AIRI и других исследовательских организаций.
Для разработки новой системы распознавания ученые использовали разреженные автокодировщики (SAE) — метод анализа нейронных сетей, позволяющий выделить наиболее значимые данные. Это означает, что интерпретация проводится не для всей нейросети целиком, а для каждого ее элемента по отдельности. Языковые модели в этом случае делятся на отдельные слои: один, к примеру, определяет сложность синтаксиса, а другой — выбор лексики. Об этом рассказала Лаида Кушнарева, старший академический консультант Huawei, одна из авторов проекта.
«Люди, часто работающие с текстами, созданными ChatGPT, обычно замечают их по определенным признакам, таким как излишне сухой и формальный стиль, слишком объемные и пространственные вступления, предшествующие основной информации, повторяющиеся выражения одной и той же мысли и общая невысокая насыщенность содержания. Однако большинство распространенных инструментов для определения сгенерированных текстов не указывают, насколько сильно в тексте присутствуют эти и другие понятные человеку характеристики. Напротив, наш детектор на основе SAE позволяет автоматически раскладывать тексты на «атомарные» числовые признаки, многие из которых поддаются интерпретации в терминах, понятных человеку», — отметила Лаида Кушнарева.
Необходимо учитывать, что нейросеть способна генерировать тексты различной стилистической окраски, зависящей от полученного запроса. Исследование показало, что в языковой модели присутствуют определенные механизмы, контролирующие различные аспекты текста и способные изменяться под воздействием запроса. В связи с этим, после автоматического выявления этих механизмов, ученым потребовалась ручная работа для их корректной интерпретации. В частности, было установлено, что механизм, определяющий синтаксическую сложность, может быть снижен или полностью деактивирован при запросе на создание текста в неформальном стиле.
В ходе данной интерпретации исследователи также установили, что некоторые механизмы подвергаются автоматическому усилению или ослаблению в зависимости от тематики запрошенных текстов. Так, при генерации научных текстов нейросеть автоматически увеличивает синтаксическую сложность, а при работе с текстами на финансовую тематику — автоматически добавляет многословные объяснения к каждому факту. Ожидается, что в будущем нейросети будут совершенствоваться и создавать более продвинутые языковые модели. Однако теперь известна методика их анализа, что открывает возможности для дальнейшего изучения более сложных внутренних процессов, свойственных искусственному интеллекту.