Текст, созданный искусственным интеллектом, уже загрязняет Интернет

Такие инструменты, как DALL-E 2 или Stable Diffusion, или ChatGPT, о котором сейчас много говорят, очень впечатляют. Первые способны создавать изображения на основе текстового описания, вторые — это интеллектуальный разговорный агент, который может ответить практически на любой вопрос или сгенерировать пользовательский текст. Эти технологии настолько совершенны, что иногда трудно поверить, что их результат не является делом рук человека. Однако, как объясняет Мелисса Хейккиля в MIT Technology Review, такое обилие «искусственных» текстов может быть более проблематичным, чем кажется.

ChatGPT — это как энциклопедия, которая доступна 24 часа в сутки и имеет ответы на (почти) все вопросы в рекордно короткие сроки. Математика, история, философия, … ничто не ускользает от него. Но, где этот разговорный агент — который основан на языковой модели GPT-3 от OpenAI — особенно выделяется, так это в генерации текста. Будь то вымышленная история, электронное письмо, шутка, газетная статья и т.д., он может написать четкий, понятный и достоверный текст на любую тему. Менее чем за месяц его существования им уже воспользовались более миллиона человек.

Новости СМИ2

Хотя эта функция потенциально может позволить студентам писать эссе без особых усилий, она может иметь и гораздо более серьезные последствия. Мелисса Хейккиля упоминает содержание советов по здоровью — которые не были бы одобрены настоящим специалистом в области здравоохранения — или другое важное информационное содержание. «Системы ИИ также могут по глупости способствовать созданию большого количества дезинформации, злоупотреблений и спама, искажая информацию, которую мы потребляем, и даже наше чувство реальности«, — пишет она.

Существуют некоторые инструменты для обнаружения текстов, сгенерированных искусственным интеллектом, но они оказываются неэффективными против ChatGPT, говорит журналист. Сегодня наибольшее беспокойство вызывает не столько тот факт, что невозможно определить происхождение текста (человеческое или искусственное), но прежде всего то, что Сеть может очень быстро наполниться преимущественно неверным содержанием. Почему? Потому что ИИ обучаются на контенте, полученном из Интернета… который другие ИИ создали сами!

Первоначально компьютерные языковые модели обучаются на наборах данных (тексты и изображения), найденных в Интернете. Среди них может быть как хороший контент, так и вводящая в заблуждение и вредоносная информация, размещенная некоторыми людьми. ИИ, обученный на основе этих данных, в свою очередь, создает ложный контент, который распространяется в сети… и используется другими ИИ для создания еще более убедительных языковых моделей, которые люди могут использовать для создания и распространения дальнейшей ложной информации, и так далее.

Теперь это явление распространяется и на изображения. «Интернет теперь навсегда загрязнен изображениями, созданными искусственным интеллектом. Изображения, которые мы сделали в 2022 году, отныне будут частью каждой создаваемой модели«, — говорит Майк Кук, исследователь ИИ в Королевском колледже Лондона.

Из всего этого можно сделать вывод, что будет все сложнее найти хорошие, не созданные искусственным интеллектом данные для обучения будущих моделей искусственного интеллекта. «Очень важно задаться вопросом, нужно ли нам тренироваться на всем Интернете или есть способы отфильтровать высококачественный материал, который даст нам нужную языковую модель«, — сказала Дафна Ипполито, старший научный сотрудник Google Brain, исследовательского подразделения Google, занимающегося глубоким обучением, в интервью MIT Technology Review.

Как обнаружить текст, созданный искусственным интеллектом?

Поэтому становится необходимым разработать инструменты для обнаружения текстов, созданных ИИ. Не только для того, чтобы гарантировать качество будущих лингвистических моделей, но и для того, чтобы информация, к которой мы имеем доступ ежедневно, была основана на истине. Как отмечает Мелисса Хейккиля, люди могут попытаться представить сгенерированные ИИ научные работы на экспертную оценку или использовать технологию в качестве инструмента для дезинформации — что было бы особенно вредно, например, во время выборов.

Люди также должны сыграть свою роль в этой борьбе с искусственным контентом: они должны стать более подкованными и научиться распознавать тексты, написанные не человеком. «Люди — неаккуратные писатели»: текст, написанный реальным человеком, будет содержать опечатки или орфографические ошибки, несколько жаргонных слов, иногда запутанные обороты речи — все это маленькие признаки, которые ИИ не сможет воспроизвести (по крайней мере, пока). Более того, языковые модели работают, предсказывая следующее слово в предложении, поэтому они используют в основном самые распространенные слова и очень мало редких слов.

Вот вам и форма. Что касается содержания, то здесь также важно просто отвлечься от того, что вы читаете в Интернете. Важно отметить, например, что этап обучения ChatGPT закончился в 2021 году, поэтому инструмент опирается на данные, которые находятся в сети в этом году. Поэтому ответы, требующие знаний после этой даты, обязательно будут неправильными, устаревшими или выдуманными.

Источник