Исследователи разработали инструмент, основанный на машинном обучении, для обнаружения научных статей, генерируемых ChatGPT. По сравнению с другими известными детекторами, этот инструмент особенно эффективен для анализа текстов в области химии. Однако разработав эту первоначальную модель, исследователи поняли, что создать инструменты обнаружения, предназначенные для других областей, будет довольно просто.
До появления искусственного интеллекта обвинения в адрес научных статей часто касались плагиата. Теперь, когда технология практически не подвергается критике, дискуссия, похоже, переходит к вопросу о контенте, создаваемом ИИ.
В частности, в академической среде исследователи и студенты, представляющие работы, созданные ИИ, нарушают принципы оригинальности и индивидуального подхода к работе. Именно поэтому группа ученых из Канзасского университета (США) под руководством Брюйера Дезера разработала программное обеспечение, позволяющее надежно выявлять контент, созданный ChatGPT.
Этот инструмент основан на машинном обучении и особенно эффективен при анализе научных статей, в частности, в области химии. Для этого детектор изучает 20 различных характеристик стиля письма, включая вариации длины предложений, частоту употребления определенных слов и знаков препинания. Результаты исследования подробно описаны в журнале
Надежность до 100%
Для обучения детектора использовались 100 вступлений к статьям из десяти различных журналов Американского химического общества (ACS). Эти образцы текстов использовались в качестве примеров контента, написанного человеком. Затем ChatGPT-3.5 было предложено создать 200 вступлений, имитирующих стиль написания статей в журналах ACS. 100 из этих текстов были созданы путем вставки в подсказки только названий статей. Остальные 100 текстов были созданы путем включения в них аннотаций статей.
В ходе тестирования при использовании детектора для идентификации вступлений, сгенерированных ChatGPT-3.5, по названиям статей была достигнута 100% надежность. Для вступлений, которые ChatGPT генерировал, используя в качестве отправной точки аннотации, надежность детектора составила 98%. Детектор также хорошо работал с текстами, сгенерированными ChatGPT-4.
Команда также сравнила этот инструмент с двумя другими детекторами. Первый, названный ZeroGPT, показал гораздо худшие результаты, надежность которого варьировалась от 35 до 65% в зависимости от версии ChatGPT. Второй инструмент, разработанный OpenAI (компанией-разработчиком ChatGPT), показал еще более низкую надежность — от 10% до 55%.
Детектор, специализирующийся на научных статьях
В ходе испытаний было показано, что система особенно эффективна при анализе статей в научных журналах, в частности, в области химии. По мнению одного из исследователей, было бы предпочтительнее разрабатывать детекторы, специализирующиеся на конкретных областях, а не «универсальные» инструменты. Это позволит повысить точность, так как они будут обучены распознавать стили написания, характерные для этих областей.
Более того, демонстрируя уже доказанную эффективность своего детектора, Дезер и его команда находятся на правильном пути. По их мнению, когда будет разработан эффективный метод обнаружения для конкретной темы, его будет просто применить в других областях.