Исследование показывает, что ChatGPT может быть использован для рецензирования научных исследований

В связи с ростом числа научных публикаций набор рецензентов-людей становится сложной задачей. Недавнее исследование показало, что искусственный интеллект, в частности ChatGPT, может стать дополнительным решением для ускорения оценки, проводимой человеком (без ущерба для ее качества?). Тестирование документов, поданных в престижные журналы, показало заметное совпадение комментариев ChatGPT и человеческих рецензентов. Однако внедрение этой технологии вызывает споры о ее возможной роли в процессе рецензирования.

Рецензирование является основной формой научной проверки, обеспечивающей качество и актуальность публикуемых исследований. Однако в связи с растущим потоком публикаций и усложнением тематики научных работ перед научным сообществом встает серьезная проблема: как обеспечить строгое и быстрое рецензирование представленных работ?

Новости СМИ2

В связи с этим в недавнем исследовании было высказано предположение, что искусственный интеллект, в частности модель ChatGPT, основанная на архитектуре GPT-4, может предложить решение этой проблемы, что вызывает как надежду, так и скептицизм в научном сообществе. Исследование, проведенное Стэнфордским университетом, размещено на платформе arXiv в ожидании экспертной оценки.

Многообещающие результаты

Проведенное исследование показало возможности модели GPT-4 в области научной оценки. В тестировании участвовала достаточно большая выборка из более чем 3 000 научных документов для известной серии журналов Nature, а также 1 700 статей, представленных на Международной конференции по изучению представлений (ICLR) — крупном событии в области машинного обучения.

Полученные данные показали удивительную синхронность между отзывами ChatGPT и оценками экспертных оценок. Если говорить более конкретно, то в контексте статей, предназначенных для журнала Nature, ChatGPT более чем в половине случаев делал замечания, совпадающие с мнением по крайней мере одного из человеческих рецензентов. Еще более впечатляющими оказались результаты для статей, предназначенных для журнала ICLR, где совпадение достигло 77%. Эти цифры свидетельствуют не только о релевантности комментариев, генерируемых ИИ, но и о его способности имитировать процесс человеческой оценки в сложных академических условиях.

Неоспоримые преимущества

В отличие от других инструментов, GPT-4 может эффективно анализировать документы (даже научные) в их сыром виде, без предварительной обработки. При этом особое внимание уделяется четырем основным составляющим процесса рецензирования, гарантирующим полную и адекватную оценку. Этими компонентами являются: определение новизны работы, выявление элементов, которые оправдывают ее принятие, распознавание причин, которые могут привести к ее отклонению, и, наконец, предложение рекомендаций по улучшению документа.

В данном исследовании ChatGPT использовался для создания комментариев к нескольким сотням статей, еще не прошедших рецензирование, но недавно загруженных на серверы препринтов. Цзоу и коллеги опросили 308 авторов — всех исследователей в области ИИ и вычислительной биологии — с целью выяснить их впечатления от рецензий.

Подавляющее большинство, более 82%, выразили значительное удовлетворение отзывами, предоставленными ChatGPT. По мнению этих исследователей, отзывы ИИ были не только релевантными, но и превосходили по качеству некоторые отзывы, полученные ими от человеческих рецензентов в ходе предыдущих экспериментов.

Задачи на будущее

Появление искусственного интеллекта в области научных оценок вызвало большой интерес из-за его впечатляющей эффективности. Однако этот энтузиазм должен быть сдержан осознанием ограничений, присущих этой технологии. Действительно, хотя ИИ с помощью таких моделей, как GPT, демонстрирует способность анализировать и давать соответствующие отзывы на письменные документы, ему не хватает глубины понимания, необходимой для рассмотрения конкретных технических аспектов оцениваемого исследования, а также интуиции и специальных знаний, которые может дать человек-рецензент. Фактически, в комментариях ChatGPT не хватает технической точности.

Именно поэтому, несмотря на общее одобрение результатов своего исследования, ведущий исследователь Цзоу также подчеркивает этот нюанс в своей публикации. Он признает дополнительную ценность ChatGPT, особенно на этапе первоначальной оценки, когда инструмент позволяет быстро выявить области, требующие улучшения, или основные моменты. Однако он подчеркивает, что не следует пренебрегать ролью людей, проводящих оценку. Последние, обладая опытом и подготовкой, обеспечивают контекстуальный анализ, часто обогащенный многолетними исследованиями в конкретных областях.

Это замечание говорит о том, что интеграция ИИ в процесс оценки, несмотря на ее перспективность, все еще требует корректировки, чтобы полностью оправдать ожидания исследователей. ИИ следует рассматривать как дополнение, а не замену человеческого опыта. Синергия между этими двумя формами оценки может привести к более надежному и эффективному процессу рецензирования.

Источник