ЧатGPT может использоваться для рецензирования научных работ

Поскольку количество научных публикаций растет, поиск достаточного числа рецензентов превращается в сложную задачу. Недавнее исследование показало, что искусственный интеллект, например ChatGPT, может ускорить оценку, проводимую человеком (без снижения качества?). Тестирование документов, поданных в известные журналы, выявило заметное сходство комментариев ChatGPT и человеческих рецензентов. Но внедрение этой технологии вызывает споры о ее месте в процессе рецензирования.

Рецензирование, обеспечивающее качество и актуальность исследований, становится все более сложной задачей из-за растущего количества публикаций и усложнения их тематики.

Новости СМИ2

Недавнее исследование предположило, что искусственный интеллект, например ChatGPT, основанный на архитектуре GPT-4, может разрешить эту проблему. Предложение вызвало как надежду, так и скептицизм в научном сообществе. Исследование Стэнфордского университета размещено на платформе… в ожидании экспертной оценки.

Многообещающие результаты

Исследование выявило возможности модели GPT-4 в научной оценке. В нём использовалась значительная выборка из более чем 3 000 научных статей, опубликованных в известной серии журналов Nature, а также 1 700 статей с Международной конференции по изучению представлений (ICLR) — крупного события в области машинного обучения.

Результаты демонстрируют удивительную синхронность между замечаниями ChatGPT и оценками экспертов. В статьях для журнала Nature ИИ совпал с мнением по крайней мере одного рецензента более чем в половине случаев. Для статей, предназначавшихся журналу ICLR, совпадение достигло 77%. Такие показатели свидетельствуют не только о релевантности комментариев от ИИ, но и о его способности имитировать процесс человеческой оценки в сложной академической среде.

Неоспоримые преимущества

В отличие от других инструментов, GPT-4 может эффективно анализировать документы, включая научные, без предварительной обработки. При этом особое внимание уделяется четырем составляющим процесса рецензирования: определению новизны работы, выявлением элементов, которые обосновывают ее принятие, распознаванием причин для отклонения и предоставлением рекомендаций по улучшению документа.

В ходе исследования ChatGPT создавал комментарии к сотням статей, еще не прошедших рецензирование, но загруженных на серверы препринтов. Авторы опросили 308 исследователей в области ИИ и вычислительной биологии о впечатлениях от полученных рецензий.

Более 82% участников проявили значительное удовлетворение отзывами, предоставленными ChatGPT. По их мнению, ответы ИИ были не только актуальными, но и превосходили по качеству некоторые отзывы, полученные от человеческих рецензентов в прошлых экспериментах.

Задачи на будущее

Развитие искусственного интеллекта в научном сообществе вызвало немалый интерес из-за его впечатляющей эффективности. Однако энтузиазм необходимо сдерживать, осознавая ограничения этой технологии. ИИ, например, модели GPT, анализирует и комментирует письменные документы, но ему не хватает глубины понимания для рассмотрения конкретных технических аспектов оцениваемого исследования. Также ему не хватает интуиции и специальных знаний человека-рецензента. В комментариях ChatGPT не хватает технической точности.

Цзоу, несмотря на одобрение результатов своего исследования, отмечает этот нюанс в публикации.
Ведущий исследователь признаёт дополнительную ценность ChatGPT, особенно на начальном этапе оценки, когда инструмент позволяет быстро выявить требующие улучшения области или основные моменты.
Однако Цзоу подчеркивает необходимость не пренебрегать ролью людей, проводящих оценку. Имея опыт и подготовку, они обеспечивают контекстуальный анализ, часто обогащенный многолетними исследованиями в конкретных областях.

Замечание свидетельствует о том, что интеграция искусственного интеллекта в процесс оценки, несмотря на свой потенциал, нуждается в доработке для полного удовлетворения ожиданий исследователей. Искусственный интеллект следует воспринимать как дополнение, а не замену человеческому опыту. Совместное использование этих двух форм оценки может обеспечить более надежный и эффективный процесс рецензирования.