Российские ученые разработали открытый набор данных и способ обучения нейросетей для освоения тонкостей русского языка.

Новости МирТесен

Сотрудники Института искусственного интеллекта МГУ и компании «Яндекс» разработали LORuGEC — первую доступную для широкого использования коллекцию данных, содержащую примеры ошибок, допускаемых при нарушении сложных правил русского языка. Помимо этого, был создан метод, предназначенный для обучения систем искусственного интеллекта, способных устранять грамматические, пунктуационные и орфографические неточности при создании текстов. О новых разработках «Яндекс» сообщил во время проведения Конгресса молодых ученых.

Фото: img.freepik.com

Несмотря на то, что большие языковые модели способны создавать тексты, демонстрирующие неплохое качество, они нередко допускают ошибки в грамматике, пунктуации и орфографии русского языка. Причина кроется в недостаточном представлении сложных языковых норм в открытых базах данных, используемых для обучения нейронных сетей.

Сотрудники Института искусственного интеллекта МГУ и компании «Яндекс» создали датасет, охвативший 48 правил русского языка. В набор данных они включили правила, знание которых проверяют на Едином государственном экзамене (ЕГЭ) и олимпиадах: примеры с неверной пунктуацией в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.

«Студенты-лингвисты и справочные материалы были задействованы в процессе создания датасета. Наш набор данных включает тысячу примеров, в которых не только устранены ошибки, но и проиллюстрированы соответствующие правила русского языка», – сообщил Алексей Сорокин, старший научный сотрудник Института искусственного интеллекта МГУ и разработчик в отделе «Поиска» «Яндекса».

Чтобы обучить нейросеть исправлению сложных ошибок без переобучения на существующем наборе данных, ученые предложили новый метод Retrieval-Augmented Generation (модель, прошедшая дополнительное обучение, была создана с использованием технологии генерации, дополненной поиском GECTOR находит в LORuGEC предложения с тем же типом ошибок, что и в исходной фразе, а затем подсказывает их большой языковой модели. Например, если в предложении пропущена запятая перед «что», модель получит пример с такой же ошибкой, а не с любой пунктуационной. Этот подход помогает избегать лишних исправлений, изменяя только часть с неточностью, а не все предложение.

«Новая методика была проверена компанией «Яндекс» на её собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro, а также на зарубежных аналогах для проверки его универсальности. Полученные данные свидетельствуют о повышении точности коррекции сложных ошибок на 5-10 процентов согласно показателю F0,5 — в соответствии с международным стандартом оценки грамматической правильности. Данный подход позволил нейросетям эффективнее корректировать ошибки. Таким образом, точность YandexGPT 5 Pro достигла 83 процентов, а YandexGPT 5 Lite — 71 процента.

Датасет и методика обучения были опубликованы учеными в открытом доступе. Это даст возможность исследователям и разработчикам применять их, в частности, при разработке образовательных сервисов для школьников и студентов.

«Данный проект демонстрирует плодотворное взаимодействие между научным сообществом и технологическими предприятиями. Благодаря сотрудничеству специалистов в области лингвистики из университетов и инженеров-разработчиков, удалось создать продукт, способный учитывать нюансы русского языка», — отметил Сорокин.

В статье рассматривается датасет и метод дообучения нейронных сетей опубликована среди материалов конференции по компьютерной лингвистике ACL 2025. Работа была отмечена наградой за лучшее инновационное применение искусственного интеллекта в образовании на воркшопе, организованном в рамках конференции. Там также были представлены другие работы Google, Apple, IBM, Bloomberg AI и другие компании.

На полях Конгресса молодых ученых, ключевого события Десятилетия науки и технологий в России, «Яндекс» представил информацию о своих разработках. Мероприятие проходит с 26 по 28 ноября в Научно-технологическом университете «Сириус».

Scienty

Российские ученые разработали открытый набор данных и способ обучения нейросетей для освоения тонкостей русского языка.

Похожие посты:

Microsoft представила обновлённый дизайн Windows 10

В Кении обеспечили доступ к 4G-связи благодаря стратостатам

Новая система виртуальных денег обещает большую безопасность, чем блокчейн.