Учёные из России разработали новую архитектуру для высокопроизводительных языковых моделей.

Специалисты из лаборатории T-Bank AI Research, занимающейся исследованиями в области искусственного интеллекта, представили ReBased – новую архитектуру для создания быстрых языковых моделей, предназначенных для решения узкоспециализированных задач в области обработки естественного языка. Разработчики отмечают, что новая архитектура отличается экономичностью и высокой эффективностью.

ReBased демонстрирует более эффективное использование вычислительных ресурсов и обеспечивает более быструю обработку больших объемов текста, при этом незначительно уступая в качестве. Это является ключевым фактором для широкого применения языковых моделей в коммерческой сфере и также имеет экологическое значение. Снижение нагрузки на вычислительные мощности позволит уменьшить энергопотребление, что, в свою очередь, уменьшит воздействие крупных дата-центров на экологию.

В рамках новой разработки специалисты T-Bank AI Research провели анализ и внесли изменения в архитектуру Based, ранее представленную в конце 2023 года учеными из Стэнфордского университета. Усовершенствован механизм извлечения информации из текста, в который добавлены новые обучаемые параметры, обеспечивающие более эффективный поиск связей между фрагментами текста. Кроме того, упрощен алгоритм выделения информации, что позволило повысить производительность и улучшить качество работы архитектуры. Это привело к среднему улучшению понимания взаимосвязей в тексте на 10%.

Предлагаемая архитектура способна уменьшить затраты на применение искусственного интеллекта для решения узкоспециализированных задач, учитывающих определенные характеристики. Так, в сфере здравоохранения это может касаться классификации текстовых данных, основанной на симптомах и диагнозах.

Модели, использующие архитектуру ReBase, характеризуются сниженным потреблением ресурсов, при этом качество создаваемых текстов остается на высоком уровне.

Исследователи из T-Bank AI Research провели эксперименты, используя датасет MQAR (Multi-Query Associative Recall). Этот набор данных предназначен для оценки способности модели к контекстуальному обучению, в частности, к ассоциативному запоминанию – способности запоминать не связанные пары объектов, такие как, например, лицо человека и его имя.

В статье авторы представили детальное описание модели и изложили результаты экспериментов Линейные трансформеры с обучаемыми ядерными функциями демонстрируют лучшие результаты при использовании подхода in-context learning . Исходный код и дополнительные материалы доступны на GitHub.

Это исследование было представлено на 63-й Международной ежегодной конференции по компьютерной лингвистике (ACL), которая проходила в Бангкоке (Таиланд) с 11 по 16 августа 2024 года. Мероприятие считается ведущей мировой научной площадкой в области обработки естественного языка.

Представители Принстонского университета и Университета Карнеги-Меллона, являющиеся ведущими исследователями в области оценки эффективности ИИ, включали результаты своих исследований в свои публикации. Эти разработки нашли применение практически во всех современных языковых моделях.

По мнению исследователей T-Bank AI Research, в будущем линейные модели, такие как ReBased, все чаще будут интегрироваться с трансформерами в гибридных архитектурах, благодаря их способности обеспечивать высокую скорость и качество выполнения задач.