Учёные Яндекса представили новую нейросетевую архитектуру для обработки табличных данных.

Яндекс Research, лаборатория, занимающаяся исследованиями в области искусственного интеллекта, разработала нейросетевую архитектуру TabM, предназначенную для работы с табличными данными. Эта разработка обеспечивает возможность быстрой обработки больших объемов информации и создания точных прогнозов при относительно небольшом потреблении вычислительных мощностей. Такие модели находят применение в широком спектре задач, включая прогнозирование потребления энергии и классификацию пациентов в зависимости от степени риска развития заболеваний.

Научная работа, посвященная модели, была представлена на ICLR, одной из ведущих мировых конференций, посвященных искусственному интеллекту. Статья также опубликована в архиве научных статей препринтов Корнеллского университета. Сама архитектура выложена в открытом доступе на GitHub.

Традиционно для работы с табличными данными классические модели градиентного бустинга на решающих деревьях (CatBoost, XGBoost, LightGBM) считались эталонными. В последние годы для решения подобных задач активно разрабатываются и нейросетевые архитектуры — начиная от простых многослойных перцептронов (MLP) и заканчивая более сложными моделями, основанными на трансформерах и механизмах извлечения информации. Однако вопросы, касающиеся стабильности и эффективности этих новых подходов в широком диапазоне табличных задач, а также их пригодность для практического использования, до сих пор остаются предметом обсуждения.

Исследователи из Yandex Research в своей работе рассмотрели возможность повышения эффективности многослойных перцептронов (MLP) с помощью параметро-эффективного ансамблирования. В качестве решения они предложили архитектуру TabM, основанную на многослойном перцептроне и использующую модифицированную технику BatchEnsemble. Эта архитектура предполагает создание нескольких виртуальных подмоделей внутри одной нейронной сети, которые имеют частично общие параметры, а их предсказания затем усредняются.

Благодаря такому подходу TabM не только превзошел базовые MLP и более сложные современные нейросетевые архитектуры, предназначенные для работы с табличными данными, но и показал результаты, сравнимые или лучшие по сравнению с передовыми классическими моделями градиентного бустинга. Оценка производительности проводилась на 46 наборах данных, в результате чего TabM в среднем занимал место между первым и вторым (средний результат 1,7).

Этот результат весьма впечатляющий, поскольку обычно модели такого типа способны делать точные прогнозы лишь для ограниченного числа наборов данных, для которых они были специально настроены. Как правило, обычная модель не занимает лидирующие позиции в десятках различных наборов данных. К примеру, ближайший конкурент TabM в среднем занимал позиции, близкие к третьему месту (2,9).

TabM демонстрирует наилучшие показатели с точки зрения универсальности. Это обусловлено тем, что создание специализированной модели для каждого нового набора данных — длительный, дорогостоящий процесс, который не всегда обеспечивает оптимальное качество. В отличие от других MLP-моделей, TabM обладает универсальной архитектурой, позволяющей использовать ее без существенной адаптации. В результате, специалисты получают доступ к новому, производительному и более удобному в использовании инструменту.

TabM уже использовался в реальных условиях на Kaggle, платформе международных соревнований по анализу данных и машинному обучению, принадлежащей Google. В частности, TabM применяли для прогнозирования вероятности выживания пациентов после трансплантации костного мозга. В процессе обучения модель получала таблицу с информацией о пациентах, имеющих схожие диагнозы, включая данные о выживаемости. После этого, обученная модель использовалась для прогнозирования выживаемости текущих пациентов.

Начиная с 2019 года, исследователи из Yandex Research представили восемь научных статей по глубокому обучению моделей для работы с табличными данными. В общей сложности статьи получили более 1900 цитирований. В частности, статью о TabM цитировали Университет Мангейма (Германия), Национальный университет Сингапура, Корейский университет, Иллинойсский университет в Урбане-Шампейне (США). В разные годы статьи были приняты на самые влиятельные конференции по ИИ, в том числе NeurIPS, ICLR и ICML.