На факультете ВМК МГУ разработана база данных для прогнозирования выживаемости.

Новая библиотека на языке Python, названная Survivors (что в переводе с английского означает «Выжившие»), была представлена исследователями факультета ВМК МГУ. Этот инструмент предназначен для анализа событий, происходящих во времени, и позволяет прогнозировать вероятность их наступления, учитывая сложные взаимосвязи в данных. Он также способен работать с пропущенными значениями и цензурированными наблюдениями. Описание разработки было опубликовано в журнале « Московский университет вычислительной математики и кибернетики ».

Оценка времени возникновения событий играет ключевую роль в медицине, промышленной диагностике, CRM-системах и социологических исследованиях. Обработка таких данных позволяет определить вероятность наступления конкретного события, будь то поломка оборудования, потеря клиентов или выздоровление пациента после терапии. Одной из характерных черт этой области является работа с цензурированными данными, когда точное время возникновения события остается неизвестным. Однако традиционные подходы к анализу выживаемости имеют определенные недостатки, поскольку они требуют жестких предположений относительно распределения событий во времени и сложной предварительной подготовки.

Новая open-source библиотека Survivors использует передовые методы машинного обучения и устраняет многие недостатки существующих решений. Встроенные методы позволяют прогнозировать вероятность наступления события для всех моментов времени, предоставляя более детальный прогноз по сравнению с оценкой ожидаемого времени события.

Survivors отличается от других библиотек, предназначенных для анализа выживаемости, поскольку предлагает более гибкий подход. Используемые алгоритмы, основанные на деревьях решений и их комбинациях, адаптированы для решения задач выживаемости и позволяют учитывать разнообразные факторы, не требуя при этом предварительной обработки данных в строгом соответствии с определенными требованиями. Библиотека поддерживает числовые и категориальные переменные, а также умеет работать с пропущенными значениями, что обеспечивает удобство при работе с реальными данными.

«Survivors позволяет решать задачи анализа выживаемости, не требуя предварительной обработки данных, что обеспечивает высокую точность прогнозов. Разработчики стремились создать инструмент, который поможет исследователям и специалистам работать с данными, отражающими их сложность и неопределенность», — отметил Юлий Васильев, сотрудник лаборатории технологий программирования, факультета ВМК МГУ.

Библиотека позволяет учитывать ситуации, когда цензурирование информации происходит не случайно, например, когда оборудование выводится из эксплуатации и отправляется на техническое обслуживание до поломки. Ее алгоритмы оптимизированы для обработки больших объемов данных, что обеспечивает высокую вычислительную эффективность благодаря параллельным вычислениям и оптимизированным методам разделения информации.

Survivors содержит модели выживаемости и их комбинации, которые обеспечивают более точный прогноз благодаря объединению результатов работы нескольких деревьев. По сравнению с традиционными подходами, например, регрессией Кокса, эта библиотека использует улучшенные алгоритмы разделения данных, что позволяет существенно повысить точность предсказаний. Усовершенствованные критерии оценки помогают моделям более эффективно учитывать сложные взаимосвязи между переменными, что критически важно при анализе многомерных медицинских и промышленных данных.

В рамках проведенных экспериментов библиотека была проверена с использованием девяти общедоступных медицинских наборов данных и промышленных датасетов. Полученные результаты продемонстрировали, что Survivors обеспечивает более стабильные и точные прогнозы по сравнению с традиционными моделями, и при этом не требует значительной настройки параметров пользователем.

«В ходе тестирования библиотеки на реальных медицинских и промышленных данных мы подтвердили, что наш метод демонстрирует более высокую точность и устойчивость по сравнению с существующими решениями. Survivors – это удобный инструмент для анализа событийных данных, не требующий специальных знаний в области машинного обучения», — отметил Юлий Васильев.

Библиотека Survivors благодаря своей универсальности находит применение в широком спектре задач. В медицине она позволяет прогнозировать риски, связанные с течением времени, и оценивать ожидаемую продолжительность жизни пациентов, основываясь на экспертных правилах. В CRM-системах ее используют для определения вероятности ухода клиентов, а в промышленности — для предсказания износа оборудования и отслеживания состояния технических систем.

Survivors отличаются гибкостью архитектуры и работают на базе открытой лицензии удобной для интеграции в существующие аналитические системы, что дает исследователям и аналитикам возможность использовать современные методы машинного обучения без необходимости глубоко разбираться в технических деталях алгоритмов.

Информация предоставлена пресс-службой МГУ