
Ученые из факультета ВМК МГУ создали библиотеку Python под названием Survivors для анализа событий во времени. Инструмент позволяет предсказать вероятность наступления событий, учитывая сложные зависимости в данных, и работает с пропущенными значениями и цензурированными наблюдениями. Работа опубликована в журнале « Московский государственный университет им. М.В. Ломоносова, Факультет вычислительной математики и кибернетики ».
Предсказание момента наступления событий играет ключевую роль в медицине, промышленной диагностике, CRM-системах и социологии. Анализ данных такого рода дает возможность оценить вероятность возникновения определенного события, например, поломки оборудования, ухода клиентов или выздоровления пациента после лечения. Отличительной чертой данной области является работа с цензурированными наблюдениями, когда неизвестно точное время наступления события. Тем не менее, традиционные методы анализа выживаемости имеют ряд недостатков, которые требуют строгих предположений о распределении событий во времени и сложной предварительной обработки.
Новая open-source библиотека Survivors Используя передовые методы машинного обучения, система устраняет минусы современных решений. Встроенные алгоритмы предсказывают вероятность каждого момента времени, делая прогноз более точным, чем обычная оценка ожидаемого времени события.
В отличие от существующих библиотек для анализа выживаемости, работающих только с заполненными числовыми данными и требующих строгих допущений, Survivors предлагает более универсальный подход. Алгоритмы деревьев решений и их ансамблей, применяемые в библиотеке, адаптированы для задач выживаемости и позволяют учитывать широкий спектр параметров без сложной подготовки данных. Поддержка числовых и категориальных переменных, а также пропущенных значений делает Survivors удобной для работы с реальными наборами данных.
«Survivors дает возможность решать задачи анализа выживаемости без предварительной обработки данных, обеспечивая точные прогнозы. Стремились создать инструмент, помогающий исследователям и практикам работать с реальными данными, принимая во внимание их сложность и непредсказуемость,» — отметил. Юлий ВасильевСотрудник лаборатории технологий программирования, факультет ВМК МГУ.
Библиотека предусматривает возможность учитывать случаи целенаправленной цензуры наблюдений, когда потери происходят не случайно (например, из-за изъятия оборудования на ремонт до выхода его из строя). Алгоритмы библиотеки оптимизированы для обработки больших объемов данных за счет параллельных вычислений и оптимизированных методов разбиения.
«Survivors» содержит модели деревьев выживаемости и их ансамбли для более точного прогнозирования за счет объединения прогнозов нескольких деревьев. В отличие от традиционных методов, таких как регрессия Кокса, библиотека использует усовершенствованные алгоритмы разбиения данных, повышающие точность предсказаний. Новые критерии оценки позволяют моделям учитывать сложные зависимости между переменными, что особенно важно при анализе многомерных медицинских и промышленных данных.
Эксперименты библиотеки проводились на девяти открытых медицинских наборах данных и промышленных датасетах. Результаты свидетельствуют о том, что Survivors предоставляет более стабильные и точные прогнозы по сравнению с традиционными моделями при минимальной настройке со стороны пользователя.
В ходе тестирования библиотеки на медицинских и промышленных данных установлено превосходство нашего метода по точности и устойчивости над существующими подходами. Survivors – удобный инструмент для анализа событийных данных без глубоких знаний в машинном обучении, – отметил Юлий Васильев.
Библиотека Survivors благодаря универсальности применима во многих областях. В медицине позволяет прогнозировать временные риски и оценивать продолжительность жизни пациентов с помощью интерпретируемых правил, понятных специалисту. В CRM-системах может рассчитывать вероятность оттока клиентов, а в промышленности — предсказывать деградацию оборудования и контролировать техническое состояние систем.
Упругая структура и открытый доступ к исходному коду позволяют Survivor… Система интегрируема с имеющимися аналитическими системами, позволяя исследователям и аналитикам применять передовые методики машинного обучения, не погружаясь в технические аспекты алгоритмов.
Информация предоставлена пресс-службой МГУ
Источник фото: ru.123rf.com