Машинное обучение ставит под вопрос традиционные методы научных исследований – мнение статистика

Машинное обучение широко применяется исследователями для анализа данных, но это, по всей видимости, привело к возникновению определенных сложностей.

На недавней научной конференции American Association for the Advancement of Science, проходившей в Вашингтоне, статистик из Университета Райса Дженевера Аллен высказала серьезное предупреждение, что ученые используют алгоритмы машинного обучения для поиска паттернов в данных даже тогда, когда алгоритмы сосредотачиваются на шуме, который невозможно воспроизвести в повторном эксперименте.

«По словам Аллен, современная наука столкнулась с кризисом воспроизводимости. Она даже предполагает, что значительная его доля обусловлена использованием методов машинного обучения в научных исследованиях».

По мнению Аллен, трудности могут появиться, когда ученые накапливают значительные массивы геномных данных и сталкиваются с задачей определения групп геномных профилей, имеющих сходные характеристики воспользуются алгоритмами машинного обучения, которые они плохо понимают.

«Часто эти исследования кажутся корректными, пока не станет доступен следующий масштабный набор данных, к которому кто-то снова применит эти техники, и не скажет: “Боже мой, результаты этих двух исследований не совпадают”», — продолжает Аллен.

По ее словам, основная сложность машинного обучения заключается в его способности выявлять взаимосвязи, которых на самом деле не существует. Она считает, что решением станут алгоритмы нового поколения, которые будут лучше справляться с оценкой надежности генерируемых ими же предсказаний.

«Действительно ли мы можем доверить применение методов машинного обучения к большим объемам данных, основываясь на современных открытиях? — спрашивает Аллен. — В большинстве случаев ответ, вероятно, будет отрицательным, и потребуются дополнительные проверки, — однако уже разрабатываются новые системы машинного обучения, способные оценивать точность и надежность своих прогнозов».