Нейросеть, разработанная учеными ВШЭ, способна определять генетическое происхождение людей

В Институт искусственного интеллекта и цифровых наук Высшей школы экономики ФКН предложили новый подход, основанный на современных методах машинного обучения, для определения генетического происхождения человека. Графовые нейросети позволяют с высокой точностью различать даже очень близкие популяции.

В последние 10–15 лет генетический анализ приобрел широкую популярность, став не только инструментом медицинской диагностики, но и способом узнать больше о своем происхождении. Благодаря анализу ДНК можно оценить этническое происхождение, определить места проживания и миграционные пути предков, а также выяснить количество участков ДНК неандертальцев, присутствующих в геноме.

Развитие современных технологий, таких как генотипирование, системы хранения и обработки данных, машинное обучение, а также заметное удешевление этих технологий сделали это возможным. Однако, текущие методы тестирования не позволяют различать генетически схожие родственные популяции, которые длительное время обитали на близлежащих территориях.

Исследователи Института ИИ и цифровых наук Специалисты НИУ ВШЭ создали метод, который позволяет определить происхождение людей, происходящих из близкородственных популяций. Технология основана на использовании графовых нейронных сетей. Алгоритм анализирует не саму последовательность ДНК, а графы, отображающие генетические связи между людьми, имеющими общие участки генома. Эти участки отражают степень родства и указывают на количество поколений, прошедших с момента общих предков. Чем больше совпадений, тем ближе люди по происхождению. В модели вершины соответствуют отдельным людям, а ребра отображают степень их родства.

Тестирование метода проводилось с использованием данных, полученных из различных регионов. Наиболее интересные результаты были получены для населения Восточно-Европейской равнины, для которого накоплена обширная база данных. Графовая нейросеть продемонстрировала способность с высокой точностью определять популяционную принадлежность даже у представителей генетически схожих народов.

«Имеющиеся подходы к генетическому анализу решают иные вопросы: они устанавливают принадлежность к крупным, обособленным группам населения, например, позволяют определить наличие французских, немецких или английских корней. Предлагаемый нами метод позволяет исследовать близкородственные популяции, что представляет особую ценность для России, страны с богатой историей и многонациональным составом», — говорит Алексей Шмелев, один из авторов работы, стажер-исследователь Международная лаборатория статистической и вычислительной геномики Института ИИ и цифровых наук ФКН НИУ ВШЭ.

В последующих исследованиях планируется обучить нейросеть для прогнозирования доли различных популяций в геноме.

Исследователи зарегистрировали свою разработку под названием AncestryGNN — «Нейросетевое предсказание популяционной принадлежности по общим сегментам генома».

Как отметил заведующий Международная лаборатория статистической и вычислительной геномики Института ИИ и цифровых наук ФКН НИУ ВШЭ Владимир Щур, предлагаемый метод позволяет точнее определять популяционную историю людей и может быть полезен в генеалогических исследованиях и антропологии.

Данная работа была осуществлена при поддержке гранта Правительства Российской Федерации в рамках федерального проекта «Искусственный интеллект».

Информация предоставлена пресс-службой НИУ ВШЭ