Нейросеть предсказывает структуру и функцию белков

Благодаря сотрудничеству специалистов Google и Европейского института биоинформатики появилась нейронная сеть глубокого обучения. Данный инструмент может предсказывать структуру, функции и свойства белков по их первичной структуре с высокой точностью. Новый алгоритм ускорит разработку лекарств и проектирование ферментов для промышленного производства продуктов питания, биотоплива и химикатов.

Главная группа исследователей трудится в офисе Google в штате Массачусетс, США.

Выяснение связи между порядком расположения аминокислот (первичной структурой) и функцией белка, то есть его механизмом работы, — долгое время является проблемой молекулярной биологии и мечтой специалистов различных отраслей промышленности, начиная с фармацевтической и заканчивая пищевой и химической.

Для изготовления различных химических веществ – лекарств, добавок или химикатов – наилучшим решением служат катализаторы-ферменты, то есть белки. Каждое применение требует специфического белка с задачей: переноса электронов или групп, образования или разрыва связей и т. д. Человек пока не способен создавать такие ферменты самостоятельно, поэтому обращается к природе за идеями, часто находит их в микроорганизмах.

Более шести десятилетий прогресса не позволили современным методам и алгоритмам определить функции трети большей части известных микробных белков, что тормозит их применение во благо человечества. Однако ежедневно в глобальные базы данных добавляется более ста тысяч новых белковых последовательностей.

Практическая ценность полученных данных невелика без функциональных аннотаций, то есть описаний функций белка и его биологического значения в клетке.

База данных Trembl, хранящая белковые последовательности, растет со временем. При этом уменьшается процент белков, для которых назначение установлено вручную.

Возможность определить функцию белка доступна с помощью ряда современных методов — анализа . микрочипов, РНК-интерференцию, двугибридный анализЭкспериментальное подтверждение функций открытых белков происходит медленнее, чем открытие новых последовательностей, и, вероятно, никогда не сможет догнать этот процесс.

В дальнейшем аннотирование новых белковых последовательностей преимущественно произойдет с помощью вычислительных методов, сравнивающих их с аминокислотными последовательностями белков имеющих известные функции, установленные экспериментально. При разработке новой технологии производства (например, лекарства) у ученых появятся предсказания нейросетей. По ним вручную необходимо будет выбрать наиболее подходящих белок-кандидатов и проверить их функции.

Специалисты из Google Research (Кембридж, Массачусетс, США) и Европейской молекулярно-биологической лаборатории Европейского института биоинформатики (EMBL-EBI) предложили новый метод вычислений для определения функций и свойств белков.

Графики точности-отклика нейросети ProteInfer для предсказания деятельности всех 7 основных групп ферментов построены с помощью варьирования порога принятия решения о прогнозе. /©Google research/ProteInfer

Исследователи, применяя алгоритм, обученный всемирной базой данных семейств аннотированных белковых доменов Pfam, добавили в нее новые аннотации с функциями белков, у которых давно расшифрована аминокислотная последовательность. Это увеличило количество записей в базе почти на 10%, включая 360 новых записей о функциях белков человека. По мнению авторов, это самое крупное обновление Pfam за последние 10 лет.

Разработка американских биоинформатиков упростит и ускорит процесс создания новых лекарств с учетом строения молекул-мишеней. Понимание структуры белков и их работы облегчит разработку новых биотехнологических ферментов для разных отраслей промышленности.

Статья с результатами исследования представлена в журнале Nature Biotechnology.

Помимо этого, авторы опубликовалиИнтерактивный научный труд с детальным изложением функционирования нейронной сети, результатами её тестирования и сопоставлением с аналогичными подходами в других проектах.