Развитие искусственного интеллекта открыло новые возможности в синтетической и структурной биологии, что позволило ускорить создание белков с заданными свойствами — от антител до факторов свертывания крови. Компьютерные технологии теперь способны с высокой точностью прогнозировать трехмерную структуру белков, исходя из их аминокислотной последовательности.
Даже с использованием самых передовых инструментов искусственного интеллекта предсказать структуру около 30 % белков, кодируемых человеческим геномом, остается сложной задачей, включая AlphaFold, получивший Нобелевскую премию. Внутренне неупорядоченные белки, не имеющие постоянной структуры и непрерывно изменяющие её, выполняют важную роль во множестве биологических процессов, включая сшивание молекул, восприятие и передачу сигналов. Однако, из-за их низкой стабильности, создание таких белков с нуля представляет собой сложную задачу.
Команда из Школа инженерных и прикладных наук имени Джона А. Полсона при Гарвардском университете (SEAS) и Северо-Западного университета продемонстрировала новый метод машинного обучения, который позволяет создавать внутренне неупорядоченные белки с заданными свойствами. Эта работа открывает возможности для изучения этих загадочных биомолекул и получения новых данных о причинах возникновения заболеваний и методах их лечения. Работа была опубликована в Nature Computational Science.
Шринивас, автор данной статьи, пояснил, что его интерес к изучению внутренне неупорядоченных белках обусловлен тем, что современные методы, основанные на искусственном интеллекте, не позволяют эффективно исследовать их. При этом такие белки играют важную роль во многих фундаментальных биологических процессах, и известно, что мутации в их структуре могут приводить к развитию таких заболеваний, как рак и нейродегенеративные расстройства. Альфа-синуклеин, представляющий собой пример неупорядоченного белка, уже давно ассоциируется с болезнью Паркинсона.
В статье представлен вычислительный метод, использующий алгоритмы, способные к «автоматическому дифференцированию» – вычислению производных, то есть мгновенным скоростям изменения, для выбора белковых последовательностей, обладающих заданными свойствами. Этот подход широко применяется в глубоком обучении и для обучения нейронных сетей, однако Бреннер и его лаборатория одними из первых определили и другие возможности его использования, например, для оптимизации моделирования молекулярной динамики, основанного на физических принципах.
Благодаря автоматическому дифференцированию исследователям удалось научить компьютер определять незначительные изменения в белковых последовательностях. Замена всего одной аминокислоты оказывает влияние на итоговые характеристики белков. Специалисты проводят аналогию своего подхода с высокопроизводительной поисковой системой, позволяющей находить аминокислотные последовательности, соответствующие заданным критериям, таким как формирование петель и соединений или распознавание компонентов окружающей среды.
«Наша задача не заключалась в сборе большого объема данных и обучении модели машинного обучения для создания белков, — пояснил Крюгер, один из авторов исследования. — Мы стремились использовать уже имеющиеся, достаточно надежные модели для этой цели».
Для выявления новых последовательностей применяется стандартный подход к обучению нейронных сетей, известный как «оптимизация на основе градиента», что позволяет добиться высокой эффективности и точности. Полученные таким образом белки обладают свойством «дифференцируемости», что означает, что они не являются идеальными предсказаниями, сгенерированными искусственным интеллектом, а формируются на основе моделирования молекулярной динамики, учитывающего физические законы и отражающего реальное динамическое поведение белков в естественной среде.
[Фото: Рамана Шринивас / Школа инженерии и прикладных наук имени Джона А. Полсона Гарвардского университета ]