Искусственный интеллект и революция в биомедицине

Кино часто показывает искусственный интеллект и роботов как коварных и злокозненных, редко же как лечащих смертельные болезни или омолаживающих человеческие тела. Тем не менее биомедицина — одна из важнейших сфер применения ИИ. За последние пять лет здесь произошло немало впечатляющих прорывов. Уже сейчас ИИ может реально помочь многим людям. Однако консерватизм и недоверие многих врачей к новым технологиям препятствуют широкому внедрению таких систем. Какими открытиями искусственный интеллект совершил в молекулярной биологии и как они повлияют на лечение рака и продление жизни — в четвертой статье цикла Naked Science об ИИ и его влиянии на наше общество.

Генеративная нейросеть MidJourney визуализирует представление о том, каким будет искусственный интеллект в качестве врача.

ИИ заглядывает внутрь клетки

Молекулярная биология долгое время была наукой, требующей работы преимущественно в лабораториях с растворами и препаратами. Начало новой эры положило в 1990 году начало проекта «Геном человека». Более тридцати лет, прошедших с того момента, отмечены несколькими важными тенденциями.

Первое – это развитие технологий секвенирования: «чтения» последовательности нуклеотидов, букв в коде ДНК и РНК, а также их последующее удешевление. Получение сиквенса первого полного генома человека заняло 13 лет и около трех миллиардов долларов (по нынешней стоимости – почти шесть). Сегодня каждый может сделать то же самое за неделю-две. потратив всего от 600 до тысячи долларов!

Второе — это наступление «эры эпигенетики». Несмотря на столетнюю историю, ее расцвет и сдвиг парадигмы понимания наследственности произошли после 1990 года. Секвенирование помогло понять, что важно не только какие гены и их мутации существуют в геноме живых существ, но и как именно, почему и в какой момент времени они активны.

Третий тренд, дополняющий первые два, — это появление и развитие разнообразных «омиков».

При этом все наши гены в ДНК формируют геном. Активные в данное время гены вырабатывают набор РНК, называемый транскриптом. ом. Все белки, созданные с использованием мРНК, являются протеинами. ом. Все сигнальные пути в клетках, где участвуют белки-продукты экспрессии, основаны на взаимодействии. ом. Ну а все молекулы-метаболиты — метаболомВажно помнить, что белки не только должны образовываться, но и пройти процесс упорядочивания, при котором приобретают особую трехмерную форму, определяющую их характеристики.

Программа выводит данные на лист. PAL2NALОна осуществляет перевод многочисленных выравниваний последовательностей белков с соответствующими последовательностями ДНК (или мРНК) в выравнивания кодонов.

«Омикс» сгенерировал огромные массивы данных в молекулярной биологии. В новую эпоху ключевыми исследователями стали специалисты по обработке больших омикс-данных, так называемые «сухие» биоинформатики. Иногда эти люди никогда не работали в лабораториях, но отлично разбирались в обработке данных и поиске закономерностей. Одним из лучших методов является машинное обучение. Как известно, большие данные — это всегда топливо для систем искусственного интеллекта. Поэтому ИИ быстро стал как распространенным методом исследования в биологии, так и прикладной технологией, реализующей научные открытия в виде полезных медицинских продуктов для пациентов и врачей.

ИИ побеждает рак

Если геном является сравнительно стабильной чертой наших клеток (при условии возможности возникновения мутаций), то все остальные «омики» меняются в зависимости от вида клеток, тканей, органов, состояния организма, воздействия внешних факторов и даже психологического стресса.

В обыденном понимании рак — единое заболевание. На самом деле врачи называют раком только злокачественные опухоли эпителиальной ткани — карциномы. Но такие новообразования могут появляться во всех тканях: костной, соединительной или мышечной (саркомы), нервной (глиомы), клетках лимфатической системы (лимфомы), крови и костного мозга (лейкемии) и так далее.

Даже не это важно. Опухоли в матке или молочной железе у двух женщин могут проявляться похоже, но на уровне генома, транскрипта и протеома кардинально различаться. Поэтому при лечении одинаковыми методами терапия может быть успешной у одной пациентки, а у другой – нет.

Омикс-данные и технологии ИИ открыли в медицине путь к персонализированной и прецизионной медицине, где лечат не заболевание как таковое, а конкретного пациента с его индивидуальной формой патологии. Лечение основано на информации о уникальном профиле активных генов и экспрессированных белков данного пациента в данный момент.

Российский биомедицинский стартап успешно реализовал прецизионный подход с применением ИИ в исследованиях, диагностике и лечении. OncoboxРезидент фонда «Сколково». Сооснователь и директор по науке компании – доктор биологических наук Антон Буздин из ИБХ РАН, а в числе исследователей – ведущие российские онкобиоинформатики из МФТИ и Сеченовского университета.

Более 160 целевых лекарств применяются для лечения солидных опухолей. Каждый препарат воздействует на свои специфические молекулярные мишени в раковых клетках, что приводит к разной эффективности у разных групп пациентов. Для обоснованного выбора конкретного целевого препарата для каждого пациента необходимо Oncobox разработали особое диагностическое исследование.

Это включает полное экзомическое секвенирование нового поколения. Next Generation Sequencing, NGSСеквенирование ДНК биоматериала опухоли, полученного при пункции или после хирургической операции, позволяет прочесть свыше 22 500 кодирующих белков генов и выявить в них ведущие мутации, способные вызвать развитие опухоли.

Изображение увеличения раковых клеток в теле.

Далее определяется мутационная нагрузка опухоли (количество мутаций на каждый миллион нуклеотидов), а также проводится транскриптомный анализ активности генов по уровню экспрессии мРНК. В результате выявляются отличия в экспрессии генов в опухолевой и здоровой ткани. Транскриптомные данные показывают, какие гены подавлены, а какие активны и могут стать мишенями для таргетных препаратов.

Исследование завершают два нововведения российской компании: интерактивный анализ, в ходе которого биоинформационные алгоритмы выявляют специфические изменения молекулярных путей конкретной опухоли и моделируют воздействие на них большинства противоопухолевых лекарств. В итоге искусственный интеллект, опираясь на геномные, транскриптомные и интерактивные данные, формирует индивидуальный рейтинг эффективности более чем 160 таргетных препаратов.

Вниманию лечащего врача стоит обратить внимание на первые пять-десять позиций рейтинга. В него часто попадают как препараты, используемые в «золотом стандарте» терапии для данного вида опухолей, так и неординарные. Условно говоря, у пациентки может быть рак яичника, но система рекомендует средство против рака легких.

Проблема в том, что клиницисты традиционной школы обычно отказывают в прописывании таких лекарств, так как те не входят в стандартные рекомендации.
В этом срабатывают не только предубеждение и отсутствие понимания специфики современной прецизионной медицины и работы искусственного интеллекта, но и определённые юридические опасения.
Несмотря на это, на поздних стадиях онкологических заболеваний врачи могут назначать препараты.
off-label Нестандартные, в том числе экспериментальные, методы лечения часто дают хорошие результаты у пациентов. Тем не менее, доверие онкологов к «второму мнению» от искусственного интеллекта и возможности назначения препаратов на его основе остаётся вопросом.

ИИ преодолевает старение

Науку о продлении жизни (longevity scienceСейчас сложно представить жизнь без технологий искусственного интеллекта. Например, Александр Жаворонков, бывший приглашённый профессор МФТИ и заведующий лабораторией биоинформатики ФНКЦ ДГОИ, запустил стартапы. Insilico Medicine и Deep LongevityКомпании, ищущие средства «вечной молодости», применяют глубокое обучение. В эти компании инвестировал известный визионер и евангелист ИИ из Китая Кай-Фу Ли, имеющий около 70 миллионов подписчиков в социальных сетях.

Нейросети находят наборы биологических маркеров, способных стать объективными показателями возраста. DAC — Deep Aging ClocksВ их числе «часы» разнообразных видов: генетические, эпигенетические, протеомные и психологические (на основе ответов на опросы), по результатам общего анализа крови, ЭКГ и ЭЭГ, а также по изображениям лиц.

Около 17 DAC как раз и обнаружила компания Deep LongevityГруппа исследователей во главе с Жаворонковым. изучилС помощью машинного обучения проанализировали транскриптомы клеток скелетных мышц.
Отслеживая возрастные изменения активности генов, установили, что в процессе старения ключевую роль играют гены, отвечающие за поддержание баланса ионов кальция и ряд внутриклеточных сигнальных путей, включая взаимодействие с нейромедиаторами.

©Daniele Levis Pelusi, Unsplash

Любой из DACМожет стать биологической мишенью для препарата, направленного против старения. В поиске таких мишеней также помогают нейросети.
Нейросети осуществляют скрининг фармакологических баз данных, содержащих сведения о свойствах миллионов уже известных молекул. Сопоставляя и комбинируя множество их сочетаний, искусственный интеллект определяет потенциальные субстанции, способные повлиять на ту или иную биологическую мишень. Более того,
способныТакже предсказывать, какие действующие вещества в медицине могут оказывать до сих пор неизвестное противовозрастное воздействие, и какие химические изменения необходимы для усиления желаемого эффекта.

В результате ИИ позволил сделать молекулярный скрининг задачей, решаемой с помощью недлительных вычислений, вместо множества трудоёмких и затратных реальных экспериментов. in silico— «В Кремниевой долине», то есть на компьютере, используя машинное обучение. А генеративно-состязательные нейросети Generative adversarial network, GANДва модуля, взаимодействуя внутри одной системы, — один предлагающий, другой отвергающий решения — способны создавать молекулы с заданной структурой и свойствами.

Наиболее известны среди них модели SeqGAN, RANC и ATNC. При этом в 2017 году Insilico Medicine Александра Жаворонкова продемонстрировала собственную модель. druGANСпособность генерировать мелкие соединение, воздействующие на опухоли.

ИИ предсказывает ДНК

За два последних года произошло много значительных достижений в области технологий обработки естественного языка. Natural language processing, NLPГенеративные языковые модели, например, добились значительных успехов. GPT-3 и LaMDA для английского языка, созданные в Сбере ruGPT-3 и в Яндексе YaLM 100B для русского языка, мультиязычные BLOOM и mGPT. Все модели могут работать не только с естественными языками, но и с другими знаковыми системами — языками программирования, нотными записями, математическими выражениями и так далее.

Код ДНК — своего рода язык или знаковая система с алфавитом, правилами сочетания в слова и грамматикой выражений. Это метафора, но полезная, потому что с расшифрованным геномом человека можно работать как с текстом, применяя современные технологии. NLP-модели.

В этом году весной группа учёных из российской секции «Биоинформатика» Института исследования искусственного интеллекта AIRI (Artificial Intelligence Research InstituteСовершено открытие мирового значения. Представлена языковая модель-трансформер. GENA-LM, впервые обученную на новейшем дата-сете T2T-CHM13содержит самую исчерпывающую информацию о человеческой ДНК на сегодняшний день.

Проект «Геном человека» в 2003 году завершился секвенированием не всего генома, а лишь 85% — эухроматина, включающего гены и участки между ними. Вспомогательная часть — гетерохроматин — была расшифрована только весной 2022 года.

В GENA-LM Кодировщик преобразует входные последовательности в векторы, используемые декодировщиком. Разработчики добавили в эту систему механизм внимания. BigBirdМодель предназначена для повышения эффективности обработки длинных последовательностей. Во время обучения задачей модели было предсказание 15% скрытой части последовательности по 85% открытой части.

Модель, разбирающая скрытые закономерности в последовательности ДНК человека, поможет изучить механизмы ее функционирования и выявлять опасные нарушения. GENA-LM Возможна идентификация участков, способных стимулировать или тормозить активность отдельных генов и целых генетических путей.

ИИ сворачивает белки

Говоря об воздействии ИИ на молекулярную биологию, нельзя не упомянуть знаменитую модель-трансформер. AlphaFold 2 от компании DeepMind. Запущенная в конце 2020 года, к июлю 2022-го система смогла сгенерировать трехмерные структуры более чем для 200 миллионов белков. Разработчики назвали это достижение «всей белковой вселенной».

Изображение функционирования алгоритма AlphaFold.

Это утверждение не просто слова без смысла. Публичный набор данных содержит сведения о белках архей и бактерий, а также растений, грибов и животных.

Белки — важные молекулы жизни. Их структура заложена в ДНК, но свойства и функции формируются благодаря сложной пространственной форме. Форма задается при укладке белка как из последовательности аминокислот, из которых состоят все белки, так и условиями сворачивания цепи и рядом других факторов.

До возникновения искусственного интеллекта в молекулярной биологии для выяснения действия белка его структуру определяли экспериментально. Это занимало много времени и средств, исследования могли длиться годами. За несколько десятилетий учёные собрали информацию о структуре почти двухсот тысяч белков.

Для обучения модели был использован созданный дата-сет. AlphaFold 2. В итоге, за полтора года ИИ достиг результатов, превосходящих по масштабу достижения всего научного сообщества молекулярных биологов Земли за всю историю его существования.

Вместо заключения

Интеллектуальные системы произвели революцию в биологии,transforming исследовательские лаборатории университетов и институтов. R&D-В частных компаниях бурно развиваются медицинские технологии. Однако реальные системы здравоохранения во многих странах пока не вышли за рамки медицины конца XX века.

Каждое применение ИИ в биологии открывает новые возможности для практического здравоохранения. Задача биомедицинского кластера Фонда “Сколково” на этапе освоения практических применений концепций — поддержать команды, чтобы технологии доказывали свою эффективность на рынке. Для этого требуется кропотливая работа с моделями функционирования систем здравоохранения разных стран и всей индустрии наук о жизни. Просвещение медицинских работников в области ИИ, органичное преобразование государственных политик регулирования, стандартов и законодательной базы — вот что может изменить ситуацию, считает Сергей Воинов, директор по акселерации по направлению цифровая медицина биомедицинского кластера Фонда «Сколково».