В киноискусстве искусственный интеллект и роботы нередко предстают коварными и злонамеренными, в то время как их потенциал в лечении смертельных болезней и омоложении человеческого организма почти не освещается. Тем не менее, биомедицина – одна из ключевых областей, где ИИ может быть чрезвычайно полезен. За последние пять лет в этой сфере достигнуты значительные успехи. Искусственный интеллект уже способен оказать реальную помощь большому количеству людей. Однако осторожность и скептицизм многих врачей, придерживающихся традиционных подходов, затрудняют широкое распространение подобных технологий. О том, какие открытия были сделаны искусственным интеллектом в молекулярной биологии и как они повлияют на борьбу с раком и увеличение продолжительности жизни, расскажем в четвертой статье цикла Naked Science, посвященном ИИ и его воздействии на общество.
ИИ заглядывает внутрь клетки
Молекулярная биология традиционно считалась областью, требующей проведения исследований в лабораторных условиях, где ученые использовали пробирки для работы с растворами и реагентами. Переломный момент наступил в 1990 году, когда был запущен проект «Геном человека». С тех пор прошло более трех десятилетий, которые характеризовались рядом важных тенденций.
Прежде всего, это прогресс в технологиях секвенирования – процесса «чтения» последовательности нуклеотидов, составляющих код молекул ДНК и РНК, и существенное снижение его стоимости. Для расшифровки первого полного генома человека потребовалось 13 лет и около трех миллиардов долларов (что в пересчете на сегодняшние цены с учетом инфляции составляет почти шесть миллиардов). Сегодня эту задачу может выполнить практически каждый за неделю или две, потратив всего от 600 до тысячи долларов!
Во-вторых, наступила «эра эпигенетики». Несмотря на столетнюю историю, настоящий подъем этой науки и переосмысление концепции наследственности произошли после 1990 года. Благодаря, в том числе, секвенированию, стало ясно, что принципиальное значение имеет не только наличие генов и их мутации в геноме живых организмов, но и то, какие гены активны в определенный момент времени и почему.
Третий тренд, который объединяет и развивает первые два – это возникновение и стремительный рост различных «омических» подходов. Фундаментальный принцип молекулярной биологии утверждает, что генетическая информация реализуется посредством последовательности: от ДНК через РНК к белкам.
При этом все наши гены в ДНК формируют геном. В настоящее время экспрессируемые гены представляют собой комплекс РНК или транскриптов ом. Белки, созданные с использованием мРНК, являются протеинами ом. В клетках все сигнальные пути, использующие экспрессируемые белки, представляют собой взаимодействия ом. Ну а все молекулы-метаболиты — метаболом. Белки, помимо синтеза, нуждаются в процессе сворачивания – укладки в уникальную трехмерную структуру, определяющую их функциональные характеристики.
«Омиксные» технологии привели к накоплению значительных объемов информации в молекулярной биологии. В этот новый период, важными исследователями в этой области стали «сухие» биоинформатики, эксперты по анализу больших наборов «омиксных» данных. Зачастую эти специалисты никогда не работали в лабораториях, однако они обладали глубокими знаниями в области обработки дата-сетов и выявления скрытых закономерностей. Одним из наиболее эффективных подходов для этого является машинное обучение. Кроме того, как известно, большие данные служат основным ресурсом для систем искусственного интеллекта. Поэтому ИИ стремительно стал распространенным методом исследования в биологии, а также прикладной технологией, позволяющей воплощать научные открытия в виде полезного медицинского продукта для пациентов и врачей.
ИИ побеждает рак
Геном представляет собой достаточно устойчивая особенность клеток организма, хотя и подвержен мутациям. В то же время, все остальные «омики» варьируются в зависимости от типа клеток, тканей и органов, общего состояния организма, внешних воздействий и даже психологического стресса.
В общественном сознании рак часто воспринимается как однородное заболевание. На самом деле, современные специалисты используют термин «рак» только для обозначения злокачественных опухолей, происходящих из эпителиальных тканей – карцином. При этом, подобные новообразования способны формироваться в различных типах тканей, включая костную, соединительную и мышечную (саркомы), нервную (глиомы), в клетках лимфатической системы (лимфомы), в крови и костном мозге (лейкемии) и так далее.
Существенным является не это. Даже такие серьезные новообразования, как опухоли в матке или молочной железе у двух разных женщин, могут иметь совершенно идентичные внешние проявления, но при этом существенно различаться по своим геномным, транскриптомным и протеомным характеристикам. Следовательно, применение стандартных, универсальных методов лечения может привести к положительному результату лишь в одном из случаев, в то время как в другом оно окажется неэффективным.
Омикс-данные и технологии искусственного интеллекта создали в медицине возможности для разработки персонализированных и прецизионных подходов, предполагающих лечение не заболевания как такового, а конкретного пациента, с учетом индивидуальных особенностей его состояния и формы патологии, основанных на информации о его уникальном наборе активных генов и экспрессируемых белков в данный момент.
Разработки российского биомедицинского стартапа служат яркой демонстрацией успешного применения прецизионного подхода и использования искусственного интеллекта как для проведения исследований, так и для индивидуальной диагностики и определения наиболее подходящей схемы лечения Oncobox, компания была основана при поддержке фонда «Сколково». Одним из основателей и научным директором является доктор биологических наук Антон Буздин, сотрудник ИБХ РАН. В состав исследовательской команды входят ведущие российские специалисты в области онкобиоинформатики из МФТИ и Сеченовского университета.
В настоящее время для терапии солидных новообразований доступно более 160 таргетных препаратов. Каждый из них направлен на определенные молекулярные мишени в раковых клетках, что обуславливает различия в их эффективности для различных групп пациентов. Для принятия взвешенного решения о выборе конкретного таргетного препарата для каждого пациента в Oncobox разработали особое диагностическое исследование.
В него входит полногеномное секвенирование нового поколения ( Next Generation Sequencing, NGS) биоматериала опухоли, полученного посредством пункции или после хирургического удаления. Данная процедура позволяет расшифровать информацию, содержащуюся в более чем 22 500 генов, кодирующих белки, и определить основные мутации, которые могут спровоцировать развитие опухоли у пациента.
Затем оценивается мутационная нагрузка опухоли, которая представляет собой количество мутаций на каждый миллион нуклеотидов, и проводится транскриптомный анализ для определения активности генов на основе уровня экспрессии мРНК. На данном этапе выявляются различия в экспрессии генов между опухолевой и нормальной тканью. Полученные транскриптомные данные позволяют установить, какие гены депрессированы, а какие активированы и могут быть использованы в качестве мишеней для таргетной терапии.
В заключительной части исследования представлены две разработки российской компании: интерактивный анализ, позволяющий с помощью биоинформатических алгоритмов выявлять специфические для каждой опухоли изменения в молекулярных путях и прогнозировать влияние на них большинства доступных противоопухолевых лекарственных средств. Кроме того, на основе интеграции геномных, транскриптомных и интерактомных данных искусственный интеллект формирует персонализированный рейтинг эффективности более чем для 160 таргетных препаратов.
Врачу, назначающему лечение, следует уделить внимание первым 5-10 позициям в рейтинге. В этот перечень могут быть включены как традиционные лекарственные средства, используемые в общепринятых протоколах терапии для данного типа опухолей, так и весьма неожиданные. Если говорить упрощенно, то у пациентки может быть диагностирован рак яичника, но система предложит ей препарат, применяемый для лечения рака легких.
Часто клиницисты, имеющие большой опыт работы, неохотно выписывают такие лекарства, поскольку они не соответствуют общепринятым рекомендациям. В таких случаях причиной являются не только предвзятость и незнание особенностей современной персонализированной медицины и принципов работы искусственного интеллекта, но и определенные юридические риски. Тем не менее, на запущенных стадиях онкологических заболеваний врачи могут назначать препараты off-label (применение таких методов, включая нестандартные и экспериментальные, нередко приводит к положительной реакции пациентов на лечение. Однако вопрос о доверии онкологов к рекомендациям искусственного интеллекта и возможности назначения лекарственных средств на их основе для больных по-прежнему остается открытым.
ИИ преодолевает старение
Науку о продлении жизни (longevity science) также сложно представить без технологий искусственного интеллекта. Например, Александр Жаворонков, ранее приглашенный профессор МФТИ и возглавлявший лабораторию биоинформатики ФНКЦ ДГОИ, основал стартапы Insilico Medicine и Deep Longevity, компании, стремящиеся найти способы продления жизни и замедления старения, применяют технологии глубокого обучения. В эти организации инвестировал даже известный футуролог и сторонник искусственного интеллекта из Китая, Кай-Фу Ли, который имеет внушительную аудиторию в социальных сетях – около 70 миллионов подписчиков.
Для выявления биологических маркеров, способных выступать в качестве объективных индикаторов возраста, все чаще используют модели глубокого обучения. Комплексы таких маркеров, обнаруженные нейронной сетью, принято называть DAC — Deep Aging Clocks. К ним относятся «часы» различных типов: генетические, эпигенетические, протеомные, а также психологические (определенные на основе ответов на опросники), данные общего анализа крови, электрокардиографии и энцефалографии, и даже визуальные характеристики лица, зафиксированные на фотографиях.
Около 17 DAC как раз и обнаружила компания Deep Longevity. Например, группа исследователей во главе с Жаворонковым изучил с помощью машинного обучения транскриптомы клеток скелетных мышц. Проследив за возрастными изменениями в активности генов, им удалось показать, что главную роль в старении играют гены, участвующие в поддержании баланса ионов кальция и в ряде внутриклеточных сигнальных путей, включая взаимодействие с нейромедиаторами.
Любой из DAC может стать биологической мишенью для препарата, направленного против старения. В их поиске также помогают нейросети. Они осуществляют скрининг фармакологических баз данных, в которых содержатся сведения о свойствах миллионов уже известных молекул. Сопоставляя и комбинируя множество их сочетаний, ИИ определяет потенциальные субстанции, способные повлиять на ту или иную биологическую мишень. Более того, нейросети способны также предсказать, какие из уже используемых в фармакологии веществ могут иметь пока неизученное «противовозрастное» действие, и какие понадобятся химические модификации для усиления нужного эффекта.
В результате применения искусственного интеллекта молекулярный скрининг, который ранее предполагал проведение большого количества трудозатратных и дорогостоящих экспериментов, теперь может быть выполнен с помощью относительно быстрых вычислительных процессов, in silico — «в кремнии», то есть на компьютере, используя машинное обучение. Генеративно-состязательные нейронные сети ( Generative adversarial network, GAN) — две конкурирующие друг с другом части одной модели (одна, к примеру, предлагает решения, а другая их отвергает) способны создавать новые молекулы с заданными структурой и функциями».
Наиболее известны среди них модели SeqGAN, RANC и ATNC. При этом в 2017 году Insilico Medicine Александра Жаворонкова также продемонстрировала свою разработку druGAN, способную создавать небольшие молекулы, которые обладают заранее определенным воздействием на клетки злокачественных новообразований.
ИИ предсказывает ДНК
За последние два года наблюдались значительные успехи в области технологий обработки естественного языка ( Natural language processing, NLP). Значительный прогресс был достигнут в области генеративных языковых моделей, например GPT-3 и LaMDA для английского языка, созданные в Сбере ruGPT-3 и в Яндексе YaLM 100B для русского языка, мультиязычные BLOOM и mGPT. Они могут обрабатывать не только естественные языки, но и другие системы, использующие символы, такие как языки программирования, нотная запись, математические формулы и прочие.
ДНК также можно рассматривать как некий «язык». По крайней мере, как знаковая система, обладающая собственным алфавитом, способами и правилами объединения в «слова» и грамматическими конструкциями. В значительной степени это, конечно, метафора, однако она весьма полезная. Ведь, имея расшифрованный геном человека, можно работать с ним подобно тексту, применяя современные NLP-модели.
Весной текущего года исследователи из группы «Биоинформатика» российского Института изучения искусственного интеллекта AIRI (Artificial Intelligence Research Institute) совершили прорыв мирового уровня. Они разработали языковую модель, основанную на архитектуре трансформер GENA-LM, впервые обученную на новейшем дата-сете T2T-CHM13, содержащий наиболее исчерпывающую на текущий момент информацию о структуре ДНК человека.
В ходе реализации проекта «Геном человека» в 2003 году последовательность генома оказалась не завершенной. Был секвенирован лишь 85% его объема – так называемый эухроматин, включающий в себя сами гены и межгенные участки. Завершение расшифровки другой, вспомогательной части – гетерохроматина – произошло только весной 2022 года.
В GENA-LM кодировщик преобразует входные последовательности в векторные представления, с которыми уже работает декодировщик. Эту систему разработчики дополнили механизмом внимания BigBird, модель разработана для оптимизации работы с очень длинными последовательностями, что повышает эффективность обработки. В процессе обучения модель решала задачу прогнозирования 15% скрытой части последовательности, используя доступные 85%.
Языковая модель, способная выявлять неочевидные связи в последовательности человеческой ДНК, поможет глубже понять принципы ее функционирования и возникающие в ней дефекты. Теперь с помощью GENA-LM можно находить участки, которые активизируют или, наоборот, подавляют работу отдельных генов и целых генных каскадов. Все это также пригодится в продвижении прецизионной диагностики и терапии.
ИИ сворачивает белки
Завершая обсуждение о воздействии искусственного интеллекта на молекулярную биологию, необходимо упомянуть широко известную модель-трансформер AlphaFold 2 от компании DeepMind. Появившись в конце 2020 года, к июлю 2022 года она смогла создавать трехмерные модели для свыше 200 миллионов белков, как заявили ее создатели, – практически для всех известных белков».
Это утверждение подкреплено данными. Публичный набор данных содержит сведения о белках архей и бактерий, растений, грибов и животных, охватывая все четыре царства живых организмов, выделяемые биологами.
Белки являются важнейшими молекулами, обеспечивающими жизнедеятельность. Информация о них содержится в последовательностях ДНК, однако их характеристики и функции во многом зависят от сложной трехмерной структуры. Эта структура формируется в процессе укладки, обусловленной как последовательностью аминокислот, из которых состоят белки, так и условиями сворачивания цепи, а также рядом других факторов.
До разработки систем искусственного интеллекта для изучения работы белков, определение их структуры осуществлялось исключительно экспериментальным путем. Этот процесс был трудоемким и затратным, а научные исследования могли длиться годы. Тем не менее, за последние десятилетия исследователи по всему миру накопили информацию о структуре около 200 тысяч белков.
Дата-сет, который был создан, применили для обучения модели AlphaFold 2. В результате, за полтора года искусственный интеллект достиг прогресса, который в три раза превышает все достижения молекулярных биологов Земли за всю историю их деятельности.
Вместо заключения
Искусственный интеллект оказал значительное влияние на биологические исследования, трансформировав работу в исследовательских институтах и на университетских кафедрах, R&D-подразделениях частных компаний происходит фейерверк открытий. Но если там действительно видна медицина первой трети XXI века, то в реальных системах здравоохранения разных стран мы в лучшем случае наблюдаем конец XX века.
«Появление каждого применения искусственного интеллекта в биологии влечет за собой создание новой области практического здравоохранения. На начальном этапе разработки и оценки прикладного потенциала конкретной концепции биомедицинский кластер Фонда «Сколково» поддерживает команды, чтобы обеспечить выход технологии на рынок и подтвердить ее эффективность. Это требует значительных усилий, связанных с изучением моделей функционирования систем здравоохранения в различных странах и в целом в сфере наук о жизни. По мнению Сергея Воинова, директора по акселерации в области цифровой медицины биомедицинского кластера Фонда «Сколково», изменить сложившуюся ситуацию возможно только посредством обучения медицинских работников в области искусственного интеллекта, а также посредством гармоничного изменения государственных политик, регулирующих стандарты и законодательную базу».