Искусственный интеллект находит скрытые возможности в науке с помощью нестандартных уравнений

Технологии искусственного интеллекта проникают во все сферы жизни. Ученые всё активнее используют машинное обучение, и уже есть реальные научные достижения. Это лишь начало: ИИ призван не просто помогать с расчетами, его роль в будущем масштабнее — он усилит наше мышление, указывая на связи, которые не видны человеческому уму. Ученые полагают, что появился новый способ изучения мира.

Историки знают, что Петр I писал плохо читаемо. Остались его письма, заметки, наброски, их тысячами, и до недавнего времени большая часть оставалась нерасшифрованной, неизученной и не переведенной в печатный текст. пояснилКонстантин Могилевский, председатель правления Российского исторического общества: «Петр I писал много, быстро, плохим почерком, с сокращениями, иностранными словами». С рукописью государя не справится любой историк, это отдельное умение. Разбор одной страницы займет даже у эксперта несколько часов. Чтобы понять сложность задачи, обратитесь к электронный архивДокументы Петра – писать умел быстро и хорошо, но почитать труднее.

В этом году Россия отметила 350-летие со дня рождения Петра Великого. Перед юбилеем Российское историческое общество и «Сбер» при поддержке Санкт-Петербургского научно-исследовательского института РАН еще в 2020 году запустили конкурс по расшифровке рукописного наследия Петра I с помощью искусственного интеллекта. В результате проект… «Digital Петр»В системе используется нейросеть, обучаемая текстом из уже расшифрованных документов государя, которая за минуту может прочитать до 35 страниц, превосходя по качеству результата европейские аналоги. TranscribusПрограмма для работы с древними текстами.

Письмо Петра I князю Долгорукому.

Спасение от накатывающей сложности

Наука всегда извлекала пользу из новых инструментов. Телескопы позволили взглянуть вдаль, микроскопы — вглубь, открывая мельчайшие детали мироздания и самые удаленные объекты, о которых бы не узнали никогда. В прошлом веке ученые сразу оценили компьютер как мощный инструмент, применяя его для сложных расчетов, моделирования и хранения данных. Сейчас же взлет глубоких нейронных сетей и машинного обучения предвещает науке нечто большее, чем помощь в вычислениях.
Кажется, это изменит способ познания мира.

Условия для таких изменений практически сформировались. Поток информации, который скоро поглотит науку, поставит ученых в неизведанное положение, так как ранее недостаток данных был нормой. В настоящее время, например, в космологии и физике к ближайшему десятилетию появятся огромные массивы данных от ускорителей, токамаков и телескопов. Только радиотелескоп Square Kilometer Array, запуск которого запланирован на вторую половину 2020-х годов, ежегодно будет генерировать примерно столько же трафика, сколько недавно давал весь интернет. Еще один растущий поток данных пойдет из биоинформатики и нейробиологии.

Другая тенденция — большое количество научных публикаций. Сегодня один ученый не способен отследить и прочесть все статьи, даже по узкой тематике. Приходится выбирать в основном те, что популярны и активно цитируются. Поскольку так поступают все, то «лавина новых публикаций лишь укрепляет наиболее цитируемые статьи», фактически… замедляяНаучный прогресс достиг такой степени сложности, что человек не способен самостоятельно разобраться во всех работах и осмыслить их идеи, даже уделяя для этого всё своё время.

Научная инфраструктура — ускорители, симуляции, базы данных — скоро достигнет масштабов и сложности, при которых управление ею в реальном времени с помощью простых правил и процедур станет невозможным. Кроме того, ученые исследуют климат, экономику, экосистемы, психику человека. То есть то, над чем работают ученые, и то на чем они работают, становится чрезвычайно сложным и запутанным. Прежние методы науки не рассчитаны на такую сложность, а в сутках по-прежнему 24 часа. Поэтому нейронные сети появились как раз вовремя.

В поисках скрытых связей

Брант Робертсон, профессор астрономии и астрофизики из UCSC, считает, что есть вещи, которые люди сделать не могут. Вместе с аспирантом он разработал нейросетевую программу. MorpheusПрограмма обучена на снимках глубокого космоса с помощью телескопа Хаббл. оцените сложность задачиНейросеть может отличить всё. В астрофизике машинный разум уже применяют для поиска пульсаров и сверхновых, а также для изучения свойств звёзд помимо классификации галактик.

Чтобы проанализировать огромное число объектов на космических снимках, требуется искусственный интеллект; человеческие возможности для этого ограничены. ©FotoTips.ru

Можно смотреть не только с Земли на небо, но и в обратную сторону: спутники посылают снимки поверхности планеты. Для получения чистой информации нужно очистить их от шумов, таких как облака, тени, дым и артефакты. Компании «Роскосмоса» — «Российские космические системы», НИИ ТП и ТЕРРА ТЕХ разработали программу на основе нейросетей для удаления подобных шумов, оставляя важную информацию для навигации, изучения недр и других нужд.

Эти примеры применения искусственного интеллекта, число которых будет расти, основаны на главном свойстве глубоких нейросетей — способности находить связи и закономерности в данных, а также сопоставлять одни паттерны с другими.

Нейросети учатся и прогнозируют

Возможно, первым крупным достижением глубокого обучения в науке стало предсказание трёхмерной структуры белка. Любой белок — это сложная структура, образованная свернутой цепью аминокислот, от чего и зависит его действие. Вычисление 3D-формы, зная только последовательность аминокислот, сложно и дорогостояще. В компании DeepMind обучили нейросеть. AlphaFoldНа уже экспериментально изученных структурах модель обучалась, а затем применялась для белков, решения о структуре которых неизвестны. AlphaFold предсказывает расстояния между парами аминокислот и углы между их связями, предоставляя прогноз пространственной структуры с точностью до атома.

И если в прошлом, 2021-м, году DeepMind отчиталасьПредсказание структуры для 350 тысяч белков стало заметным научным достижением, и в этом году уже… полученыВероятные структуры более чем двухсот миллионов известных науке белков размещены авторами… открытой базе данныхТеперь биологи во всём мире могут просто находить 3D-структуры любых белков, что важно как для фундаментальных исследований, так и, например, для создания лекарств.

Обучение нейронных сетей методом глубокого обучения также… используютВ российском центре искусственного интеллекта Национального исследовательского университета «Высшая школа экономики» для изучения… вторичных структур ДНКГлавная цель — определить размещение функциональных элементов на двойной спирали.
Это поможет понять функционирование генома, так как именно к таким участкам ДНК прикрепляются активные молекулы, воздействующие на экспрессию генов. В Центре искусственного интеллекта также применяют нейросети для прогнозирования трехмерных структур антител.

В неорганической химии учёные предсказывают кристаллические структуры таким же способом. Знание структуры вещества позволяет судить о его свойствах, но для этого нужно найти расположение атомов с наименьшей энергией, которая станет стабильной формой вещества. Артем ОгановПрофессор Сколтеха и РАН, создатель лаборатории компьютерного дизайна материалов в МФТИ, занимается дизайном материалов с использованием машинного обучения для сокращения громоздких квантово-механических расчетов. Искусственный интеллект находит стабильные структуры значительно быстрее, ускоряя поиск порой в тысячи раз.

В лаборатории Оганова нейросеть обучается на данных о кристаллических структурах, для которых уже проведен расчет энергии. По мере обучения ИИ обнаруживает связь между расположением атомов и энергией, а затем использует это «понимание» для предсказания энергии новых структур. Это открывает возможность изучать свойства веществ в условиях, недоступных наблюдению (например, глубоко в мантии Земли), и «создавать» новые материалы с заданными свойствами.

Принцип действует также в квантовых технологиях. Например, физики из МФТИ, ФТИАН и Университета ИТМО разработали нейронную сеть. предсказываетВнимательно изучая схему узлов и связей, можно определить, обладает ли данная система квантовым преимуществом. Другими словами, подходит ли её конфигурация (граф) для создания на её основе квантовых систем? Или же дадут ли квантовые блуждания внутри этой схемы ускорение вычислений?

Нейросетям удаются такие трюки потому, что прогноз надежен, если данные содержат устойчивый паттерн, отражающий фундаментальную закономерность. Например, за свертыванием всех белков стоит одна биофизика. Поэтому корреляции, пойманные ИИ в обучающей выборке, актуальны и для всех остальных белковых молекул. За счет этого удается решать множество задач в физике или химии, нерешаемых путем формул и вычислений.

От прогнозов к дизайну

В 2000-х Александр Жаворонков обучался на кафедре биофизики физического факультета МГУ, а сейчас возглавляет компанию Insilico Medicine, основанную им же. Компания ведёт исследования в области генеративной химии и стремится сократить время и затраты на разработку новых молекул для фармакологии. В этой сфере все простые решения давно найдены. Найти соединение, работающее лучше уже известных, требует огромных усилий. Может ли искусственный интеллект упростить задачу?

В середине 2010-х годов Жаворонков стал одним из первых, кто заинтересовался глубоким обучением для создания биомолекул. Чуть позже сотрудники Insilico продемонстрировали применение нейросетей для подбора молекулы с заданными свойствами. Система генеративного тензорного обучения с подкреплением позволила выбрать ингибитор киназы, участвующей в развитии фиброза, за всего три недели. Молекулу синтезировали и испытали на живых мышах, где она продемонстрировала свою эффективность. сообщила в журнале Nature Biotechnology.

Результат не был совершенным, но подтвердил концепцию, как говорят учёные. По сути, все увидели, что нейросетевые модели могут разрабатывать биомолекулы.
Конечно, ИИ справляется лучше с короткими молекулами и когда доступно множество схожих данных для обучения. Всё становится сложнее, когда речь идёт о таких сложных объектах, как ионные каналы, факторы транскрипции или белок-белковые взаимодействия. Но этот пример демонстрирует важную идею: ИИ в науке может использоваться не только для предсказаний, но и для создания нового.

Возможность предсказания структуры белков на основе их последовательности поможет в разработке новых лекарств. ©Эдвард Кинсман, фотоколлекция «Science».

Как большие нейросетевые модели создают изображения и тексты, так же их можно обучить порождать новые последовательности белков. Учёные, занимающиеся этой областью, ожидаютВ скором времени большая часть новых белков будет спроектирована с использованием генеративных нейросетей, аналогичных языковым моделям.

Модель нетипичная. Уравнения неудобные. Математика неестественная.

Помощь искусственного интеллекта учёным в экономии времени и средств на сложных расчётах уже само по себе является неоспоримым плюсом. Но вне всяких сомнений, потенциал ИИ в науке широк: распознавание свойств и структур — лишь начало. Он способен вдохновлять учёных на оригинальные идеи и концепции, открывая новую глубину понимания природы.

Физики применяют машинное обучение для обработки данных из экспериментов на Большом адронном коллайдере, нейтринных детекторов и наблюдений за темной материей. Открыто признаютИскусственный интеллект может помочь в поиске новой фундаментальной физики, обнаруживая редкие аномалии в огромном объеме многомерных данных.

Есть и другое ожидание. Как пишутРоссийские учёные, обсуждая роль искусственного интеллекта в науке, полагают, что он мог бы заниматься вопросами, которые учёные игнорируют из-за сложившегося научного мышления. Константин Новоселов, лауреат Нобелевской премии по физике 2010 года, отмечает: «Физики в целом не любят задач, которые не описываются небольшим количеством красивых уравнений». Поэтому, если возникает необходимость написать уравнение на полстраницы, физик скорее всего решит, что в его рассуждении что-то пошло не так». ИИ может помочь в работе с «некрасивыми» громоздкими уравнениями.

В чистой математике также встречаются подобные задачи, например, доказательство одной теоремы из теории групп, занимающее более двухсот страниц. проверяли программой CoqПо мере усложнения математики, длина доказательств увеличивается, и неизвестно, сможет ли человеческий разум справиться с ростом сложности в будущем. Вероятно, ИИ станет не только помощником, но и коллегой, открывая и доказывая новые теоремы. Ему опять же будет пригождаться его «сверхъестественное» умение обнаруживать связи и паттерны в сложных многомерных данных.

В сфере математики ведут активные исследования сотрудники DeepMind, представившие годом ранее новую разработку. статьюАвторы работы с заголовком «Развитие математики за счет направления человеческой интуиции с помощью ИИ» продемонстрировали, что искусственный интеллект находит новые, нетривиальные корреляции и связи между математическими объектами, которые ускользнули от внимания людей.

А уже в этом году сотрудники DeepMind представилиПрограмма AlphaTensor выявила алгоритмы умножения матриц, превосходящие известные науке. Матричное умножение применяется во многих практических задачах: от графических процессоров до цифровой связи. Даже незначительное улучшение ускоряет расчеты. AlphaTensor — нейросетевой агент, обученный играть в игру на поиск решения с наикратчайшей цепочкой ходов. Агент начал игру без знания алгоритмов умножения матриц. Он обнаружил оптимальные решения среди множества возможностей, превзойдя интуицию человека.

ИИ — искусственный исследователь

За последние годы очевидно: изучая искусственный интеллект в науке, мы видим лишь малую часть его возможностей. Решающий вклад ИИ будет не в замене сложных вычислений, хотя и это окажет колоссальное влияние на все сферы жизни, а в том, что он станет новым инструментом мышления, помогая ученым выйти за рамки своей интуиции. При всей практической важности, предсказание структур белка не меняет нашей картины мира — это демонстрация законов природы, которые уже открыты. Подлинно научный ИИ научится открывать новые законы.

Первые эксперименты, проведённые на уровне «доказательства концепции», показывают, что алгоритмы способны создавать физические модели из данных. Например, одна программа пришла к тому же выводу, что и Коперник: по данным о движении Солнца и Марса, как их видно с Земли, вывелаМодель Солнечной системы с Солнцем в центре. Другая открылаЗакон тяготения Ньютона был установлен после изучения статистики движения планет и больших спутников Солнечной системы в течение 30 лет. Программа не имела предварительной информации о массах планет или физических постоянных; их она определила самостоятельно.

Астрофизик Ширли Хо, участница работы над исследованием, поясняетОткрытие было проверочным шагом: «Мы начали с повторного открытия уже известного, чтобы убедиться, что машинный подход работает, а дальше попытаемся открыть то, чего не знаем». Для ИИ величайшее открытие в истории науки, к которому люди шли столетиями через идеи Птолемея и Кеплера, стало довольно тривиальной задачей. Программа решила его методом подбора уравнений, максимально точно соответствующих данным.

Метод называется символьной регрессиейПрограмма ищет математическое выражение, которое и проще, и лучше всего отражает данные, словно генетический алгоритм в пространстве математических формул. Ценность метода заключается в том, что машина выдает результат в виде уравнения, демонстрирующего взаимосвязь величин, удобное для людей представление, которое можно применить к другим данным. В отличие от предсказания структур, где ИИ сообщает как будет, здесь представлена зависимость в явном виде — почему так происходит.

С давних времен, начиная ещё с Ньютона, учёные стремятся найти закономерности в наборах данных. Они пытаются обнаружить закон, который объяснит их наблюдения, в виде формул или модели. Возможно, машинное обучение позволит продвинуться дальше — искусственный интеллект увидит те закономерности, что мы упускаем из-за ограниченной физиологии. объём рабочей памяти человека ограничен, мы не можем воспринимать и удерживать в уме миллионы параметров, сложные взаимосвязи и многомерные пространства даются нам с трудом. Эволюция не готовила нас к этому, зато для искусственного интеллекта такие пространства — естественная среда обитания.

Представляя будущие исследования природы, учёные называют этот метод изучения с применением регрессии. «физикой GoPro»Наведите камеру на событие и получите уравнение, отображающее суть происходящего. Возможность описать таким образом сложное поведение, например, высших животных, маловероятна. Однако при рассмотрении вращения планет, вихрей в жидкости и деления клеток лаконичные формулы могут быть поразительно точны. Возникает интригующий вопрос: может ли ИИ обнаружить другие — более простые или более интересные — формулы и способы представления уже известных законов? Это вопрос о том, сможет ли ИИ открыть нам иные модели физики.

Третий способ познания

Можно обойтись без формул. Нейросеть, обученная на портретных фотографиях, создает фото несуществующих людей. Мы оцениваем результат, прося программу состарить лицо или объединить черты двух людей. Нейросеть понимает, от каких параметров зависит точность решения, но знание распределено по всей сети, его нельзя выразить простыми уравнениями. Зато можно бесконечно создавать вариации лиц, и через них приходит понимание.

С каждым годом качество генерации лиц с помощью моделей искусственного интеллекта растет. ©David Foster

Тот же принцип применим и в науке. Его называют генеративным моделированием, работающим на генеративно-состязательных нейросетях. Модель обучают реальными данными экспериментов или наблюдений, а затем создаёт синтетические данные для проверки гипотез. выяснитьШвейцарские астрофизики изучают, от чего зависит затухание звездообразования в галактиках. Для этого ученые из ETH Zurich загрузили данные о галактиках, находящихся в среде с низкой плотностью, в модель и попросили ее показать, как бы выглядели эти галактики в среде с высокой плотностью.

Этот подход отличается от обычного моделирования тем, что программе не предоставляются заранее правила и знания о физических процессах, только исходные данные. Программа ищет взаимосвязи между параметрами и узнаёт, как изменение одних параметров повлияет на другие. Такой способ позволяет проверить огромное количество сценариев, в том числе те, которые невозможно наблюдать. Для ученых главный вопрос здесь — сколько полезной информации скрыто в данных и как её извлечь максимально эффективно.

Генеративное моделирование в некоторых аспектах сходно с физикой GoPro: в обоих случаях искусственный интеллект ищет ответы, не зная наших теорий. Возможно ли, что ИИ смог бы переоткрывать все наши знания о природе, имея только исходные данные? Какова была бы его картина мира? Эти вопросы побуждают к размышлениям и требуют дальнейших исследований. Некоторые ученые называютГенеративное моделирование предлагает «третий путь» для постижения вселенной, дополняя наблюдения и традиционное моделирование, при этом не завися от существующих теорий. замечаютЧасто в физике открытия совершаются раньше появления теории, которая бы их объяснила.

История только начинается, и мы не знаем, насколько глубоко мы продвинемся с помощью ИИ в постижении тайн Вселенной. Данных скоро будет много, а нейросети умеют находить скрытые связи в сложных данных. Это позволяет рассчитывать на богатый улов. Но есть и другой намек на то, что системы ИИ могут быть исключительно успешны в науке. Недавно две команды ученых независимо друг от друга пришли к необычной идее: Вселенная… похожаНа программу обучающей машины и, возможно, постоянно. обучается!