Машинное обучение помогает оптимизировать процесс ядерного синтеза

Совместная работа Швейцарского плазменного центра и компании DeepMind привела к созданию инновационного подхода к управлению плазмой в токамаке посредством магнитных полей. Алгоритм глубокого обучения с подкреплением, созданный специалистами DeepMind, позволяет существенно сократить время, необходимое для оптимизации параметров токамака и достижения требуемых конфигураций плазмы с высокой степенью соответствия.

Токамак – это устройство тороидальной формы, напоминающее бублик, предназначенное для проведения управляемого термоядерного синтеза, то есть реакций, аналогичных тем, что происходят в звёздах. Для создания необходимых условий в токамаках генерируются сильные магнитные поля и поддерживается вакуум, что позволяет удерживать плазму при высоких температурах и предотвращать повреждение стенок установки. Выделяющаяся в ходе этого процесса энергия, в теории, может быть использована для генерации электроэнергии.

Швейцарский плазменный центр (SPC), входящий в состав Федеральной политехнической школы Лозанны (EPFL), обладает значительным опытом в области физики плазмы и технологий ее контроля. SPC – один из немногих исследовательских центров в мире, располагающих действующим токамаком, причем это достаточно сложная установка. Токамак центра TCV позволяет создавать различные конфигурации плазмы благодаря возможности регулировки положения магнитных катушек, что и обуславливает его название – токамак переменной конфигурации).

Характеристики плазмы, такие как ее форма и расположение в токамаке, определяют устойчивость и эффективность реактора, то есть объем вырабатываемой энергии. Перед началом экспериментов на собственной установке специалисты из SPC предварительно тестируют настройки систем управления с помощью симулятора.

«Наш симулятор создан на базе более чем 20 лет исследований и регулярно совершенствуется, — поясняет Федерико Феличи ( Federico Felici), сотрудник SPC и соавтор исследования. Однако даже в этом случае для вычисления точного значения каждой переменной в системе управления все равно требуются продолжительные расчеты. Именно поэтому был запущен наш совместный исследовательский проект с DeepMind».

DeepMind — это британская компания, специализирующаяся на научных исследованиях и вопросах, связанных с искусственным интеллектом. В 2014 году она была приобретена Google и ставит своей целью «использование искусственного интеллекта для решения научных задач и прогресса человечества». Сотрудники DeepMind создали алгоритм глубокого обучения с подкреплением (deep reinforcement learning, DRL), способный генерировать и поддерживать заданные конфигурации плазмы, и провели его обучение на симуляторе SPC.

Изначально алгоритм проходил тестирование, применяя разнообразные методы контроля плазмы в симуляционной среде с целью приобретения опыта. Этот процесс обучения был двусторонним: сначала алгоритму предоставлялись определенные параметры для управления установкой, на основе которых симулятор создавал плазму, а алгоритм затем анализировал ее характеристики. После этого, основываясь на полученной конфигурации плазмы, алгоритм выявлял оптимальные настройки.

В результате обучения система, использующая алгоритм DRL, продемонстрировала способность генерировать и удерживать разнообразные формы плазмы и сложные конфигурации в симуляторе, включая сценарий, при котором в реакторе одновременно поддерживаются два отдельных плазменных потока.

В заключение, исследовательская группа провела испытания своей новой системы непосредственно на токамаке, чтобы оценить ее эффективность в реальных условиях эксплуатации. В соответствии с ожиданиями, все конфигурации, сгенерированные алгоритмом DRL и спрогнозированные симулятором SPC, были успешно воспроизведены на реальном устройстве. Следовательно, предложенный метод управления магнитными катушками токамака позволяет не только ускорить процесс формирования требуемых конфигураций плазмы, но и гарантирует точное определение координат, тока и формы для этих конфигураций.

Мартин Ридмиллер (Martin Riedmiller), по словам руководителя группы управления в DeepMind и соавтора исследования, задача их команды – изучение систем искусственного интеллекта нового поколения, в частности, контроллеров с обратной связью. Они созданы для обучения в сложных динамических средах, начиная с самого начала. Управление термоядерной плазмой в реальных установках предоставляет невероятные, хотя и очень трудные, возможности».

Статья с результатами исследования опубликована в журнале Nature.