Нейросеть научилась воспроизводить человеческую речь, анализируя активность мозга

Ученые из Нью-Йоркского университета разработали нейросеть, которая может анализировать активность нейронов в коре головного мозга и на ее основе восстанавливать речь. Сеть также была дополнительно обучена для имитации голоса пациента, используя несколько голосовых или видеозаписей, что позволяет людям вернуть способность говорить, даже если она была утрачена.

Речь человека представляет собой комплексное поведение, требующее не только координации работы различных мышц рта, горла и органов дыхания, но и одновременной обработки произносимой речи для ее исправления. Ученые считают чрезвычайно трудным разделение сложных нейронных связей мозга, отвечающих за точные мышечные движения и обработку слуховой информации. Тем не менее, это необходимо для создания речевых протезов нового типа.

В большинстве моделей производства речи принято исходить из того, что эти две системы анатомически различны. Управление системой прямой связи, как правило, осуществляется вентральной лобной корой, в то время как обработка обратной связи происходит через различные сенсорные области коры (например, через извилину Гешля и верхнюю височную извилину). Однако, в реальности эти две сети нейронов демонстрируют значительное перекрытие и взаимодействие, и даже самые современные методы электрокортикографии (запись биоэлектрической активности мозга посредством регистрации сигналов с сети электродов, имплантированных в кору головного мозга) не позволяют разделить процессы производства речи и ее обработки.

В рамках нового исследования американские ученые продемонстрировали разработанную ими архитектуру нейронной сети глубокого обучения. Она обучается на электрокортикографических (ЭКоГ) данных, фиксирующих активность коры головного мозга, для определения пространственно-временных характеристик моторных и сенсорных сигналов. Используя различные типы временных сверток – причинные (основанные на текущих и прошлых нейронных сигналах), антипричинные (использующие текущие и будущие сигналы) и непричинные (их сочетание) – исследователям удалось восстановить человеческую речь. Подробное описание новой разработки представлено в опубликованной статье, опубликованной в журнале Proceedings of the National Academy of Sciences.

Для разработки протезов, способных преобразовывать мысли в речь, ученые применили нейросеть. Разработанный специалистами из Нью-Йоркского университета прототип обладает дополнительной возможностью: он способен в значительной степени воспроизводить голос человека, используя лишь ограниченное количество записей, например, взятых с видеохостингов или из онлайн-конференций.

Чтобы получить данные и проверить работоспособность своего прототипа, исследователи привлекли к участию пятерых пациентов, у которых диагностирована рефрактерная эпилепсия и имеющиеся нарушения речевого развития. Рефрактерная эпилепсия характеризуется тем, что состояние пациента, испытывающего судороги, не улучшается при использовании стандартных противоэпилептических препаратов в подходящих дозах и их комбинациях, то есть медикаментозное лечение оказывается неэффективным.

Пациентам была имплантирована сетка из 64 стандартных субдуральных электродов ЭЭГ, размещенных на поверхности коры левого полушария мозга, для мониторинга их состояния в ходе недельного эксперимента. Для повышения пространственного разрешения получаемого сигнала, им также устанавливали дополнительные 64 электрода меньшего размера, которые чередовались с обычными клиническими электродами. Полученная ЭКоГ-матрица предоставила ученым важные данные о работе мозга во время процесса речи, что позволило с высокой точностью проводить ее расшифровку.