Нейросеть научилась воспроизводить человеческую речь, анализируя активность мозга

Ученые из Нью-Йоркского университета разработали нейросеть, которая может анализировать активность нейронов в коре головного мозга и на ее основе восстанавливать речь. Сеть также была дополнительно обучена для имитации голоса пациента, используя несколько голосовых или видеозаписей, что позволяет людям вернуть способность говорить, даже если она была утрачена.

Фото: img.freepik.com

Речь человека представляет собой комплексное поведение, требующее не только координации работы различных мышц рта, горла и органов дыхания, но и одновременной обработки произносимой речи для ее исправления. Ученые считают чрезвычайно трудным разделение сложных нейронных связей мозга, отвечающих за точные мышечные движения и обработку слуховой информации. Тем не менее, это необходимо для создания речевых протезов нового типа.

В большинстве моделей производства речи принято исходить из того, что эти две системы анатомически различны. Управление системой прямой связи, как правило, осуществляется вентральной лобной корой, в то время как обработка обратной связи происходит через различные сенсорные области коры (например, через извилину Гешля и верхнюю височную извилину). Однако, в реальности эти две сети нейронов демонстрируют значительное перекрытие и взаимодействие, и даже самые современные методы электрокортикографии (запись биоэлектрической активности мозга посредством регистрации сигналов с сети электродов, имплантированных в кору головного мозга) не позволяют разделить процессы производства речи и ее обработки.

В рамках нового исследования американские ученые продемонстрировали разработанную ими архитектуру нейронной сети глубокого обучения. Она обучается на электрокортикографических (ЭКоГ) данных, фиксирующих активность коры головного мозга, для определения пространственно-временных характеристик моторных и сенсорных сигналов. Используя различные типы временных сверток – причинные (основанные на текущих и прошлых нейронных сигналах), антипричинные (использующие текущие и будущие сигналы) и непричинные (их сочетание) – исследователям удалось восстановить человеческую речь. Подробное описание новой разработки представлено в опубликованной статье, опубликованной в журнале Proceedings of the National Academy of Sciences.

Для разработки протезов, способных преобразовывать мысли в речь, ученые применили нейросеть. Разработанный специалистами из Нью-Йоркского университета прототип обладает дополнительной возможностью: он способен в значительной степени воспроизводить голос человека, используя лишь ограниченное количество записей, например, взятых с видеохостингов или из онлайн-конференций.

Чтобы получить данные и проверить работоспособность своего прототипа, исследователи привлекли к участию пятерых пациентов, у которых диагностирована рефрактерная эпилепсия и имеющиеся нарушения речевого развития. Рефрактерная эпилепсия характеризуется тем, что состояние пациента, испытывающего судороги, не улучшается при использовании стандартных противоэпилептических препаратов в подходящих дозах и их комбинациях, то есть медикаментозное лечение оказывается неэффективным.

Пациентам была имплантирована сетка из 64 стандартных субдуральных электродов ЭЭГ, размещенных на поверхности коры левого полушария мозга, для мониторинга их состояния в ходе недельного эксперимента. Для повышения пространственного разрешения получаемого сигнала, им также устанавливали дополнительные 64 электрода меньшего размера, которые чередовались с обычными клиническими электродами. Полученная ЭКоГ-матрица предоставила ученым важные данные о работе мозга во время процесса речи, что позволило с высокой точностью проводить ее расшифровку.