Мета разрабатывает ИИ для анализа мозговой активности и восприятия звука.

Ученые из компании Meta создали новый искусственный интеллект, способный анализировать мозговые волны для определения слов, которые человек слышит. Такая программа в будущем может стать инструментом общения для глухих людей.

Как отмечают исследователи в своей Расшифровка языка по мозговым активным импульсам — давно ожидаемая цель в здравоохранении и неврологии. Существующие внутричерепные устройства могут эффективно декодировать интерпретируемые признаки (буквы, слова, спектрограммы), обучая реакцию мозга на основные лингвистические задачи. Однако они довольно инвазивны и обычно не подходят для естественной речи.

Новости СМИ2

Жан-Реми Кинг и его команда из Meta создали ИИ, переводящий записи магнито- и электроэнцефалографии в слова. Технология пока находится в начале разработки, но первые результаты позитивные: для каждой записи ИИ генерирует список из 10 слов, среди которых в 73% случаев присутствует правильное; в 44% случаев первое слово оказывается верным. Далее планируется попытка интерпретировать мысли человека.

Перевод мозговой активности в слова

Чтобы обучить ИИ, Кинг и коллеги применили открытые наборы данных о мозговых волнах 169 добровольцев, собранных во время прослушивания записей человеческой речи. Данные волн, записанные с помощью магнито- или электроэнцефалографии (М/ЭЭГ), были разделены на трехсекундные блоки и переданы ИИ вместе с соответствующими звуковыми файлами. Цель программы состояла в сравнении данных для выявления закономерностей.

Из имеющихся данных 10% отвели на этап тестирования. Никогда ранее эти мозговые волны не изучали ИИ. Программа успешно справилась с задачей: она определила по мозговым волнам отдельные слова из списка из 793 слов, которые каждый человек слушал в этот момент.

«Эксперименты демонстрируют возможность нашей модели определять речь по данным MEG с точностью 72,5% среди трёх сигналов для распознавания речевых фрагментов из 1594 возможных (с 44% точностью в топ-1). Точность для записей вида ЭЭГ у искусственного интеллекта была ниже, – предсказывать список из десяти слов с верным словом удалось лишь в 19,1% из 2604 сегментов.

Meta пока не ставит перед собой конкретные коммерческие задачи, однако команда считает полученные результаты обнадеживающими для развития декодирования обработки естественного языка в режиме реального времени на основе ненавязчивого мониторинга мозговой активности.

Предсказания пока не могут сравниться с способностями человеческого разума.

Некоторые эксперты остаются скептически настроенными по поводу этих показателей, полагая, что технология пока не достигла достаточной точности для практического применения. По их мнению, записи магнитоэнцефалографии и электроэнцефалографии никогда не будут достаточно детальными, чтобы в будущем повысить точность предсказаний. В мозге протекают многочисленные процессы, которые могут в любой момент помешать мозговым волнам, связанным со слушанием.

Кинг сохраняет оптимизм, несмотря на то, что признает недостаточную эффективность ИИ в его нынешнем виде. Определение воспринимаемых человеком слов в настоящий момент оказывается ненадёжным. Вместе с тем, эта технология может способствовать созданию системы, способной интерпретировать мысли человека. Это открывает возможность общения для людей, неспособных говорить — амбициозная цель, учитывая сложность задачи.

Компания Meta заключила долгосрочное исследовательское партнерство с центром визуализации мозга NeuroSpin при CEA и INRIA для изучения человеческого мозга, а именно обработки языка. Цель — сбор данных для разработки ИИ, способного обрабатывать речь и текст с такой же эффективностью, как человек.

Несколько исследований доказали, что мозг обладает иерархической структурой, напоминающей языковые модели ИИ. Некоторые его области предугадывают не только слова, но и идеи на значительное расстояние вперед, в отличие от большинства современных языковых моделей, обученных предсказывать лишь следующее слово. Развитие у моделей ИИ способности к долгосрочному прогнозированию сможет повысить эффективность существующих языковых моделей. «, — говорится в блоге компании.