Прорыв в технологиях «мозг-компьютер»: искусственный интеллект превращает мысли в слова молниеносно

Новый интерфейс мозг-компьютер с искусственным интеллектом практически мгновенно переводит мысли в речь. В отличие от прошлых технологий алгоритм декодирует фразы за миллисекунды по мере их формирования в уме, сокращая задержку и приближаясь к естественному темпу разговора. Технология уже помогла парализованному пациенту в испытаниях и может изменить жизнь людей без речи.

Более двадцати лет разрабатываются интерфейсы мозг-компьютер для улучшения независимости и качества жизни людей с параличом. За последнее время значительный прогресс достигнут. В настоящее время BCI позволяют некоторым пациентам с параличом самостоятельно выполнять ряд повседневных задач, например, использовать электронные устройства (компьютеры, смартфоны и т.д.) или манипулировать бытовыми предметами.

Несмотря на развитие технологий преобразования мыслей в речь, существующие системы не обеспечивают естественного диалога. Нейробиолог Кристиан Херфф из Маастрихтского университета (Нидерланды) иллюстрирует это сравнением с перепиской в мессенджере: Я выражаю мысль, а вы отвечаете с задержкой… Такой обмен мне кажется неестественным. ».

Возникает временная задержка между формированием мысли и её выражением словами. Новые исследования показывают, что интеграция искусственного интеллекта может сделать это взаимодействие более естественным, передавая намерения пациентов плавнее. В связи с этим команда университета Калифорнии в Беркли создала новый интерфейс BCI, который переводит сигналы мозга в речь практически мгновенно.

«Наш способ работы с потоком данных позволяет нейропротезам декодировать речь так же быстро, как голосовые помощники вроде Alexa и Siri. «,— заявил Гопала Ануманчипалли, доктор Роберт Э. и Беверли А. Брукс, доцент кафедры электротехники и вычислительной техники Калифорнийского университета в Беркли и один из авторов исследования, опубликованного в журнале». , в пресс-релизе. «Аналогичным образом удалось расшифровать нейронные данные, обеспечив практическую синхронность передачи речи. Благодаря этому речь стала более естественной и плавной. Понятие «потоковой передачи» подразумевает постоянный и непрерывный процесс чтения данных, обеспечивающий мгновенную их передачу.

Модель, созданная для воспроизведения голоса пациента.

Разработанное командой Ануманчипалли устройство BCI извлекает нейронные данные из моторной коры – области мозга, управляющей движениями речи. Затем алгоритм искусственного интеллекта декодирует эти сигналы и преобразует их в звуковые высказывания. В итоге сигналы интерпретируются после того, как пациент уже внутренне сформировал мысль, выбрал слова и решил, как произнести звуки. Мы регистрируем сигналы на этапе превращения мысли в речь, непосредственно в области управления движением. — Объясняет Чол Чжун Чо, соавтор исследования и аспирант факультета электротехники и информатики Калифорнийского университета в Беркли.

Устройство вживили пациентке Энн, утратившей способность говорить после инсульта ствола мозга в 2005 году. Это прямоугольный имплантат, размещаемый на поверхности коры головного мозга и оснащенный 253 электродами, регистрирующими активность тысяч нейронов одновременно.

Для обучения алгоритма исследователи попросили Энн читать предложения на экране, например «Привет, как дела?», и мысленно представлять их чтение вслух. Такой метод позволил установить соответствие между нейронными сигналами и целевым предложением, без необходимости произнесения звуков.

Из-за отсутствия у Энн остаточной вокализации у исследователей не было последних аудиозаписей для сопоставления сигналов мозга с голосом. Чтобы обойти эту трудность, создали модель преобразования текста в речь, предварительно обученную голосом Энн до аварии, для воспроизведения звуков, приближенных к её оригинальному голосу.

Ритм, близкий к обычному разговорному

За время испытаний Энн произнесла сто предложений, состоящих из тысячи двенадцати слов и пятьдесят отдельных выражений. Устройство фиксировало сигналы мозга каждые восемьдесят миллисекунд, начиная за пятьсот миллисекунд до начала артикуляционной мысли. Это позволяло устройству генерировать от сорока семи до девяноста слов в минуту, что близко к скорости спонтанного разговора, которая обычно оценивается в сто пятьдесят- двести слов в минуту.

Полученные данные свидетельствуют о заметном улучшении по сравнению с предыдущей версией BCI, которая испытывалась Энн и нуждалась в среднем восьми секундах для перевода мысли в звуковое предложение. Несмотря на это, пространство для оптимизации все еще существует: ряд исследований показал, что при задержке свыше 50 миллисекунд происходит снижение плавности информационного обмена.

Исследователи полагают, что данную задержку можно уменьшить, оптимизируя работу датчиков и повышая точность обработки нейронных сигналов. С надеждой ожидаем, что прогресс будет достигнут во всех сферах. Так, в области инженерии будем продолжать работу над алгоритмом для улучшения генерации речи: более эффективно и быстро. », — говорит Чол Чжун Чо.

Команда также намеренна добавить в созданный голос выразительность, имитирующую натуральные особенности, например, интонацию, модуляцию голоса и силу произношения, присущие разным способам изречения слов. В настоящий момент исследуется эффективность декодирования паралингвистических характеристик, извлеченных из мозговой активности. — Объясняет Кайло Литтлджон, докторант факультета электротехники и информатики Калифорнийского университета в Беркли, а также соавтор исследования.