Разные подходы к восприятию звука у нейросети и человека приводят к тому, что алгоритмы порой не достигают желаемых результатов при обработке аудио. Ученые создали новую модель глубокого обучения, которая использует человеческие оценки качества звуковой дорожки и повышает эффективность улучшения записей.

Искусственный интеллект стремятся сделать похожим на человека, чтобы помочь людям в различных областях. В Японии, например, появился… Робот, способный двигаться с использованием мышечных тканей. , а в Великобритании роботизированный датчик научили распознавать шрифт Брайля как человек, но в два раза быстрее.
В Индианском университете (США) создали глубокую нейросеть для редактирования аудиозаписей, основанную на механизмах человеческого слуха. Результаты исследования… опубликовали в журнале Труды IEEE/ACM по аудио, речи и обработке языка. Новая модель учитывает не только объективные критерии качества звука, но и субъективные восприятия людей.
Исследователи сообщили о успешном тестировании новой модели глубокого обучения. В центре внимания находилось усиление речи с одного аудиоканала — микрофона. Для проверки использовались два набора данных из прошлых исследований: данные о рейтинге записанных разговоров с фоновым шумом (например, работающий телевизор или музыка) по шкале от 1 до 100. Применен метод совместного обучения: в него входят языковой модуль для усиления речи и алгоритм прогнозирования среднестатистической человеческой оценки зашумленного сигнала.
Учёным удалось добиться высокой точности предсказаний модели о том, как человек воспримет аудиозапись, по сравнению с оценками реальных людей.
У работы с субъективными оценками есть трудности, как установили исследователи. кохлеарного имплантатаУченые будут улучшать созданную модель, чтобы та справлялась с более сложными звукозаписями и соответствовала изменяющимся потребностям людей.
Авторы статьи считают, что разработанная технология пригодится в различных областях. В частности, позволит создавать более удобные для пользователей слуховые аппараты, программы распознавания речи и приложения для тестирования громкоговорителей и систем звукового оповещения.