Повышение качества аудиозаписей с помощью машинного обучения на базе человеческого восприятия

Разные подходы к восприятию звука у нейросети и человека приводят к тому, что алгоритмы порой не достигают желаемых результатов при обработке аудио. Ученые создали новую модель глубокого обучения, которая использует человеческие оценки качества звуковой дорожки и повышает эффективность улучшения записей.

Девушка наслаждается музыкой, используя наушники.

Искусственный интеллект стремятся сделать похожим на человека, чтобы помочь людям в различных областях. В Японии, например, появился… Робот, способный двигаться с использованием мышечных тканей. , а в Великобритании роботизированный датчик научили распознавать шрифт Брайля как человек, но в два раза быстрее.

В Индианском университете (США) создали глубокую нейросеть для редактирования аудиозаписей, основанную на механизмах человеческого слуха. Результаты исследования… опубликовали в журнале Труды IEEE/ACM по аудио, речи и обработке языка. Новая модель учитывает не только объективные критерии качества звука, но и субъективные восприятия людей.

Исследователи сообщили о успешном тестировании новой модели глубокого обучения. В центре внимания находилось усиление речи с одного аудиоканала — микрофона. Для проверки использовались два набора данных из прошлых исследований: данные о рейтинге записанных разговоров с фоновым шумом (например, работающий телевизор или музыка) по шкале от 1 до 100. Применен метод совместного обучения: в него входят языковой модуль для усиления речи и алгоритм прогнозирования среднестатистической человеческой оценки зашумленного сигнала.

Учёным удалось добиться высокой точности предсказаний модели о том, как человек воспримет аудиозапись, по сравнению с оценками реальных людей.

У работы с субъективными оценками есть трудности, как установили исследователи. кохлеарного имплантатаУченые будут улучшать созданную модель, чтобы та справлялась с более сложными звукозаписями и соответствовала изменяющимся потребностям людей.

Авторы статьи считают, что разработанная технология пригодится в различных областях. В частности, позволит создавать более удобные для пользователей слуховые аппараты, программы распознавания речи и приложения для тестирования громкоговорителей и систем звукового оповещения.