Нейросети и люди по-разному интерпретируют звук. Это объясняет, почему алгоритмы обработки звука не всегда приводят к желаемым результатам. Специалисты создали новую модель глубокого обучения, использующую оценки, данные людьми при прослушивании аудио, что позволяет более эффективно улучшать качество аудиозаписей.
Искусственный интеллект зачастую разрабатывается с целью имитации человеческого поведения, чтобы он мог эффективно помогать людям в различных областях. В частности, в Японии появился шагающий робот с настоящей мышечной тканью , а в Великобритании роботизированный датчик научили распознавать шрифт Брайля как человек, но в два раза быстрее.
Разработчики из Индианского университета в США создали глубокую нейросеть, использующую принципы человеческого восприятия для редактирования аудиозаписей. Их исследования показали опубликовали в журнале IEEE/ACM Transactions on Audio, Speech and Language Processing . Новая модель учитывает не только измеримые параметры качества звука, но и личные впечатления пользователей. Это позволяет учитывать ситуации, когда технически безупречная запись речи кажется зашумленной, и определять, какие сигналы, допустимые для нейросети, воспринимаются как нежелательные для слушателя.
Новая модель глубокого обучения прошла успешное тестирование, о чем сообщили исследователи. В ходе работы они были сосредоточены на улучшении качества речи, получаемой из одного источника – микрофона. Для оценки эффективности использовали два набора данных, полученных в рамках предыдущих исследований. Они содержат информацию о субъективных оценках качества записей разговоров, содержащих фоновые шумы, такие как звук телевизора или музыка, по шкале от 1 до 100. Применялся метод совместного обучения, который включает в себя не только языковой модуль для улучшения качества речи, но и алгоритм, предсказывающий среднюю оценку зашумленного сигнала, выставленную человеком.
Предсказания, сделанные моделью, оказались в высокой степени согласованы с реальными оценками людей, которые давали звуковым дорожкам. Это свидетельствует о том, что алгоритм, обрабатывая звук, способен учитывать не только его объективные характеристики.
По мнению исследователей, работа с субъективными оценками сопряжена с определенными трудностями. Восприятие людей может существенно отличаться из-за индивидуальных физиологических особенностей, личного опыта и состояния слухового аппарата или кохлеарного имплантата. Тем не менее, исследователи планируют дальнейшее развитие этой модели, чтобы она справлялась со сложными аудиозаписями и соответствовала изменяющимся запросам пользователей.
Авторы статьи полагают, что разработанная технология найдет применение в различных областях. В первую очередь, она позволит создавать более удобные слуховые аппараты, программы для распознавания речи, а также приложения для тестирования громкоговорителей и систем громкой связи.