Нейросети иногда выдают неточные сведения, вплоть до предоставления опасных рекомендаций, например, выдавая яд за лекарство. Новое исследование выявило, что эта проблема обусловлена фундаментальными особенностями работы нейросетей. Несмотря на то, что вероятность таких случаев можно уменьшить, исключить её полностью не представляется возможным.
Надежная работа нейросетей критически важна не только для взаимодействия пользователей с ними, но и для безопасности жизни людей. Неверные рекомендации больших языковых моделей, таких как ChatGPT, могут привести к трагическим последствиям, а ошибки нейросетей, управляющих автопилотом, например, галлюцинации, могут стоить жизни – представьте себе ситуацию, когда автопилот ошибочно воспринимает обочину как дорогу и направляет автомобиль прямо в дерево. Принимая во внимание высокую стоимость таких автопилотов, сопоставимую со стоимостью подержанного автомобиля, подобные инциденты неизбежно снижают их привлекательность для вдумчивых покупателей.
Авторы новой работы, которую они выложили на сервер препринтов Корнеллского университета, решили выяснить, возможно ли в принципе решить проблему подобных галлюцинаций и сколько это будет стоить. Оказалось, что причины возникновения галлюцинаций разнообразны и полное их подавление поэтому нереалистично.
В первую очередь, обучающие текстовые наборы данных (или видеозаписи вождения, если речь идет о нейросетях) неминуемо содержат ошибки. Чтобы исключить ошибки, выборка должна быть крайне малой, однако для создания эффективной нейросети этого недостаточно.
Во-вторых, даже если бы была доступна обширная выборка данных, полностью лишенная ошибок, это не устранило бы проблему. В случае с языковыми моделями сам процесс генерации их ответов приводит к возникновению галлюцинаций. Они определяют каждое последующее слово в предложении, опираясь на расчетные вероятности. Поскольку в предложениях содержится большое количество слов, вероятность ошибки увеличивается с каждым новым словом.
Каждое добавленное слово вносит свои нюансы в значение, что увеличивает риск возникновения ошибки. По данным исследований, если бы нейронные сети задавали вопросы, требующие ответа только «да» или «нет», вероятность неверного ответа была бы как минимум вдвое меньше. Наилучшим образом у них получается бинарная классификация.
Во-первых, сложным для решения фактором, провоцирующим возникновение галлюцинаций, стали системы оценки нейросетей. Любая из них способна демонстрировать отсутствие галлюцинаций при условии строгого снижения оценок за неверные ответы. Стремясь к улучшению результатов, нейросеть оперативно начнет отвечать «Я не знаю» на любой вопрос, не содержащийся в ее обучающем наборе данных. Однако, в таком случае, она будет генерировать ответ «Я не знаю» в значительной доле ситуаций (десятки процентов). С точки зрения обычного пользователя, переход от нейросети, уверенно обсуждающей интересующую его тему, к той, что в 25% случаев будет выдавать ответ «Я не знаю», будет свидетельствовать о снижении качества продукта.
Разработчики языковых моделей стремятся предотвратить подобное, и их системы оценки снижают эффективность нейросети за частые ответы «Я не знаю». Это и является третьим фактором, вызывающим галлюцинации: нейросети выгодно выдавать любой ответ, поскольку она может случайно угадать, или оценивающие ее люди и программы не смогут распознать ее ошибку. Похожее поведение нередко демонстрируют студенты, которые пытаются сдать сложный экзамен, не обладая достаточными знаниями».
Ученые высказали мнение, что существует возможность смягчить указанную проблему, например, мотивируя языковую модель задавать дополнительные вопросы, если она не уверена в правильности ответа. Данный подход эффективен, однако значительно увеличивает вычислительные ресурсы, необходимые для формирования одного ответа. Это может быть целесообразно в специализированных областях, где ошибки чреваты серьезными последствиями, но в чат-боте с бесплатной моделью доступа его применение будет затруднительным.
Всё это указывает на то, что создание нейросетей, полностью свободных от галлюцинаций, представляется крайне маловероятным, как в настоящем, так и в будущем. Поэтому при их использовании необходимо учитывать невозможность полного устранения галлюцинаций и не доверять ответам нейросетей в ситуациях, когда ошибка может иметь серьезные последствия. Это вызывает вопросы об эффективности нейросетей, в частности, в сфере автономного вождения. Однако окончательные выводы относительно этого вопроса может сделать только опыт ближайшего времени.