OpenAI объяснила, почему искусственный интеллект уверенно ошибается

Компания OpenAI, разработчик ChatGPT, опубликовала исследование, посвященное феномену «галлюцинаций» у больших языковых моделей. Под этим термином понимают ситуации, когда искусственный интеллект генерирует уверенные, но фактически неверные ответы. Анализ показал, что причина кроется в самих принципах обучения и оценки современных нейросетей.
Согласно выводам исследователей, существующие системы поощряют модели давать любые ответы вместо того, чтобы признавать свою некомпетентность. Стандартные тесты вознаграждают нейросеть за точность, но не предусматривают баллов за отказ от ответа. В результате модель предпочитает «угадать», поскольку удачная догадка принесет очки, тогда как ответ «я не знаю» всегда оценивается в ноль. Такая система стимулирует появление убедительных, но ложных утверждений.
Для демонстрации проблемы ученые задавали чат-ботам простые фактические вопросы, например, о названии диссертации конкретного исследователя. Модели выдавали несколько разных, но неизменно неверных вариантов ответа, при этом делая это с полной уверенностью. Сравнение двух подходов показало, что модель, склонная к догадкам, достигала точности в 24%, но ошибалась в 75% случаев. В то же время модель, обученная воздерживаться от предположений, показала точность 22%, но допустила ошибки лишь в 26% случаев, поскольку более чем в половине ситуаций предпочла не давать ответ.
В исследовании также объясняется, почему фактические ошибки устранить сложнее, чем, например, орфографические. В процессе обучения нейросети учатся предсказывать следующее слово в огромных массивах текста. Если грамматические и стилистические закономерности встречаются часто и усваиваются надежно, то редкие факты, такие как личные данные, не имеют устойчивых шаблонов, что и приводит к ошибкам.
OpenAI предлагает изменить стандарты оценки работы нейросетей. Ключевая идея — строже наказывать за уверенные ошибки, чем за признание незнания. Модели могли бы получать частичные баллы, если сообщают об отсутствии информации. Такой подход, по мнению авторов, будет способствовать более безопасному и надежному поведению ИИ, подобно тому, как на некоторых экзаменах пропуск вопроса предпочтительнее неверного ответа, за который снимают баллы.
В OpenAI приходят к выводу, что полностью искоренить «галлюцинации» невозможно, так как некоторые вопросы в принципе не имеют ответа. Однако их количество можно значительно сократить, изменив методы оценки и научив модели воздерживаться от ответов в условиях неопределенности. Это сделает взаимодействие с технологией более предсказуемым и безопасным для пользователей.