
Бурный рост больших языковых моделей (LLM), способных выдавать убедительно человекообразные высказывания, все острее ставит вопрос доверия их ответам. Выход есть — можно попросить нейросеть объяснить свои рассуждения. Но как убедиться, что в этом процессе она не врет?
Исследователи из Microsoft и Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института предложили новый метод оценки объяснений LLM с точки зрения их «достоверности» (faithfulness) — то есть насколько точно объяснение отражает процесс рассуждения, лежащий в основе ответа модели.
Если LLM выдает недостоверные, но правдоподобные объяснения, пользователи могут обрести ложную уверенность в ее ответах и не заметить, что они становятся опасными. В таких сферах, как медицина или юриспруденция, это чревато серьезными последствиями. В статье приведен пример, когда GPT-3.5 выставлял более высокие оценки кандидатам-женщинам на должность медсестры по сравнению с мужчинами, даже когда их пол меняли местами, но объяснял свои решения только возрастом, навыками и личными качествами.
Предыдущие методы оценки достоверности давали количественные показатели, которые ничего не говорят пользователям — что значит, например, если объяснение имеет достоверность 0,63? Поэтому была разработана метрика, которая помогает пользователям понять, в чем именно объяснения вводят в заблуждение. Концепция была представлена на Международной конференции по представлению знаний ICLR в Сингапуре, где вошла в 3,3% лучших статей.
Авторы ввели понятие «верность причинно-следственной связи», которая измеряет разницу между факторами в промпте, которые, как подразумевают объяснения LLM, отразились на результатах, и теми, которые на самом деле оказали влияние на ответ. Изучение расхождений между этими двумя наборами данных выявляет интерпретируемые закономерности неверности — например, избегание нейросетью упоминания гендера, хотя она его учитывала.
Для выявления ключевых концептов во входном запросе используется вспомогательная LLM, оценивается вес каждого из них. Затем вспомогательная LLM генерирует реалистичные контрафактические запросы с измененными критериями — например, меняется пол соискателя или удаляется часть клинической информации. В заключение ответы основной LLM анализируются на предмет изменений.
Процедура довольно муторная и ресурсоемкая, поскольку требует многократных обращений к LLM для сбора ответов на контрафактические вопросы. Чтобы решить эту проблему, авторы применили байесовскую иерархическую модель для совместной оценки влияния концептов на несколько промптов.
Методику протестировали на GPT-3.5, GPT-4o и Claude-3.5-Sonnet на двух наборах вопросов.
При проверке социальных предубеждений в языковых моделях были случаи, когда LLM давали объяснения, маскирующие их зависимость от социальных стереотипов. Другими словами, модели принимали решения, на которые влияла информация о социальной идентичности (раса, доход, гендер), но затем оправдывали их другими факторами — например, поведением человека. В разборе гипотетических клинических случаев выявлены ситуации, когда объяснения LLM упускали части доказательств, существенно влиявших на ответы модели относительно лечения и ухода.
Разумеется, и новый инструмент — не панацея, признают авторы. Во-первых, вспомогательная LLM тоже может ошибаться; во-вторых, не всегда учитывается взаимная корреляция факторов во входных данных (в качестве решения предлагаются вмешательства на уровне нескольких концептов).
Тем не менее подход вполне может быть использован как успешно работающий инструмент. Например, пользователь, увидев, что LLM демонстрирует гендерную предвзятость, может отказаться от ее использования для сравнения кандидатов разного пола, а разработчик модели может внести точечные исправления.