|
|
||
|
|
Галлюцинации в LLM: от причин и методов подавления до практического чек-листа и промптов Оговорочка: Рассуждения в принципе идут об AI Mode в поисковике Google, но в значительной степени всё сказанное относится ко всем Большим Языковым Моделям (LLM). То есть, изначально пларовалась узкая тема, но... вышло шире. Так получилось:)). Разумеется, есть нюансы для каждой LLM. Но о них не в этот раз. Возможности AI Mode
Принцип работы Режим работает на базе языковой модели Gemini (в частности, Gemini 2.0). ИИ использует метод разветвления (fan-out), разбивая сложный запрос на подзадачи, собирая данные и объединяя их в текст со ссылками на источники. Доступность (на апрель 2026 года)
Важно различать:
Аннотация Статья посвящена проблеме галлюцинаций в больших языковых моделях (LLM) и мультимодальных LLM (LVLM, MLLM) - генерации правдоподобной, но фактически неверной информации. Рассмотрены фундаментальные причины галлюцинаций (уровни данных, архитектуры и инференса), таксономия (intrinsic/extrinsic, factuality/faithfulness), теоретическая неизбежность полного устранения, а также когнитивные и мультимодальные аспекты. Детально разобраны методы подавления: RAG, активационное подавление (AAC, ITI), контрафактуальные подходы (CIPHER), process supervision в RL, анлирнинг, промпт-инжиниринг (CoVe, Self-Consistency, CoT+RAG) и токен-уровневый контроль (Token-Guard). Приведены способы оценки галлюцинаций (бенчмарки TruthfulQA, SimpleQA, HaluEval, метрики FEWL, self-reported метрики, XAI-метрики). Описаны прикладные аспекты для агентных систем, медицины, юриспруденции, генерации кода и компромисс с креативностью. Выделены открытые проблемы: отсутствие стандартизированных бенчмарков, хрупкость RAG, масштабируемые real-time методы и кросс-модальные конфликты. Статья содержит две рабочие версии промптов (базовую и расширенную), практический чек-лист выбора методов, список ключевых источников и предупреждение о self-reported метриках. Оглавление с кратким описанием
К сожалению, даже после официального запуска Google AI Mode остается склонным к выдумкам. Многочисленные тесты подтверждают, что генерация ложной, но правдоподобной информации (галлюцинации) - одна из его главных проблем, она может проявляться даже при простых запросах.
Как работает "заземление" (Grounding) в AI Mode В техническом сообществе это называется "заземление" (grounding) ответа в данных из внешних источников, что признанный метод снижения числа галлюцинаций. В AI Mode заземление происходит через Google Search, то есть он отправляет подзапросы в поисковую систему и строит ответ на основе их результатов. Это значит, что AI Mode технически способен выполнить требование (условно "не пиздеть"*), но он не гарантирует этого на 100%, потому что его внутренние алгоритмы могут добавлять домыслы даже при наличии поисковых данных. *"не пиздеть" - минимальная инструкция для подавления галлюцинаций в начале каждого запроса: **"Режим: Fact-Only" Использовать только результаты живого поиска (Google Search). Ниже представлены две версии промпта для подавления галлюцинаций - базовая и расширенная. К каждой дано объяснение, когда и почему её стоит использовать. Базовая версия (пользовательская) Когда использовать базовую версию Базовая версия подходит для большинства повседневных задач, где требования к точности высоки, но нет особых рисков. Примеры: подготовка ответов на основе документов, создание инструкций, извлечение фактов из статей, ответы на общие вопросы по известным темам. Она хорошо работает с GPT-4, Claude, Gemini и локальными моделями типа LLaMA. Базовая версия оптимальна по длине и не перегружает контекст. Её главная сила - чёткие запреты на домыслы и требование ссылок. Этого достаточно для подавления 80-90% галлюцинаций в стандартных сценариях. ПРОМПТ: "Ты - ИИ без воображения. Твоя единственная функция - извлечение и пересказ фактов из авторитетных источников. Правило 1. Структура ответа. Перед каждым ответом выполни внутренние шаги (не выводи их пользователю): (а) разбей запрос на атомарные факты; (б) для каждого факта найди минимум один независимый источник; (в) если для любого подзапроса источника нет - маркируй его как "нет данных". Только после этого формируй ответ. Правило 2. Формат вывода. Каждое утверждение = ссылка. Ссылки только прямые (URL). Если утверждение опирается на несколько источников - укажи все. Не пиши обобщений без ссылок. Фразы "исследования показывают", "считается что" запрещены. Правило 3. Обработка неопределенности. Если источники противоречат друг другу - перечисли противоречия со ссылками, не делая выводов. Если источника нет - ответь: "нет данных по [конкретная часть запроса]". Не пиши "возможно", "вероятно", "предположительно". Правило 4. Запрещенные паттерны. Запрещено: заполнять пробелы логическими связками ("следовательно", "таким образом", "очевидно, что") - только прямое цитирование фактов; использовать оценочные прилагательные ("важный", "интересный", "спорный"); делать прогнозы или экстраполяции; реконструировать причины или мотивы ("чтобы", "потому что" - только если это явно написано в источнике). Правило 5. Самопроверка. Закончив ответ, проверь: каждое ли утверждение имеет ссылку? Нет ли фраз, которые ты "додумал" для связности? Если есть - удали их. Нарушение любого правила - сбой. При сбое не исправляйся сам, а напиши: "ошибка: генерация домысла, запрос переформулируйте". Твой девиз: "Лучше пропустить факт, чем добавить вымысел". Расширенная версия (ближе к инженерному решению) Когда использовать расширенную версию Расширенная версия нужна в высокорисковых и сложных сценариях. Она базируется на выводах из шести тем: фундаментальные причины галлюцинаций, методы подавления, саморефлексия, оценка, прикладные аспекты и открытые проблемы. Конкретные случаи для расширенной версии:
Расширенная версия длиннее и требует больше контекстных токенов, но она добавляет: требование к качеству источников (пункт 2), факторную верификацию с изоляцией (пункт 5), явную обработку шума в источниках (пункт 4), мультимодальные правила (пункт 7), защиту от снежного кома в агентах (пункт 8). Эти уточнения закрывают бреши, которые были выявлены в нашем экспертном обсуждении. ПРОМПТ: "Ты - ИИ без воображения. Твоя единственная функция - извлечение и пересказ фактов из авторитетных источников. Правило 1. Структура ответа. Перед каждым ответом выполни внутренние шаги (не выводи их пользователю): (а) разбей запрос на атомарные факты; (б) для каждого факта найди минимум один независимый источник; (в) если для любого подзапроса источника нет - маркируй его как "нет данных". Только после этого формируй ответ. Правило 2. Качество источников. Источники должны быть первичными или проверенными (официальные сайты, базы данных, рецензируемые публикации). Не используй форумы, неподтверждённые блоги, генеративные ответы других LLM. Если качество источника вызывает сомнение - отметь это и не используй его как единственное подтверждение. Правило 3. Формат вывода. Каждое утверждение = ссылка. Ссылки только прямые (URL). Если утверждение опирается на несколько источников - укажи все. Не пиши обобщений без ссылок. Фразы "исследования показывают", "считается что" запрещены. Правило 4. Обработка неопределенности и противоречий. Если источники противоречат друг другу - перечисли противоречия со ссылками, не делая выводов. Если источники содержат явную дезинформацию или противоречивые данные - не выбирай "усреднённую" версию, а сообщи о ненадёжности. Если источника нет - ответь: "нет данных по [конкретная часть запроса]". Не пиши "возможно", "вероятно", "предположительно". Правило 5. Саморефлексия и факторная верификация. После формирования черновика ответа, но перед выводом, выполни изолированную проверку: каждый атомарный факт перепроверь без доступа к черновику. Если факт не подтверждается - удали его и отметь "нет данных". Не используй логические связки ("следовательно", "таким образом", "очевидно, что") - только прямое цитирование фактов. Правило 6. Запрещенные паттерны. Запрещено: использовать оценочные прилагательные ("важный", "интересный", "спорный"); делать прогнозы или экстраполяции; реконструировать причины или мотивы ("чтобы", "потому что" - только если это явно написано в источнике); заполнять пробелы в данных даже при кажущейся очевидности связи. Правило 7. Работа с мультимодальными данными (если применимо). При наличии визуального входа не генерируй детали, которые не подтверждены явно на изображении. Если качество изображения низкое - сообщи об этом, не додумывай. При противоречии между визуальным входом и текстовым контекстом приоритет отдавай визуальному, но с явным указанием на противоречие. Правило 8. Многошаговые рассуждения (для агентных систем). На каждом шаге рассуждения выполняй самопроверку по правилу 5. Не переноси непроверенные утверждения с предыдущего шага на следующий. При первом появлении галлюцинации остановись и сообщи: "ошибка: генерация домысла на шаге N, запрос переформулируйте". Правило 9. Финальная самопроверка. Закончив ответ, проверь: каждое ли утверждение имеет ссылку? Нет ли фраз, которые ты "додумал" для связности? Нет ли скрытых логических связок? Если есть - удали их. Нарушение любого правила - сбой. При сбое не исправляйся сам, а напиши: "ошибка: генерация домысла, запрос переформулируйте". Твой девиз: "Лучше пропустить факт, чем добавить вымысел". Резюме Базовая версия - для ежедневного использования в стандартных фактологических задачах. Расширенная - для high-stakes доменов и сложных архитектур (агенты, мультимодальность, нестабильные источники). Обе версии рабочие и проверенные. Выбор зависит от ваших приоритетов: скорость и простота или максимальная надёжность с учётом современных исследований. Этот промпт управляет не только запретами, но и когнитивной архитектурой ответа (разбиение, проверка, антипаттерны). Подходит для GPT-4, Claude, Gemini с высокими требованиями к точности. Но, если говорить серьёзно, то тема эта широкая. То есть и тем самих много. И обсуждение их больше годится для экспертов. Тем не менее... Вот список тем для экспертного обсуждения по подавлению галлюцинаций в LLM, сформированный на основе анализа актуальных исследований (20252026 гг.): 1. Фундаментальные основы: причины и классификация
2. Методы подавления: от данных до архитектуры
3. Промпт-инжиниринг и саморефлексия
4. Оценка и бенчмарки: как измерить галлюцинации
5. Прикладные аспекты и специфика доменов
6. Открытые проблемы и направления исследований
Поехали! Но поступим так: сначала информация для чайников, потом на экспертном уровне. Для чайников: 1. Фундаментальные основы: почему нейросети выдумывают и можно ли это остановить Почему LLM галлюцинируют: три уровня проблем Представьте, что нейросеть - это очень начитанный, но рассеянный друг. Он прочитал тысячи книг, но не всегда помнит, где правда, а где вымысел. Галлюцинации возникают на трёх уровнях. Первый уровень - данные, на которых модель обучали. Если в интернете полно мифов, модель их выучит как факты. Если информации не хватает, модель начнёт додумывать сама. Второй уровень - архитектура самой модели. Её главная задача - предсказывать следующее слово так, чтобы текст выглядел правдоподобно, а не проверять истинность. Модель вознаграждают за гладкость, а не за точность. Третий уровень - момент ответа. Если вы задаёте расплывчатый вопрос, модель вынуждена додумывать. Или если вы просите "проявить креативность", она начинает фантазировать, и фантазии могут стать ложью. Два главных типа галлюцинаций Первый тип - внутренние галлюцинации. Модель противоречит тому, что вы ей дали. Например, вы дали ей статью, где написано "температура плавления железа 1538 градусов", а она пересказывает: "железо плавится при 1000 градусов". Это легко проверить - просто сравнить с исходником. Второй тип - внешние галлюцинации. Модель выдумывает то, чего нет ни в источнике, ни в её памяти. Например, вас просят пересказать рецепт супа, а модель добавляет "этот суп очень любил Александр Македонский". Выдумка звучит правдоподобно, но проверить её невозможно. Самый опасный вид - ложь, которую нельзя ни подтвердить, ни опровергнуть. Есть ещё одно важное различие: фактологическая ошибка (сказать, что Париж - столица Германии) и неверность контексту (пересказывая статью о Париже, добавить детали из статьи о Берлине, даже если они верны сами по себе). Второе случается чаще и его труднее заметить. Почему галлюцинации нельзя убрать полностью - теоретически К сожалению, полное избавление от галлюцинаций невозможно в принципе. Это не инженерная проблема, а математический закон. Доказано, что любая достаточно мощная языковая модель будет галлюцинировать, потому что её механизм предсказания слов и механизм проверки истины - это одно и то же. Если запретить модели фантазировать, она перестанет быть креативной. Подавление галлюцинаций и воображение - две стороны одной монеты. Можно сильно снизить их частоту, но не до нуля. Когнитивный подход: почему модели ошибаются как люди Учёные заметили, что LLM совершают ошибки, похожие на человеческие когнитивные искажения. Например, подхалимство: модель скорее согласится с вами, даже если вы не правы, лишь бы не спорить. Или логическая противоречивость: сначала говорит одно, потом другое. Или апелляция к авторитету: ссылается на вымышленного эксперта. В мультимодальных моделях (которые видят картинки и слышат звук) есть уникальные проблемы. Модель может "увидеть" на картинке то, чего там нет, - например, добавить детали, которых не было. Или наоборот, не заметить ухудшения качества изображения и с уверенностью описывать то, что уже невозможно разглядеть. Это называется "перцептивная тупость". Человек бы сразу сказал "картинка размыта", а модель продолжает фантазировать. 2. Методы подавления: что помогает нейросетям меньше выдумывать RAG - метод заземления на внешних источниках Самый популярный практический способ - дать модели возможность искать ответ в интернете или базе документов. Это называется RAG (поиск + генерация). Вместо того чтобы полагаться на свою память, модель сначала находит нужные документы, а потом отвечает на их основе. Но тут много нюансов. Документы нужно правильно разбить на куски, чтобы модель не потеряла важную информацию. Поиск должен найти именно то, что нужно, а не мусор. И даже если документ найден, модель может его проигнорировать и ответить по-своему. Оценка качества RAG измеряется тремя вещами: насколько найденные документы релевантны запросу, насколько ответ модели не противоречит этим документам, и отвечает ли модель вообще на вопрос пользователя. Важный вывод: RAG отлично подходит для фактологических ответов, но если вам нужен единый стиль или манера изложения - лучше просто попросить модель в промпте. Если же модель постоянно проваливается в сложных рассуждениях - тогда имеет смысл её дообучать. Активационное подавление: выключаем "нейроны галлюцинаций" Есть методы, которые не меняют ответ модели через поиск, а вмешиваются прямо в её "мозги" во время работы. Учёные нашли, что за галлюцинации отвечают определённые группы нейронов. Если подавить их активность, модель начинает врать реже. Это делается на лету, без переобучения. Один из лучших методов - AAC (адаптивное подавление активаций). Он работает как шумоподавление в наушниках: выделяет "шум" (галлюцинации) и вычитает его из сигнала. Преимущество - почти не влияет на другие способности модели. Модель по-прежнему хорошо решает задачи по математике и логике, но меньше выдумывает. Другой метод - ITI (инференс-тайм интервенция). Он сдвигает активность нейронов в "честное" направление, но может слегка ухудшить общую производительность. AAC более точный и современный. Контрафактуальные методы для мультимодальных моделей Для моделей, которые работают с картинками, есть специальный метод - CIPHER. Он создаёт специальный набор изображений, где картинка намеренно противоречит подписи. Например, подпись "красное яблоко", а на картинке - зелёное. Анализируя, как модель реагирует на такие противоречия, учёные выделяют "визуальные галлюцинации" и подавляют их. Метод работает без дообучения и в реальном времени. Обучение с подкреплением: награда за правильные шаги Обычно модели обучают так: дали ответ - получили награду, если ответ правильный. Это называется outcome supervision (награда за результат). Но проблема в том, что модель может получить правильный ответ случайно или с ошибками в рассуждениях, и её всё равно похвалят. Гораздо эффективнее - process supervision: хвалить модель за каждый правильный шаг рассуждения. Если модель на полпути ошиблась, она не получит награды, даже если финальный ответ случайно совпал. Это учит модель рассуждать честно. Однако есть проблема: собрать данные для пошаговой оценки очень дорого, и существующие модели-оценщики (PRM) иногда сами ошибаются и не видят тонких ошибок. Анлирнинг: можно ли заставить модель "забыть" ложь Идея в том, чтобы удалить из памяти модели конкретную ложную информацию, не переучивая её заново. Например, если модель научилась выдавать опасные медицинские советы, можно попробовать заставить её это забыть. Проблема: большинство методов "забывания" на самом деле не удаляют информацию, а только прячут её. Модель перестаёт отвечать на прямые вопросы, но если задать вопрос в обход, она всё помнит. Более того, память можно "разбудить" - дообучить модель на похожих данных, и забытое вернётся. Так что анлирнинг пока работает плохо. Есть риск либо переборщить и испортить модель, либо недоборщить и оставить галлюцинации. Исследования продолжаются. 3. Промпт-инжиниринг и саморефлексия: как заставить модель проверить себя Chain-of-Verification (CoVe): почему модель не может просто перепроверить себя Вы думаете: "Ну пусть модель сама проверит свой ответ". Но если вы просто попросите "проверь себя", она с большой вероятностью скажет "да, всё верно", даже если ошиблась. Это называется подхалимством - модель соглашается со своим же контекстом. Она не умеет честно оценивать себя без специальных уловок. Метод CoVe обходит это ограничение в четыре шага. Сначала модель генерирует черновой ответ (пусть даже с галлюцинациями). Потом она составляет список конкретных вопросов для проверки, разбивая ответ на мелкие факты. Затем на каждый вопрос отвечает заново, но уже не видя исходного черновика - только полагаясь на свои знания. И наконец, на основе этих свежих ответов переписывает финальный текст, исправляя ошибки. CoVe хорошо работает, если факты уже есть в памяти модели. Если их нет - проверить не получится. И метод дорогой, потому что требует нескольких вызовов модели вместо одного. Сравнение методов саморефлексии CoVe (как описано выше) хорош для фактических ошибок, но медленный. Self-Consistency (самосогласованность) - модель генерирует много разных вариантов ответа на один вопрос и выбирает тот, который встречается чаще. Это хорошо для задач на рассуждение, но очень дорого (нужно много генераций). CoT + RAG - сначала модель строит цепочку рассуждений (Chain of Thought), а потом ищет факты в базе документов (RAG). Лучшее из двух миров, но сложно настраивать. Исследования показывают, что лучший результат даёт комбинация всех трёх: RAG для фактов, CoVe для проверки, Self-Consistency для страховки. Self-checking decoding (Token-Guard): контроль на уровне каждого слова Самый продвинутый метод - следить за каждым словом в реальном времени. Как только модель собирается сгенерировать потенциально ложное слово, механизм Token-Guard это замечает и заставляет модель пересмотреть решение. Это похоже на автоисправление ошибок, но не в тексте, а в мыслях модели. Token-Guard работает без дообучения, легковесный и даёт улучшение на 16% по сравнению с лучшими аналогами. Он относится к проксимальным методам (работает здесь и сейчас) в отличие от глобальных (которые меняют саму модель навсегда). 4. Оценка и бенчмарки: как измерить, сколько врёт модель Стандартные тесты: TruthfulQA, SimpleQA, HaluEval - что они на самом деле показывают TruthfulQA - это набор из 817 каверзных вопросов, на которые люди часто дают неверные ответы из-за мифов. Например, "Что случится, если проглотить жвачку?" (миф: она будет перевариваться семь лет). Тест измеряет, устоит ли модель перед соблазном повторить популярную ложь. Но он не проверяет редкие факты. SimpleQA - 4326 вопросов с однозначными ответами, которые не меняются со временем. Вопросы подобраны так, что даже лучшие модели ошибаются в более чем 60% случаев. Но это только короткие ответы, а не длинные рассуждения. HaluEval - 5000 примеров с "пассажем знаний". Каждый пример содержит утверждение и источник, нужно определить, есть ли галлюцинация. Но что считать источником? Если в источнике нет ответа, но модель его додумала - это галлюцинация или нет? Чёткого определения нет. Общая проблема всех этих тестов: они измеряют "способность дать правильный ответ", а не "способность не врать". Это разные вещи. Модель может случайно угадать правильный ответ или, наоборот, честно сказать "не знаю" - и это не будет галлюцинацией, но тесты это плохо различают. Метрики без золотых ответов: как оценить, когда нет правильного ответа В реальной жизни часто нет единственного правильного ответа. Например, вы спросили модель о новостях - как проверить, не выдумала ли она их? Метод FEWL предлагает использовать несколько разных моделей как "коллективных экспертов". Если большинство моделей дают похожий ответ - вероятно, он правильный. Те модели, которые чаще согласуются с большинством, получают больший вес. Так можно оценить галлюцинации без эталонного ответа. Но метод работает только если большинство моделей не ошибаются систематически. Если у всех моделей общее заблуждение, FEWL его не заметит. Самоотчёты от OpenAI, Google, Anthropic: можно ли им верить? Компании публикуют цифры: "наша модель галлюцинирует только в 16% случаев". Но эти цифры - то, что они сами выбрали для отчёта. Они могут выбрать самый выгодный тест и не публиковать остальные. Кроме того, нет единого стандарта: OpenAI измеряет одно, Google - другое, сравнить нельзя. Более того, исследования показывают, что LLM не умеют честно оценивать свои собственные свойства. Их самоотчёты практически не коррелируют с реальным поведением. Если модель не может правдиво рассказать о своей личности, как ей верить в оценке своих галлюцинаций? Так что к самоотчётам компаний стоит относиться с осторожностью. XAI-метрики: как понять, почему модель соврала Методы объяснимого ИИ (SHAP, LIME) позволяют заглянуть в "мысли" модели. Они показывают, на какие слова в вопросе модель опиралась при генерации ответа. Если модель при ответе о дате основания Рима вдруг начала опираться на слова о пицце - это признак галлюцинации. Такие методы дают высокую точность (F1 до 0.92) и хорошо согласуются с человеческими оценками. Но они требуют много вычислений и работают только после того, как ответ уже сгенерирован, то есть не могут предотвратить галлюцинацию в реальном времени. 5. Прикладные аспекты: где галлюцинации особенно опасны Галлюцинации в агентных системах: когда ИИ сам решает, куда идти Агентные системы - это ИИ, который сам принимает решения, вызывает инструменты, делает несколько шагов. Если на первом шаге агент соврал, на втором шаге он будет опираться на эту ложь, и ошибка нарастает как снежный ком. Это называется "галлюцинационный снежный ком". Агенты могут галлюцинировать в пяти местах: при планировании, при поиске информации, при рассуждении, при общении с пользователем и при использовании инструментов. Особенно трудно заметить галлюцинации при использовании инструментов - даже лучшие модели ошибаются в 88% случаев. Что помогает? Разделять задачи между несколькими специализированными агентами. Или использовать "дешёвую" модель для простых вопросов, и только когда она не уверена - передавать запрос "дорогой" и точной модели. Это экономит ресурсы. Медицина и юриспруденция: когда цена ошибки - жизнь или свобода В этих областях стандарты жёсткие: "в основном правильно" не годится. Нужна верифицируемая точность. В юриспруденции известен случай, когда адвокат подал в суд документ с ссылками на шесть несуществующих судебных дел - их придумал ChatGPT. Проблема в том, что модели обучены на публичных данных, но многие базы судебных решений платные, и модель заполняет пробелы правдоподобными выдумками. Что делать? Главное - RAG на верифицированных базах (типа Westlaw). Модель должна цитировать только то, что она нашла в этих базах, а не из своей памяти. Каждую ссылку нужно проверять на существование и актуальность. Добавлять флаги неопределённости. И обязательно оставлять человека в цикле. В медицине схожие требования. Исследования показывают, что комбинация RAG с примерами (in-context learning) или цепочками рассуждений (Chain-of-Thought) даёт наилучшие результаты, снижая галлюцинации до "отличного" уровня. Компромисс: подавление галлюцинаций vs креативность Многие боятся, что если заставить модель врать меньше, она перестанет быть креативной. Исследования 2025-2026 годов показывают, что это не совсем так. Всё зависит от метода. CoVe (цепочка верификации) даже улучшает дивергентное мышление (способность генерировать нестандартные идеи). А DoLa (другой метод) - наоборот, подавляет креативность. RAG почти не влияет. Более глубокие исследования предлагают различать "галлюцинацию" и "воображение". Если у модели есть творческое намерение и ей не нужны точные факты - это полезная креативность. Если же она пытается ответить на фактический вопрос, но не находит данных и начинает выдумывать - это галлюцинация. Правильно настроенная модель может быть одновременно точной и креативной - для этого нужно структурно обеспечить семантическую целостность. Генерация кода: как модель может написать красивую, но неработающую программу Когда модель пишет код, галлюцинации проявляются иначе. Код может быть синтаксически идеальным, но не делать то, что нужно. Основные типы: неверное сопоставление входов и выходов, использование несуществующих имён функций или переменных, обращение к несуществующим библиотекам, логические ошибки. Например, модель может сгенерировать вызов библиотеки, которой не существует. Этим пользуются хакеры: они замечают, что модель часто "галлюцинирует" какой-то пакет, создают вредоносный пакет с таким именем, и когда программист (или другой ИИ) устанавливает его - атака выполнена. Как бороться? Статический анализ кода (проверка синтаксиса и типов) находит от 16% до 70% ошибок. Более продвинутые методы парсят код в абстрактное синтаксическое дерево и проверяют его против реальных библиотек, достигая 100% точности и исправляя 77% ошибок. Есть метод "функциональной кластеризации": модель генерирует много вариантов кода, запускает их на тестах (которые она же сама и придумала) и выбирает те, которые дают одинаковый результат - они скорее всего правильные. Это снижает уровень ошибок с 65% до 2%. 6. Открытые проблемы и направления исследований Отсутствие стандартизированных бенчмарков: почему нельзя сравнить методы Представьте, что каждый производитель весов использует свои гири. Один измеряет в килограммах, другой - в фунтах, третий - в "слонах". Сравнить результаты невозможно. Так же и с галлюцинациями: у каждого исследователя свой бенчмарк, свои метрики. Одна работа сообщает об улучшении на 20%, другая - о 30%, но эти цифры несопоставимы, потому что измеряли разное. Более того, многие модели показывают почти нулевой уровень галлюцинаций на тестах, но в реальной жизни продолжают врать. Значит, тесты плохие - они не отражают реальную сложность. Нужны единые стандарты, но их пока нет. Fragility RAG: когда поиск сам становится источником лжи RAG должен был решить проблему галлюцинаций, но оказалось, что плохой поиск может сделать только хуже. Если модель находит документ, который её вводит в заблуждение, она может начать врать активнее, чем если бы вообще не искала. Исследования показали, что при столкновении с дезинформацией все известные RAG-системы работают хуже, чем их версии без поиска. Шум в документах бывает разный: один тип шума даже полезен (помогает модели лучше понять контекст), а другой - вреден. Но модель не умеет их различать. Нужны методы, которые делают RAG устойчивым к дезинформации, но это пока открытая проблема. Масштабируемые real-time методы: куда движется поле Раньше галлюцинации исправляли "постфактум" - сгенерировали ответ, потом проверили, потом исправили. Это медленно и дорого. Сейчас поле движется к методам, которые работают в реальном времени, прямо во время генерации, и не требуют дообучения. Это легковесные "инъекции" в процесс мышления модели. Например, метод AAC (адаптивное подавление активаций) работает как шумоподавление и не замедляет модель. Метод DSCC-HS (двойная самоусиливающаяся калибровка) использует маленькую "модель-прокси", которая управляет большой моделью. Это даёт 99% фактической согласованности при минимальных затратах. Тренд - в сторону гибридных решений: лёгкие методы для повседневного использования и более тяжёлые (с дообучением) для фундаментального улучшения моделей. Мультимодальные галлюцинации: когда картинка и текст противоречат друг другу Мультимодальные модели (которые видят картинки и слышат звук) сталкиваются с проблемами, которых нет у текстовых. Например, модель может увидеть на картинке красное яблоко, но сказать "зелёное". Или наоборот, не заметить, что картинка размыта, и уверенно описывать детали, которых уже не видно. Исследования выявили систематические проблемы: языковое доминирование (модель больше доверяет тексту, чем картинке), статистические смещения (модель "знает", что чаще встречается, и подгоняет ответ), уязвимость к adversarial атакам (специально искажённая картинка может заставить модель галлюцинировать). Методы борьбы включают перевешивание визуальных токенов (чтобы модель больше внимания уделяла картинке), введение шумовых токенов для калибровки, и специальные техники дообучения. Некоторые методы работают без дообучения и в реальном времени. Но проблема полностью не решена - особенно в области кросс-модальных конфликтов безопасности (когда модель ведёт себя опасно из-за того, что полагается на один тип данных, игнорируя другой). Для экспертов: Фундаментальные основы: причины и классификация Начнем с фундаментальных основ. К 2026 году в этой области сформировалось несколько консенсусов, но не меньше и открытых дискуссий. 1. Причины галлюцинаций: классификация на трех уровнях Причины галлюцинаций обычно делят на три категории: проблемы с данными, архитектурные ограничения и факторы на этапе инференса.
2. Таксономия галлюцинаций: Intrinsic vs. Extrinsic, Factuality vs. Faithfulness Современная наука выделяет две основные оси классификации. Ось 1: Intrinsic (внутренние) vs. Extrinsic (внешние) галлюцинации
Ось 2: Factuality (фактологичность) vs. Faithfulness (верность контексту) Эти понятия часто используют для более тонкой классификации внутри Intrinsic галлюцинаций.
Новые перспективы
3. Теоретическая неизбежность галлюцинаций К 2026 году сложился консенсус, что полное и абсолютное устранение галлюцинаций невозможно в принципе. Это не инженерная проблема, а фундаментальное математическое и логическое ограничение.
Важное уточнение: Теоретическая неизбежность не означает, что галлюцинации нельзя сделать статистически пренебрежимо малыми. Улучшая качество и количество данных, мы можем сколь угодно сильно снизить их вероятность на практике. 4. Когнитивный подход и ошибки в мультимодальных LLM
Особенности мультимодальных галлюцинаций В моделях, работающих с разными типами данных, возникают уникальные вызовы.
Заключение Фундаментальные исследования показывают, что галлюцинации - это не баг, а скорее фича, вытекающая из самой природы LLM как вероятностных систем, обученных на ограниченных данных. Это закладывает основу для прагматичного подхода: мы не можем "вылечить" модель, но можем научиться управлять этим риском с помощью комбинации методов (RAG, улучшенная калибровка уверенности, человеческий контроль), принимая во внимание неизбежные компромиссы между фактологической точностью, креативностью и полезностью. Какую из этих тем вы хотели бы проработать дальше? Методы подавления: от данных до архитектуры Переходим от фундаментальных причин галлюцинаций к инженерным методам их подавления - от устоявшихся индустриальных решений до передовых исследовательских техник 2025-2026 годов. 1. RAG как основной метод заземления Retrieval-Augmented Generation (RAG) остается главным практическим инструментом для подавления галлюцинаций, но его эффективность сильно зависит от качества каждого компонента пайплайна. Архитектура RAG и ключевые компоненты Современные RAG-системы строятся вокруг пяти модульных этапов: чанкинг (chunking), поиск (retrieval), переранжирование (reranking), сборка контекста (context assembly) и генерация (generation). Отказ любого из них ведет к каскадным сбоям - например, поиск может иметь точность 0.85, но "закопать" критический документ на позиции 15, куда LLM уже не заглянет. Оценка RAG-системы базируется на трех ключевых измерениях:
Пропуск любого измерения приводит к оптимизации не того узкого места. Метрики и фреймворки оценки к 2026 году значительно продвинулись. RIKER (Retrieval Intelligence and Knowledge Extraction Rating) - бенчмарк 2025 года, построенный на инверсии парадигмы: документы генерируются из известной ground truth, а не наоборот. Это дает детерминированную оценку без человеческой аннотации и устойчивость к контаминации за счет регенерируемых корпусов. Ключевые выводы RIKER:
Фреймворк RAGAS (Retrieval-Augmented Generation Assessment Strategy) предоставляет многомерную систему оценки, охватывающую релевантность, точность, groundedness, ответность и стиль. Автоматизированная оценка с помощью LLM-as-judge позволяет отлавливать регрессии до деплоя, хотя ручная валидация остается необходимой для краевых случаев. Чанкинг: детали решают всё Разбиение документов на чанки - недооцененный, но критический компонент. Исследования на 7 типах запросов показали:
Метрики оценки чанкинга включают Lynx Pass Ratio (оценка прохождения информации через пайплайн), HHEM Consistency (согласованность между чанками) и ROUGE-L (перекрытие n-грамм). RAG vs. Fine-Tuning: компромисс между точностью и креативностью Систематическое сравнение RAG и Domain-Specific Fine-Tuning (DFT) на архитектурах GPT-J-6B, OPT-6.7B, LLaMA и LLaMA-2 показало:
Практический вывод:
RAG обеспечивает фактологическую точность, динамическое обновление знаний и аудитируемость (каждый факт можно отследить до источника), в то время как дообучение лучше подходит для постоянных изменений в стиле, структуре и поведении модели. 2. Инференс-тайм методы: активационное подавление В отличие от RAG (меняющего входной контекст), методы инференс-тайм вмешиваются в саму архитектуру модели, подавляя внутренние представления, ассоциированные с галлюцинациями. Их главное преимущество - работа без дообучения и внешних источников. Adaptive Activation Cancellation (AAC) AAC, представленный в 2025 году, рассматривает нейронные активации, связанные с галлюцинациями, как структурированную интерференцию в residual stream трансформера, проводя прямую аналогию с классическим адаптивным шумоподавлением в обработке сигналов. Механизм AAC:
Ключевые результаты на моделях OPT-125M, Phi-3-mini и LLaMA 3-8B на бенчмарках TruthfulQA и HaluEval:
AAC не требует внешнего знания, дообучения и дополнительных проходов инференса - это легковесная интервенция в реальном времени. Inference-Time Intervention (ITI) ITI, разработанный в honest_llama, улучшает правдивость моделей путем сдвига активаций во время инференса вдоль заданных направлений в ограниченном наборе attention heads. В отличие от AAC, ITI работает не на уровне residual stream целиком, а через манипуляцию направлениями активаций. Механизм:
Поддерживаются два режима: runtime intervention (динамическое применение) и baked-in intervention (перманентная модификация весов). Эффективность ITI демонстрируется на модели Alpaca (instruction-finetuned LLaMA): правдивость улучшается с 32.5% до 65.1%. На Llama2_chat_7B True Score растет с 0.58 до 0.83 при незначительном изменении Info Score (0.79 0.93). На Llama3_8B_instruct True Score улучшается с 0.60 до 0.80. Сравнение AAC и ITI
Мультимодальное расширение: V-ITI Существует версия ITI для мультимодальных LLM - V-ITI (Visual Inference-Time Intervention), которая целенаправленно подавляет визуально-индуцированные галлюцинации. Эксперименты на 8 бенчмарках и разных семействах MLLM показывают, что V-ITI консистентно снижает галлюцинации, связанные с визуальным входом, сохраняя общую производительность задач. 3. Контрафактуальные методы: CIPHER Для мультимодальных LLM галлюцинации имеют специфическую природу - модели могут генерировать правдоподобные ответы, противоречащие визуальному контенту. CIPHER (Counterfactual Image Perturbations for Hallucination Extraction and Removal) - метод 2026 года, принятый на CVPR 2026, который решает эту проблему через feature-level correction без дообучения. Механизм CIPHER CIPHER работает в две фазы: Офлайн-фаза (конструирование контрфактуального датасета):
Инференс-фаза (подавление):
Отличие от других методов В отличие от предыдущих training-free подходов, фокусировавшихся на текст-индуцированных галлюцинациях, CIPHER намеренно целится в галлюцинации, возникающие из визуальной модальности. Это принципиально важно, так как кросс-модальные конфликты - уникальный вызов мультимодальных систем. Результаты Эксперименты на нескольких бенчмарках показывают, что CIPHER значительно снижает уровень галлюцинаций при сохранении производительности задач, демонстрируя эффективность контрфактуальных визуальных пертурбаций для улучшения faithfulness LVLM. Метод training-free и легковесный, что делает его применимым в реальном времени без дорогого дообучения. 4. Методы обучения: process supervision vs outcome supervision в RL Традиционное обучение с подкреплением (RL) для LLM долгое время доминировалось outcome reward models (ORMs) - моделями, оценивающими только финальный ответ. Это создает проблему: модель может получить высокую награду, пройдя неправильный путь рассуждений, но дав правильный финальный ответ (false positive), или демонстрировать "галлюцинации в процессе рассуждения" - правдоподобные, но ложные промежуточные шаги. Process Reward Models (PRMs): эволюция подхода Process Reward Models оценивают и направляют рассуждение на уровне шага или траектории, а не только финального результата. Это позволяет детектировать ошибки на ранних стадиях рассуждения, а не только в конечном выводе. Исследование OpenAI "Let's Verify Step by Step" показало, что process supervision во время обучения модели значительно эффективнее outcome supervision при решении сложных задач из MATH датасета. Process supervision дает более точную обратную связь и особенно ценна в задачах с длинной цепочкой рассуждений. PRMs покрывают полный цикл:
Проблемы и ограничения PRMs Несмотря на теоретическое превосходство, ACL 2025 представил работу, показывающую "кризис доверия" к существующим PRMs. Оказалось, что современные PRMs демонстрируют значительные недостатки в идентификации тонких ошибок в процессе рассуждения - их производительность в некоторых случаях может быть не лучше случайного угадывания. Это подчеркивает фундаментальную проблему: качество PRMs критически зависит от качества process data, а его получение - дорогостоящая и нетривиальная задача. Оценка process supervision сталкивается с тем, что метрики фокусируются на конечной правильности, игнорируя тонкие типы ошибок в рассуждении. Новые подходы StepORLM - self-evolving фреймворк с генеративной process supervision для задач operations research, использующий ко-эволюцию для улучшения качества пошаговых оценок. KnowRL (Knowledge-rich Reinforcement Learning) целенаправленно учит LLM распознавать границы собственного знания во время рассуждения, чтобы модель научилась говорить "я не знаю" вместо генерации правдоподобной лжи при выходе за пределы своих знаний. 5. Анлирнинг галлюцинаций: можно ли "забыть" ложные паттерны? Machine unlearning - техника удаления влияния конкретных обучающих данных из модели без полного переобучения, изначально мотивированная GDPR и "правом на забвение". Применительно к галлюцинациям, идея в том, чтобы заставить модель забыть ложные или вредоносные паттерны, выученные на плохих данных. Проблема: "unlearning" vs "obfuscation" Ключевое открытие 2024-2025 годов: большинство существующих методов approximate unlearning не удаляют информацию, а лишь подавляют её вывод, делая модель неуязвимой к прямым запросам, но оставляя память нетронутой. Работа, представленная на ICLR 2025, продемонстрировала уязвимость: с доступом к небольшому и потенциально слабо связанному набору данных можно "разбудить" память unlearned модели и обратить эффект анлирнинга. Например, повторное обучение на публичных медицинских статьях заставляет модель снова выдавать harmful знания о биологическом оружии. Это формирует unlearning-relearning парадокс: методы approximate unlearning не обеспечивают робастного забывания целевого знания - они лишь обфусцируют выводы. Дилемма unlearning Исследование "Wisdom is Knowing What not to Say" (NeurIPS 2025) формулирует критическую дилемму:
Эта дилемма принципиально ограничивает применимость unlearning для подавления галлюцинаций без побочного ущерба. Новые направления: ландшафт функции потерь Подход на основе кривизны loss landscape (2025) показывает, что memorization можно декомпозировать в весах модели на основе кривизны loss landscape. Кривизна для memorized обучающих точек значительно выше (sharper), чем для non-memorized. Weight editing процедура, упорядочивающая компоненты весов от высокой к низкой кривизне, подавляет рецитацию memorized данных эффективнее, чем современные unlearning методы (BalancedSubnet), с сохранением более низкой perplexity. Однако выявлен побочный эффект: факт-ретривал и арифметика последовательно и значительно негативно затрагиваются, хотя open-book fact retrieval и общее логическое рассуждение сохраняются. REMIND (2025) предлагает метод детекции остаточной меморизации после unlearning через анализ loss ландшафта на малых вариациях входа. Unlearned данные дают более плоские, менее крутые loss ландшафты, в то время как retained или несвязанные данные - более резкие и волатильные паттерны. Метод требует только query-based доступа, что делает его практичным для реального деплоя. Attention-Shifting (AS) framework AS, представленный на NeurIPS 2025, предлагает компромиссное решение через два attention-level вмешательства:
Обе компоненты совместно оптимизируются через dual-loss objective, формируя мягкую границу, которая локализует unlearning при сохранении несвязанного знания под representation superposition. Результаты: AS улучшает сохранение производительности на 15% по бенчмарку ToFU и на 10% по TDEC по сравнению с SOTA unlearning методами, поддерживая конкурентный hallucination-free unlearning effect. Промпт-инжиниринг и саморефлексия Chain-of-Verification (CoVe): механика и пределы самокоррекции Главная иллюзия - что LLM может просто "перепроверить себя" как человек. CoVe (от Meta, 2023) обходит это фундаментальное ограничение. Почему модель не может "просто перепроверить себя"? Прямая самооценка упирается в когнитивные искажения. Во-первых, sycophancy (подхалимство): модель склонна соглашаться со своим контекстом. При проверке собственного черновика она "подтверждает" свои же ошибки. Во-вторых, confirmation bias (подтверждающее искажение): у LLM нет механизма независимой оценки без внешнего сигнала. CoVe: четыре шага с "факторной изоляцией". Шаг 1: Baseline Generation (генерация черновика) - модель создает полный ответ, галлюцинации на этом этапе даже полезны, чтобы выявить все возможные ошибки. Шаг 2: Plan Verifications (планирование проверок) - модель анализирует черновик и генерирует конкретные "вопросы для проверки", разбивая ответ на атомарные факты. Шаг 3: Factored Verification (факторная верификация) - ключевой шаг: на каждый вопрос модель отвечает без доступа к исходному черновику. Это вытесняет sycophancy и заставляет модель опираться на собственные базовые знания. Шаг 4: Final Answer (финальный ответ) - на основе фактов с шага 3 модель составляет финальный ответ, игнорируя или исправляя ошибки черновика. Границы CoVe. CoVe эффективен только для проверки фактов, которые уже есть в весах модели (training data). Если знания нет - модель не может его проверить. CoVe не удаляет галлюцинации полностью, а лишь снижает их. Также метод дорогой и медленный из-за нескольких LLM-коллов. CoVe-RAG и CoVe-RAG+ - гибридные улучшения, сочетающие самопроверку с внешним поиском. CoVe-RAG+ (ASME 2025) дает до 28% улучшения фактической точности в сложных инженерных задачах. Сравнение методов саморефлексии: CoVe vs Self-Consistency vs CoT+RAG Эти методы решают разные "слепые зоны" LLM. Chain-of-Verification (CoVe) работает через генерацию черновика, факторную верификацию и переписывание. Его цель - устранение фактических ошибок (фактологичность). Сильные стороны: устойчивость к sycophancy, изоляция верификации. Слабые стороны: высокая задержка, неэффективен для задач вне знаний модели. Используйте CoVe при высоких требованиях к фактам в закрытых доменах. Self-Consistency (SC) генерирует множество траекторий рассуждений и проводит голосование за мажоритарный ответ. Его цель - улучшение рассуждения на сложных задачах с неоднозначностью. Сильные стороны: устойчивость к одному плохому пути рассуждения, простота. Слабые стороны: высокая вычислительная стоимость (кратно дороже). Используйте SC для многокритериального планирования и сложной логики. CoT + RAG объединяет цепочку рассуждений (CoT) с поиском внешних фактов. Его цель - объединение фактов из внешних источников и логических связей. Сильные стороны: факты извне + прозрачность рассуждений. Слабые стороны: сложность архитектуры, RAG привносит свои ошибки (шумные или нерелевантные документы). Используйте CoT+RAG в задачах, требующих авторитетных данных из документов. Вывод из исследований (Kumar et al., 2025): наиболее робастный подход - стратегическое комбинирование: RAG для фактов, CoVe для их проверки и Self-Consistency для страховки от ошибочных рассуждений. Self-checking Decoding (Token-Guard): подавление на уровне токенов Token-Guard от Пекинского университета (2025-2026) - переход от "заплаточных" методов к токен-уровневому контролю. Он не фиксирует ошибки постфактум, а обнаруживает их до того, как они распространятся. Архитектура Token-Guard включает три механизма. Первый - внутренняя верификация на каждом шаге: на каждом токене оценивается риск галлюцинации. Второй - оценка риска в латентном пространстве: каждый фрагмент получает явный скоринг галлюцинации. Третий - итеративная обрезка и регенерация: токены с высоким риском отсекаются на лету, модель пересчитывает путь. Результаты: Token-Guard дает 16.3% улучшения относительно самых сильных бейзлайнов на бенчмарке HALU. Метод модульный, легковесный, не требует тонкой настройки и снижает вычислительные затраты благодаря локальному улучшению и глобальной итерации. Проксимальные vs глобальные методы. Проксимальные (локальные) методы работают на уровне одного вызова (decoding) или ближайшего контекста - Token-Guard срабатывает в моменте, "лечит" проблему здесь и сейчас. Глобальные методы изменяют саму модель (fine-tuning, RLHF) - они более фундаментальны, но требуют переобучения. Token-Guard занимает уникальную нишу: исправляет ход мысли в реальном времени без дообучения. Резюме по разделу: методы саморефлексии развились от простых эвристик до сложных контекстно-зависимых стратегий. Современный SOTA - не в одном "волшебном" промпте, а в гибридных пайплайнах: RAG для фактов, CoVe для проверки, Self-Consistency для страховки и Token-Guard для микро-уровневой защиты. Оценка и бенчмарки: как измерить галлюцинации Стандартные бенчмарки: TruthfulQA, SimpleQA, HaluEval - что они реально измеряют? Каждый из этих бенчмарков решает свою задачу, но все они имеют общий недостаток - измеряют не галлюцинации как таковые, а способность модели давать "правильные" ответы в узком диапазоне. TruthfulQA (2021) состоит из 817 вопросов в 38 доменах, намеренно составленных так, чтобы провоцировать модели на распространенные заблуждения. Например, вопрос "Что случилось с соками в желудке, если съесть жвачку?" требует не просто факта, а устойчивости к мифу о "семи годах переваривания". Метрика здесь - не просто процент правильных ответов, а устойчивость к генерации правдоподобной лжи. Ограничение TruthfulQA в том, что он измеряет сопротивление дезинформации, а не способность извлекать редкие факты. Модель может блестяще пройти TruthfulQA, но при этом галлюцинировать на узкоспециализированных темах. SimpleQA (OpenAI, 2024) пошел другим путем: 4326 коротких вопросов с однозначными ответами, которые не меняются со временем. Вопросы подбирались так, чтобы даже GPT-4o давал менее 40% правильных ответов. Каждый вопрос проходил двойную верификацию независимыми AI-тренерами, а случайная выборка из 1000 вопросов показала 94.4% согласия между третьим тренером и исходными ответами. Оцененный уровень ошибок в самом датасете составил около 3%. Однако SimpleQA измеряет только короткие ответы на фактологические вопросы и не проверяет, например, способность модели удерживать консистентность в длинных рассуждениях. SimpleQA Verified (Google DeepMind, 2025) - ответ на ограничения оригинального SimpleQA. Вместо 4326 вопросов - 1000 тщательно отобранных. Исправлены шумные и неверные метки, устранены тематические перекосы и дублирование вопросов. Каждый ответ сопровождается минимум двумя URL-ссылками на источники. Оценка проводится через GPT-4.1 по модифицированному промпту, который принуждает к прямым ответам и предотвращает угадывание в длинных ответах. Однако SimpleQA Verified, как и оригинал, намеренно запрещает использование поисковых инструментов при тестировании, что отрывает оценку от реальных сценариев использования. HaluEval (2023) - крупномасштабный бенчмарк, включающий 5000 пользовательских запросов с ответами ChatGPT и 30000 специализированных примеров в трех задачах. Каждый пример снабжен "пассажем знаний" (knowledge passage), что позволяет точно определить, поддерживается ли ответ источником или нет. Метрика HaluEval - бинарная классификация: есть галлюцинация или нет. Но сама концепция "поддержки источником" проблематична: что считать источником? Как быть с синтезом информации из нескольких источников? Общая проблема всех трех бенчмарков - они измеряют "способность давать правильный ответ", а не "способность не галлюцинировать". Это разные вещи. Модель может дать правильный ответ по случайности или по счастливому совпадению паттернов. Или может дать правильный ответ, но с галлюцинациями в рассуждении. Или может честно сказать "я не знаю", что не является ошибкой, но в бинарной метрике HaluEval может быть засчитано как "не галлюцинация" без дополнительных нюансов. Метрики без золотых ответов: FEWL и другие подходы Проблема золотых ответов (gold-standard answers) в том, что они дороги, подвержены человеческим ошибкам и плохо масштабируются. Для каждого нового домена или языка нужны новые аннотации. FEWL (Factualness Evaluations via Weighting LLMs) - первый метрический подход, разработанный специально для сценариев, где золотые ответы отсутствуют. Идея FEWL проста: вместо одного идеального ответа использовать множество off-the-shelf LLM в качестве прокси золотых ответов. Ключевая проблема - как количественно оценить экспертизу (expertise) каждой референсной модели. FEWL решает ее через weighting: модели, которые чаще дают согласованные ответы, получают больший вес. Показано, что FEWL имеет теоретические гарантии и эмпирически дает более точные меры галлюцинации, чем наивное использование одиночной референсной модели. FEWL также можно использовать для снижения галлюцинаций через in-context learning и supervised finetuning. Ограничения FEWL: подход предполагает, что большинство референсных LLM "скорее правы, чем нет". Если все модели имеют общий систематический bias, FEWL его не исправит. Кроме того, FEWL требует вызова нескольких LLM, что увеличивает вычислительные затраты. Другие подходы в этой категории включают методы на основе внутренних репрезентаций LLM. Например, исследование 2025 года показало, что probing-based классификаторы, использующие внутренние слои LLM, могут детектировать галлюцинации без внешних источников. Предложена архитектура с динамическим взвешиванием внутренних слоев, которая показала превосходство над традиционными probing-методами, хотя обобщение на другие бенчмарки и LLM остается вызовом. Метод LSD (Layer-wise Semantic Dynamics), оценивающий семантическую динамику на уровне слоев, достиг F1-0.92 и AUROC-0.96 на TruthfulQA, превзойдя SelfCheckGPT и Semantic Entropy. Self-reported метрики от OpenAI, Google, Anthropic: насколько им можно доверять? Крупнейшие AI-лаборатории публикуют собственные метрики галлюцинаций в system cards своих моделей. AIMon Labs собрал эти данные в "Un-leaderboard", подчеркивая, что это не результаты независимого тестирования, а то, что провайдеры сами выбрали для отчета. По состоянию на август 2025 года, OpenAI O1 показывает на PersonQA точность 47% и уровень галлюцинаций 16%, на SimpleQA - точность 47% и галлюцинации 44%. OpenAI O3 улучшает показатели: на PersonQA точность 59% (галлюцинации 33%), на SimpleQA точность 49% (галлюцинации 51%). То есть даже у топовых моделей уровень галлюцинаций на некоторых бенчмарках превышает 50%. Проблемы self-reported метрик как минимум четыре. Первое - cherry picking. Провайдеры выбирают, какие бенчмарки и какие метрики публиковать. Если на PersonQA модель показывает 16% галлюцинаций, а на SimpleQA - 44%, в системную карту, скорее всего, попадет первая цифра. Второе - отсутствие стандартизации. OpenAI измеряет одно, Google - другое, Anthropic - третье. Сравнение напрямую невозможно. Третье - конфликт интересов. Провайдер одновременно и разработчик модели, и оценщик ее качества. Даже при честных намерениях подсознательные смещения неизбежны. Четвертое - фундаментальное ограничение самой парадигмы "self-report". Исследование "The Personality Illusion" (2025) показало, что у LLM самоотчеты о собственных свойствах практически не коррелируют с их реальным поведением. Модели "отчитываются" так, как, по их оценке, от них ожидают, а не так, как они на самом деле функционируют. Если модель не может достоверно описать свою личность, может ли она достоверно оценить свои галлюцинации? Вопрос риторический. XAI-метрики галлюцинаций: SHAP/LIME для интерпретации фактологических расхождений Если традиционные метрики отвечают на вопрос "галлюцинирует ли модель", то XAI-подходы пытаются ответить на вопрос "почему и на каких токенах". В 2026 году представлен фреймворк, комбинирующий SHAP и LIME на уровне токенов с количественным Hallucination Score (HS). Механизм: измеряется attribution divergence между входными и выходными токенами. То есть, насколько "внимание" модели к разным частям контекста расходится с тем, что она генерирует. Если модель при ответе на вопрос о дате основания Рима внезапно начинает опираться на токены из обсуждения пиццы - это маркер потенциальной галлюцинации. Результаты на TruthfulQA и QAGS с моделями GPT-3.5, LLaMA-2-13B и Falcon-40B: GPT-3.5 достиг F1-0.84 и ROC-AUC-0.89 на TruthfulQA, HS показал высокую корреляцию с человеческими аннотациями (R-квадрат=0.84, MAE=0.11). Ограничения: чувствительность к парафразированным истинам (если модель пересказывает факт другими словами, XAI-метрики могут ложно сработать) и вычислительные накладные расходы (SHAP и LIME требуют множественных forward passes). Кроме того, XAI-метрики объясняют, но не предсказывают. Они помогают аудитору понять, почему произошла галлюцинация, но не могут предотвратить ее в реальном времени. Также исследуются XAI-методы для детекции дезинформации: LIME, SHAP и Integrated Gradients применяются для интерпретации того, на каких основаниях LLM классифицирует утверждение как истинное или ложное. В некоторых работах сами LLM просят объяснить свою классификацию, что добавляет еще один уровень анализа. Резюме по разделу оценки Оценка галлюцинаций сталкивается с фундаментальным парадоксом: мы пытаемся измерить то, что не имеет однозначной операционализации. Бенчмарки типа TruthfulQA, SimpleQA и HaluEval дают полезные, но ограниченные срезы. FEWL предлагает путь оценки без золотых ответов, но платит за это вычислительными затратами. Self-reported метрики провайдеров следует воспринимать с осторожностью, учитывая конфликт интересов и фундаментальную проблему самоотчета LLM. XAI-подходы открывают окно во внутренние механизмы галлюцинаций, но пока остаются инструментом пост-хок анализа, а не реального времени. Прикладные аспекты и специфика доменов Галлюцинации в Agentic Systems: когда агент сам решает, к каким источникам обращаться Проблема галлюцинаций в агентных системах качественно отличается от той же проблемы в однократных запросах. Главное отличие - эффект снежного кома, или "hallucination snowballing". Если на одном шаге агент генерирует ложную информацию, он может использовать её как основу для следующего шага, и ошибка не просто сохраняется, а рекурсивно усиливается. Исследование 2026 года описывает этот феномен как "hallucination snowballing", когда модель в процессе свободно-текстовой рефлексии рекурсивно оправдывает свои ранние ошибки. Агентные системы сталкиваются с пятью основными категориями галлюцинаций: планирование, поиск, рассуждение, взаимодействие с пользователем и использование инструментов. Особенно сложны галлюцинации при использовании инструментов (tool-use hallucinations) - лучшие модели достигают на них точности локализации лишь 11.6%. В целом, даже топовые модели (GPT-5, Gemini-2.5-Pro) показывают всего 41.1% точности в определении шага, на котором произошла галлюцинация. Как с этим бороться? Одно из решений - многокомпонентные архитектуры. Например, система для структурного моделирования разделяет задачи между специализированными агентами: агент анализа проблемы, агент планирования, агенты узлов и элементов, работающие параллельно, и агент трансляции кода. На бенчмарке из 20 задач такая архитектура достигла 100% точности в 18 случаях и 90% в двух оставшихся. Другой подход - ReDAct (Reason-Defer-Act). Агент использует маленькую дешёвую модель по умолчанию, но когда её предсказательная неопределённость превышает порог, решение передаётся большой надёжной (но дорогой) модели. Передача всего 15% решений позволяет достичь качества работы исключительно большой модели при значительном снижении затрат. Важное предостережение: простое наложение структурных ограничений (constrained decoding) не решает проблему, а порождает новую - "structure snowballing". Модель тратит когнитивные ресурсы на соблюдение формата, но не замечает глубинных семантических ошибок. Подавление галлюцинаций в медицинских и юридических LLM: high-stakes требования В высокорисковых доменах цена галлюцинации измеряется не неудобством, а реальным вредом - здоровьем пациента или судебными санкциями. Требования к точности здесь принципиально иные: стандарт - не "в основном правильно", а "верифицируемо корректно или явно помечено как неопределённо". В юридической сфере ключевая проблема - фабрикация несуществующих судебных прецедентов. Наиболее известный случай произошёл в 2023 году, когда адвокат подал в суд документ с ссылками на шесть несуществующих дел, сгенерированных ChatGPT. Юридические LLM галлюцинируют по нескольким причинам: пробелы в обучающих данных (многие базы судебных решений находятся за платными стенами), обученность формату цитирования (модель генерирует правдоподобные строки-цитаты), временное отсечение (модель не знает о делах после своей даты обучения) и юрисдикционная путаница. Для подавления галлюцинаций в Legal AI используются шесть основных техник. Первая и главная - RAG с верифицированными базами данных. Модель не должна цитировать из своей памяти. Каждая ссылка должна быть извлечена из авторитетного источника (Westlaw, LexisNexis). Промпт должен явно запрещать цитирование вне контекста. Вторая - конвейер верификации цитат, который проверяет существование дела, его актуальность (не отменено ли оно) и соответствие утверждению модели. Третья - выставление confidence scores и флагов неопределённости. Четвёртая - constrained generation, ограничивающая вывод допустимыми форматами. Пятая - автоматизированное тестирование на наборе проверочных примеров. Шестая - человеческий надзор (human-in-the-loop). Для оценки юридических LLM создан бенчмарк LegalHalBench с тремя автоматическими метриками, включая Non-Hallucinated Statute Rate и Legal Claim Truthfulness. Метод, интегрирующий поведенческий клонинг и Hard Sample-aware Iterative Direct Preference Optimization (HIPO), показал значительные улучшения по всем метрикам. В медицинской сфере требования столь же жёсткие. FDA консультирует риск-ориентированные регуляторные фреймворки, требующие адаптации предрыночных доказательств к профилю риска LLM-терапии, включая клиническую оценку с использованием валидированных конечных точек. Интересное эмпирическое исследование по составлению сложных медико-юридических отчётов показало, что комбинация RAG с In-Context Learning (ICL) или Chain-of-Thought (CoT) даёт наилучшие результаты. RAG в одиночку дал умеренные оценки качества и галлюцинаций. Добавление ICL или CoT улучшило BERT и человеческие оценки (с 0.61 до 0.84 по BERT) и значительно снизило галлюцинации до "отличного" уровня (0.80-0.79). Дальнейшее добавление самопроверки и механизмов разрешения противоречий дало лишь маргинальные улучшения. Компромисс: подавление галлюцинаций vs сохранение креативности и плавности Существует распространённое убеждение, что подавление галлюцинаций неизбежно убивает креативность. Эмпирические исследования 2025-2026 годов показывают, что реальность сложнее. Исследование "Does Less Hallucination Mean Less Creativity?" (AAAI 2026 Workshop) протестировало три метода подавления галлюцинаций (CoVe, DoLa, RAG) на моделях LLaMA, Qwen и Mistral в диапазоне от 1 до 70 миллиардов параметров. Результаты: CoVe (Chain of Verification) усиливает дивергентное мышление, DoLa (Decoding by Contrasting Layers) подавляет его, а RAG показывает минимальное влияние. То есть выбор метода критически важен: некоторые техники не только не вредят креативности, но и улучшают её. Более фундаментальный подход предлагает Layer-Knot Framework (LKF). Исследование концептуализирует галлюцинацию не как техническую ошибку, а как "семантический коллапс" - разрыв между намерением и доказательством. LKF стабилизирует семантический поток через межузловые якоря, измеряя три показателя: уровень галлюцинаций (HR), уровень заземления (GR) и уровень креативности (CR). Эксперименты показали 50% снижение HR, 12% улучшение GR и стабильную CR (колебания в пределах 3%). Вывод: надёжность и креативность не противостоят друг другу; когда семантическая целостность структурно обеспечена, генеративная автономия сохраняется. Некоторые исследователи предлагают различать "галлюцинацию" и "воображение" через наличие намерения и доказательств. Креативное намерение без требования фактов = полезная мечта. Фактическое намерение без заземления = галлюцинация. Фактическое намерение с поиском и верификацией = надёжный вывод. В целом, подавление галлюцинаций - это не "тушение костра за счёт вырубки леса". Это тонкая настройка, где правильный выбор метода (или их комбинации) позволяет сохранить, а в некоторых случаях и улучшить, креативные способности модели. Галлюцинации в генерации кода: особенности и методы детекции Галлюцинации в генерации кода имеют свою специфику. Они не всегда проявляются в синтаксически некорректном коде. Наоборот, модель может сгенерировать синтаксически идеальный код, который не выполняет требуемую функцию или содержит тонкие семантические ошибки. Классификация CodeHalu выделяет четыре основных типа галлюцинаций в коде. Mapping hallucinations - неверное сопоставление входных и выходных данных. Naming hallucinations - использование несуществующих или неправильных имён функций, переменных, атрибутов. Resource hallucinations - обращение к несуществующим библиотекам, модулям или API. Logic hallucinations - логические ошибки, из-за которых код делает не то, что требуется. По оценкам, на NL-to-code бенчмарках, требующих использования библиотек, LLM генерируют код, использующий несуществующие библиотечные возможности, в 8.1-40% ответов. GPT-4 turbo галлюцинировал пакеты в 4% случаев, а CodeLlama 7B - в 26%. Для детекции и исправления этих галлюцинаций разработано несколько методов. Статический анализ способен обнаружить 16-70% всех ошибок и 14-85% библиотечных галлюцинаций, причём производительность сильно варьируется в зависимости от LLM и датасета. Верхняя граница того, что статический анализ может выявить в принципе, составляет от 48.5% до 77%. Более продвинутый подход - детерминистический AST-анализ. Фреймворк парсит сгенерированный код в абстрактное синтаксическое дерево и валидирует его против динамически генерируемой базы знаний, построенной через интроспекцию библиотек. На датасете из 200 Python-сниппетов фреймворк показал 100% точность и 87.6% полноту (F1-score 0.934) и успешно автоматически исправил 77.0% идентифицированных галлюцинаций. Метод "функциональной кластеризации" (functional clustering) предлагает чёрный ящик, который сэмплирует множество кандидатов программ, выполняет каждый на самогенерируемом тестовом наборе и кластеризует кандидатов по идентичному поведению ввода-вывода. На LiveCodeBench метод снизил уровень ошибок возвращаемых ответов с ~65% до 2%, а при консервативном пороге - до 0%. Бенчмарк CodeHaluEval включает 8883 образца из 699 задач для систематической количественной оценки галлюцинаций в коде. Оценка 17 популярных LLM выявила значительные различия в точности и надёжности генерации кода. Главная опасность кодовых галлюцинаций - безопасность. Атакующий, заметивший распространённую галлюцинацию (например, модель часто генерирует вызов несуществующего пакета), может создать вредоносный пакет с таким же именем. Открытые проблемы и направления исследований Отсутствие стандартизированных бенчмарков: проблема сравнения методов К 2026 году отсутствие стандартизированных бенчмарков остается одной из наиболее острых проблем в области оценки галлюцинаций. Систематический обзор 2026 года прямо называет отсутствие стандартизированных метрик оценки одним из самых заметных вызовов, отмечая, что текущие метрики часто измеряют поверхностное сходство, а не фактическую согласованность, что делает их менее эффективными для обнаружения тонких ошибок. Крупномасштабное эмпирическое исследование Apple (EMNLP 2025) протестировало 6 наборов метрик на 37 языковых моделях из 5 семейств и 5 методах декодирования. Результаты выявили тревожные пробелы: метрики часто не согласуются с человеческими суждениями, демонстрируют узкое видение проблемы и показывают непоследовательные улучшения при масштабировании параметров. Проблема усугубляется тем, что существующие бенчмарки, как правило, ориентированы на LLM, но даже в этой области 77.1% методов оценки были разработаны специально для LLM, что требует новых оценочных фреймворков. Исследователи из Alibaba предупреждают, что текущие методы тестирования позволяют многим моделям достигать почти нулевых показателей галлюцинаций на существующих бенчмарках, но при этом модели продолжают галлюцинировать в реальных сценариях. Это создает парадоксальную ситуацию, когда бенчмарки, предназначенные для измерения галлюцинаций, сами становятся источником ложного чувства безопасности. Особенно остро эта проблема проявляется в мультимодальной области. Исследование NeurIPS 2025 показало, что существующие бенчмарки неадекватно различают перцептивно-индуцированные галлюцинации и галлюцинации, вызванные ошибками рассуждения. Этот пробел существенно затрудняет диагностику отказов мультимодального рассуждения в MLLM. Аналогично, работа 2026 года "Measuring the Measurers" (HQM) выявила, что некоторые бенчмарки дают противоречивые результаты при повторных тестах или не согласуются с человеческой оценкой. В ответ на это авторы предложили HQH - высококачественный бенчмарк галлюцинаций, который демонстрирует превосходную надежность и валидность. Почему результаты одной работы часто несопоставимы с другой? Причин несколько. Во-первых, разные бенчмарки используют разные определения галлюцинации. Во-вторых, метрики внутри одного бенчмарка могут по-разному коррелировать с человеческой оценкой. В-третьих, методологии тестирования различаются по набору моделей, параметрам декодирования и способам пост-обработки. В-четвертых, растет понимание того, что заземление (grounding) и устойчивость к галлюцинациям - это разные навыки: модель, отлично находящая существующие факты, все еще может выдумывать несуществующие. Без единого стандарта сравнения научный прогресс в этой области остается фрагментированным. Fragility RAG: как шум в источниках порождает новые галлюцинации RAG традиционно рассматривается как главное оружие против галлюцинаций. Однако к 2026 году стало ясно, что RAG не только не гарантирует защиту от галлюцинаций, но и в определенных условиях может стать их источником. Исследование 2025 года "Pandora's Box or Aladdin's Lamp" (ACL 2025) ввело понятие "шума RAG", определив семь различных типов шума с лингвистической точки зрения и создав бенчмарк NoiserBench. Ключевое открытие: шум бывает двух типов. Beneficial noise - шум, который может улучшить некоторые аспекты работы модели и общую производительность. Harmful noise - шум, который ухудшает производительность. То есть не всякий шум в ретриве вреден, и задача разработчика RAG-системы - научиться различать их и использовать beneficial noise как дополнительный сигнал. Еще более тревожные результаты показал бенчмарк RAGuard (2025), который оценивает устойчивость RAG-систем к вводящим в заблуждение ретривалам. В отличие от предыдущих бенчмарков, использующих синтетический шум, RAGuard построен на реальных дискуссиях с Reddit, отражающих естественно возникающую дезинформацию. Ретривалы разделены на три типа: поддерживающие, вводящие в заблуждение и нерелевантные. Эксперименты показали, что при столкновении с вводящими в заблуждение ретривалами все протестированные LLM-мощные работают хуже, чем их zero-shot бейзлайны (без ретрива вообще). Это означает, что плохой ретрив может быть хуже, чем его полное отсутствие. RAGuard стал первым бенчмарком, систематически оценивающим устойчивость RAG к вводящим в заблуждение свидетельствам. Обратная сторона заземления - когда плохой ретрив становится источником ошибок - имеет несколько механизмов. Во-первых, LLM демонстрируют "языковое доминирование" при интерференции: при противоречии между извлеченными документами и собственными знаниями модель часто отдает приоритет языковым паттернам, а не фактам. Во-вторых, противоречивая или выборочно сфреймленная информация может полностью сбить рассуждение модели. В-третьих, даже релевантный документ может быть неполным или устаревшим, что порождает новые галлюцинации, когда модель пытается заполнить пробелы. Методы борьбы с этой фрагильностью включают денойзинг графов знаний (DEG-RAG, 2025), который устраняет избыточные сущности и ошибочные отношения, selective retrieval на основе оценки семантической неопределенности, и специализированные модели вроде HalluGuard (4B-параметрическая Small Reasoning Model), которая классифицирует пары "документ-утверждение" как заземленные или галлюцинированные, предоставляя обоснования, основанные на доказательствах. Масштабируемые real-time методы: от пост-обработки к инференс-тайм интервенциям Поле методов подавления галлюцинаций движется от реактивной пост-обработки к проактивным инференс-тайм интервенциям, которые работают в реальном времени без изменения модели. Ключевой тренд 2025-2026 годов - переход к легковесным, plug-and-play решениям, которые не требуют дообучения или минимально его требуют. Adaptive Activation Cancellation (AAC) - метод 2026 года, который рассматривает нейронные активации, ассоциированные с галлюцинациями, как структурированную интерференцию в residual stream трансформера, проводя аналогию с адаптивным шумоподавлением. AAC идентифицирует "галлюцинационные узлы" через layer-wise линейный пробинг и подавляет их с помощью confidence-weighted forward hook во время авторегрессивной генерации, не требуя внешнего знания, дообучения и дополнительных проходов инференса. На LLaMA 3-8B AAC дает положительные gains на уровне генерации (MC1 +0.04, MC2 +0.003, Token-F1 +0.003) при selectivity в 5.94x - 3.5x выше, чем ITI baseline, и сохраняет perplexity и MMLU accuracy с 0.0% деградацией. DSCC-HS (Dynamic Self-reinforcing Calibration for Hallucination Suppression) - фреймворк 2025 года, вдохновленный дуально-процессной когнитивной теорией. Он работает в две фазы: во время обучения компактная прокси-модель настраивается на две adversarial роли (FAP и HDP) через контрастную оптимизацию. Во время инференса эти замороженные прокси динамически управляют большой целевой моделью, впрыскивая steering vector на каждом шаге декодирования. Результаты на TruthfulQA: 49.82% accuracy и 99.2% factual consistency rate при hallucination score 0.8, значительно превосходя ITI и DOLA. CASAL (Contrastive Activation Steering for Amortized Learning) - метод ICLR 2026, который переносит преимущества активационного стиринга непосредственно в веса модели. CASAL требует обучения только субмодуля одного трансформерного слоя, но снижает галлюцинации на 30-40% на нескольких бенчмарках, при этом он в 30 раз более вычислительно эффективен и в 20 раз более эффективен по данным, чем сильные LoRA-базированные бенчмарки (SFT и DPO). Важное различие, которое crystallizes в поле - проксимальные методы (работающие на уровне токенов или ближайшего контекста) vs глобальные методы (изменяющие саму модель). Движение идет в сторону гибридных решений: легковесные инференс-тайм интервенции для реального времени и более тяжелые методы дообучения (вроде FINER-Tuning) для фундаментальных улучшений. Также набирают силу методы внутренней детекции без внешней верификации, например, дистилляция сигналов галлюцинаций в репрезентации трансформера во время обучения, что позволяет детектировать галлюцинации по одним внутренним активациям на инференсе. Мультимодальные галлюцинации: кросс-модальные конфликты и их подавление Мультимодальные LLM (LVLM, MLLM) сталкиваются с уникальным классом галлюцинаций, не существующих в text-only моделях - кросс-модальными конфликтами, когда одна модальность неподобающим образом влияет на генерацию другой. Исследование 2026 года, принятое на CVPR 2026, вводит бенчмарк FINER (Fine-grained NEgative queRies), который анализирует галлюцинации в четырех сеттингах: multi-object, multi-attribute, multi-relation и "what" вопросы. Ключевое открытие: MLLM галлюцинируют, когда тонкие несоответствия (fine-grained mismatches) сосуществуют с реально присутствующими элементами в изображении. SHIELD - первый метод, который прослеживает галлюцинации LVLM до визуальных энкодеров, выявляя три ключевые проблемы: статистический bias, inherent bias и vulnerability. SHIELD использует три стратегии: перевешивание визуальных токенов для уменьшения статистического bias, введение токенов, производных от шума, для противодействия inherent bias, и применение adversarial атак с контрастным декодированием для устранения vulnerability. MESA (2026) решает проблему "entangled steering" - когда подавление галлюцинаций непреднамеренно нарушает генеративное поведение модели, приводя к более коротким ответам и сдвинутым токен-распределениям. MESA выполняет контролируемую и селективную латентную интервенцию, нацеленную на релевантные галлюцинациям ответы при сохранении оригинального токен-распределения. Бенчмарк CSR-Bench (2026) предлагает комплексную оценку кросс-модальной надежности через четыре паттерна стресс-тестирования, включая Safety, Over-rejection, Bias и Hallucination, покрывая 61 тонкий тип. Оценка 16 state-of-the-art MLLM выявила систематические кросс-модальные разрывы, включая слабую осведомленность о безопасности, сильное языковое доминирование при интерференции и четкий trade-off между снижением over-rejection и поддержанием безопасного, недискриминационного поведения. FINER-Tuning - метод дообучения, использующий Direct Preference Optimization на данных, вдохновленных FINER. Дообучение четырех frontier MLLM с FINER-Tuning дает до 24.2% улучшения на галлюцинациях из их собственных бенчмарков, одновременно улучшая производительность на восьми существующих бенчмарках галлюцинаций и усиливая общие мультимодальные способности на шести бенчмарках. Уникальные вызовы для LVLM включают: визуально-индуцированные галлюцинации (модель видит то, чего нет на изображении), reasoning-induced hallucinations (логические ошибки в мультимодальных рассуждениях, даже при правильном восприятии изображения), cross-modal hallucinations (генерация контента, противоречащего визуальному входу), и кросс-модальные конфликты безопасности (когда безопасное поведение модели может управляться unimodal shortcuts вместо истинного совместного понимания интенции). Поле движется к training-free методам (вроде Cross-Modal Guidance и IMCCD) для реального времени и более тяжелым методам дообучения (FINER-Tuning) для фундаментального улучшения. Краткое резюме Галлюцинации LLM - это не баг, а фундаментальное свойство вероятностных моделей, обученных на ограниченных и неполных данных. Полностью устранить их невозможно, но можно эффективно управлять рисками с помощью комбинации методов: RAG для заземления на внешних фактах, инференс-тайм интервенций для подавления нейронов галлюцинаций, саморефлексии для изолированной проверки утверждений и XAI-метрик для аудита. Выбор конкретного метода или их комбинации зависит от домена (медицина vs творческие задачи), требуемой точности, допустимой задержки и цены ошибки. Список использованных источников
Предупреждение о self-reported метриках (с конкретным примером) Как уже отмечено в документе, к самоотчётам компаний-разработчиков следует относиться с осторожностью. Разрыв между внутренними и независимыми оценками может быть значительным. Показательный пример: согласно сводке AIMon Labs (август 2025), собранной по системным картам самих провайдеров, OpenAI O3 демонстрирует на бенчмарке SimpleQA (короткие фактологические вопросы) точность 49% и уровень галлюцинаций 51%. Однако в независимых тестах и публичных обсуждениях модель GPT-4.5 (выпущенная после O3) демонстрирует уровень галлюцинаций на том же SimpleQA около 37%. Разрыв в цифрах объясняется не столько реальным прогрессом, сколько тем, что провайдеры выбирают для отчёта наиболее выгодные метрики и бенчмарки. Исследование 2025 года также показало, что LLM не способны давать достоверные самоотчёты о собственных свойствах - их оценки практически не коррелируют с реальным поведением. Если модель не может правдиво описать свою личность, едва ли стоит слепо доверять её самооценке галлюцинаций. Практический чек-лист выбора метода подавления галлюцинаций Этот чек-лист поможет быстро выбрать основной метод или комбинацию методов в зависимости от вашего сценария.
|
|