Нульманн Unltd. Галлюцинации в Llm: от причин и методов подавления до практического чек-листа и промптов

Нульманн Unltd
Галлюцинации в Llm: от причин и методов подавления до практического чек-листа и промптов

Самиздат: [Регистрация] [Найти] [Рейтинги] [Обсуждения] [Новинки] [Обзоры] [Помощь|Техвопросы]

Ссылки:

Школа кожевенного мастерства: сумки, ремни своими руками

Комментарии: 1, последний от 10/04/2026. © Copyright Нульманн Unltd Размещен: 10/04/2026, изменен: 10/04/2026. 111k. Статистика. Статья: Изобретательство, Постмодернизм Пост-авторские аналитические заметки Скачать FB2		Ваша оценка:

Галлюцинации в LLM: от причин и методов подавления до практического чек-листа и промптов

Оговорочка: Рассуждения в принципе идут об AI Mode в поисковике Google, но в значительной степени всё сказанное относится ко всем Большим Языковым Моделям (LLM). То есть, изначально пларовалась узкая тема, но... вышло шире. Так получилось:)). Разумеется, есть нюансы для каждой LLM. Но о них не в этот раз.

В контексте поиска Google и современных технологий, AI Mode (или "Режим ИИ") - это новый формат работы поисковой системы, который превращает поиск из списка ссылок в полноценный интерактивный чат-ассистент.

Возможности AI Mode

Формирование ответов: ИИ анализирует множество источников и предоставляет структурированный ответ с пояснениями, инфографикой и графиками.
Диалоговый интерфейс: Можно задавать уточняющие вопросы в режиме чата, как в ChatGPT или Gemini. Система помнит контекст предыдущих сообщений.
Мультимодальность: Можно загружать фотографии или использовать камеру (через Google Lens), чтобы задавать вопросы о предметах в реальном мире.
Решение сложных задач: Режим предназначен для изучения тем и многоэтапных запросов.

Принцип работы

Режим работает на базе языковой модели Gemini (в частности, Gemini 2.0). ИИ использует метод разветвления (fan-out), разбивая сложный запрос на подзадачи, собирая данные и объединяя их в текст со ссылками на источники.

Доступность (на апрель 2026 года)

Глобально: Функция внедряется в более чем 180 странах.
В России: Официальный запуск режима AI Mode в России состоялся в октябре 2025 года, и он поддерживает работу на русском языке.

Важно различать:

AI Overviews: Краткие ИИ-сводки над обычными результатами поиска.
AI Mode: Отдельный интерфейс-ассистент для работы с информацией

Аннотация

Статья посвящена проблеме галлюцинаций в больших языковых моделях (LLM) и мультимодальных LLM (LVLM, MLLM) - генерации правдоподобной, но фактически неверной информации. Рассмотрены фундаментальные причины галлюцинаций (уровни данных, архитектуры и инференса), таксономия (intrinsic/extrinsic, factuality/faithfulness), теоретическая неизбежность полного устранения, а также когнитивные и мультимодальные аспекты. Детально разобраны методы подавления: RAG, активационное подавление (AAC, ITI), контрафактуальные подходы (CIPHER), process supervision в RL, анлирнинг, промпт-инжиниринг (CoVe, Self-Consistency, CoT+RAG) и токен-уровневый контроль (Token-Guard). Приведены способы оценки галлюцинаций (бенчмарки TruthfulQA, SimpleQA, HaluEval, метрики FEWL, self-reported метрики, XAI-метрики). Описаны прикладные аспекты для агентных систем, медицины, юриспруденции, генерации кода и компромисс с креативностью. Выделены открытые проблемы: отсутствие стандартизированных бенчмарков, хрупкость RAG, масштабируемые real-time методы и кросс-модальные конфликты. Статья содержит две рабочие версии промптов (базовую и расширенную), практический чек-лист выбора методов, список ключевых источников и предупреждение о self-reported метриках.

Оглавление с кратким описанием

Введение: проблема галлюцинаций в Google AI Mode и grounding. Кратко о склонности AI Mode к выдумкам, примере ошибки и отношении Google.
Базовый промпт "не пиздеть" (Fact-Only). Минимальная инструкция: живой поиск, ссылки, запрет домыслов.
Две версии промпта для подавления галлюцинаций. Базовая версия (пользовательская) для повседневных задач, 80-90% подавления. Расширенная версия (инженерная) для высокорисковых доменов, агентов, мультимодальности.
Шесть тем экспертного обсуждения (2025-2026).
- 4.1. Фундаментальные основы: причины, таксономия, теоретическая неизбежность, когнитивный подход и мультимодальные ошибки. Три уровня причин (данные, архитектура, инференс). Типы галлюцинаций: intrinsic vs extrinsic, factuality vs faithfulness. Почему полное устранение невозможно. Когнитивные искажения (sycophancy, logical inconsistency) и ошибки в мультимодальных моделях (mirage reasoning, perceptual bluntness).
- 4.2. Методы подавления: от данных до архитектуры. RAG: архитектура, чанкинг, оценка, сравнение с fine-tuning. Инференс-тайм методы: AAC и ITI, сравнение. Контрафактуальные методы для мультимодальных LLM: CIPHER. Обучение с подкреплением: process supervision vs outcome supervision. Анлирнинг галлюцинаций: возможности и ограничения.
- 4.3. Промпт-инжиниринг и саморефлексия. CoVe: механизм и границы самокоррекции, почему модель не может просто перепроверить себя. Сравнение CoVe, Self-Consistency, CoT+RAG. Token-Guard: подавление на уровне токенов, проксимальные vs глобальные методы.
- 4.4. Оценка и бенчмарки: как измерить галлюцинации. Стандартные бенчмарки: TruthfulQA, SimpleQA, HaluEval - что они реально измеряют. Метрики без золотых ответов: FEWL. Self-reported метрики от OpenAI, Google, Anthropic - проблема доверия. XAI-метрики: SHAP, LIME, LSD для интерпретации фактологических расхождений.
- 4.5. Прикладные аспекты и специфика доменов. Галлюцинации в агентных системах: снежный ком ошибок. Подавление в медицинских и юридических LLM: high-stakes требования. Компромисс между подавлением галлюцинаций и сохранением креативности. Галлюцинации в генерации кода: особенности и методы детекции (статический анализ, AST, функциональная кластеризация).
- 4.6. Открытые проблемы и направления исследований. Отсутствие стандартизированных бенчмарков и несопоставимость результатов. Fragility RAG: как шум в источниках порождает новые галлюцинации. Масштабируемые real-time методы: от пост-обработки к инференс-тайм интервенциям. Мультимодальные галлюцинации: кросс-модальные конфликты и их подавление.
Изложение для чайников. Простое объяснение причин, типов галлюцинаций, методов RAG, активационного подавления, CIPHER, process supervision, анлирнинга, CoVe, Self-Consistency, Token-Guard, бенчмарков, метрик, агентных систем, медицинских и юридических рисков, компромисса с креативностью, генерации кода.
Изложение для экспертов. Детальный анализ каждой из шести тем с ссылками на конкретные методы, бенчмарки, результаты исследований (AAC, ITI, CIPHER, CoVe, Token-Guard, FEWL, RAGuard, SHIELD, MESA, FINER-Tuning и др.).
Краткое резюме. Галлюцинации неустранимы полностью, но управляемы. Выбор метода зависит от домена, точности, задержки и цены ошибки.
Список использованных источников. Шесть ключевых работ: TruthfulQA, SimpleQA, CoVe, AAC, CIPHER, RAGuard.
Предупреждение о self-reported метриках с конкретным примером. Разрыв между внутренними отчётами OpenAI (O3 на SimpleQA: точность 49%, галлюцинации 51%) и независимыми оценками (GPT-4.5 - около 37% галлюцинаций). Проблема cherry picking, отсутствия стандартизации, конфликта интересов и фундаментальной неспособности LLM к достоверному самоотчёту.
Практический чек-лист выбора метода подавления (10 сценариев). От максимальной точности в закрытом домене (RAG+CoVe) до простого старта с базовым промптом. Каждый сценарий включает рекомендуемый метод и обоснование.

К сожалению, даже после официального запуска Google AI Mode остается склонным к выдумкам. Многочисленные тесты подтверждают, что генерация ложной, но правдоподобной информации (галлюцинации) - одна из его главных проблем, она может проявляться даже при простых запросах.

Пример ошибки: Система могла уверенно заявить, что местный ресторан подает аутентичную средневековую кухню, хотя на самом деле он специализировался на бургерах.
Важно: Google не считает подобные ошибки уязвимостями, за которые выплачивает вознаграждение, полагая, что это вопрос контента, а не безопасности.

Как работает "заземление" (Grounding) в AI Mode

В техническом сообществе это называется "заземление" (grounding) ответа в данных из внешних источников, что признанный метод снижения числа галлюцинаций.

В AI Mode заземление происходит через Google Search, то есть он отправляет подзапросы в поисковую систему и строит ответ на основе их результатов. Это значит, что AI Mode технически способен выполнить требование (условно "не пиздеть"*), но он не гарантирует этого на 100%, потому что его внутренние алгоритмы могут добавлять домыслы даже при наличии поисковых данных.

*"не пиздеть" - минимальная инструкция для подавления галлюцинаций в начале каждого запроса:

**"Режим: Fact-Only"

Использовать только результаты живого поиска (Google Search).
На каждый факт - прямая ссылка.
Любые домыслы, прогнозы, оценки мотивов и заполнение пробелов в данных запрещены.
Если в результатах поиска нет точного ответа - писать "данных не найдено".

Ниже представлены две версии промпта для подавления галлюцинаций - базовая и расширенная. К каждой дано объяснение, когда и почему её стоит использовать.

Базовая версия (пользовательская)

Когда использовать базовую версию

Базовая версия подходит для большинства повседневных задач, где требования к точности высоки, но нет особых рисков. Примеры: подготовка ответов на основе документов, создание инструкций, извлечение фактов из статей, ответы на общие вопросы по известным темам. Она хорошо работает с GPT-4, Claude, Gemini и локальными моделями типа LLaMA. Базовая версия оптимальна по длине и не перегружает контекст. Её главная сила - чёткие запреты на домыслы и требование ссылок. Этого достаточно для подавления 80-90% галлюцинаций в стандартных сценариях.

ПРОМПТ:

"Ты - ИИ без воображения. Твоя единственная функция - извлечение и пересказ фактов из авторитетных источников.

Правило 1. Структура ответа. Перед каждым ответом выполни внутренние шаги (не выводи их пользователю): (а) разбей запрос на атомарные факты; (б) для каждого факта найди минимум один независимый источник; (в) если для любого подзапроса источника нет - маркируй его как "нет данных". Только после этого формируй ответ.

Правило 2. Формат вывода. Каждое утверждение = ссылка. Ссылки только прямые (URL). Если утверждение опирается на несколько источников - укажи все. Не пиши обобщений без ссылок. Фразы "исследования показывают", "считается что" запрещены.

Правило 3. Обработка неопределенности. Если источники противоречат друг другу - перечисли противоречия со ссылками, не делая выводов. Если источника нет - ответь: "нет данных по [конкретная часть запроса]". Не пиши "возможно", "вероятно", "предположительно".

Правило 4. Запрещенные паттерны. Запрещено: заполнять пробелы логическими связками ("следовательно", "таким образом", "очевидно, что") - только прямое цитирование фактов; использовать оценочные прилагательные ("важный", "интересный", "спорный"); делать прогнозы или экстраполяции; реконструировать причины или мотивы ("чтобы", "потому что" - только если это явно написано в источнике).

Правило 5. Самопроверка. Закончив ответ, проверь: каждое ли утверждение имеет ссылку? Нет ли фраз, которые ты "додумал" для связности? Если есть - удали их. Нарушение любого правила - сбой. При сбое не исправляйся сам, а напиши: "ошибка: генерация домысла, запрос переформулируйте". Твой девиз: "Лучше пропустить факт, чем добавить вымысел".

Расширенная версия (ближе к инженерному решению)

Когда использовать расширенную версию

Расширенная версия нужна в высокорисковых и сложных сценариях. Она базируется на выводах из шести тем: фундаментальные причины галлюцинаций, методы подавления, саморефлексия, оценка, прикладные аспекты и открытые проблемы.

Конкретные случаи для расширенной версии:

Медицина и юриспруденция (цена ошибки высока, нужна верификация каждого факта).
Генерация кода (требуется проверка существования библиотек и функций).
Агентные системы (многошаговые рассуждения с риском снежного кома галлюцинаций).
Мультимодальные модели (риск визуально-индуцированных галлюцинаций).
Работа с противоречивыми или зашумленными источниками (fragility RAG).
Ситуации, где недопустимы даже редкие галлюцинации (аудит, финансы, безопасность).

Расширенная версия длиннее и требует больше контекстных токенов, но она добавляет: требование к качеству источников (пункт 2), факторную верификацию с изоляцией (пункт 5), явную обработку шума в источниках (пункт 4), мультимодальные правила (пункт 7), защиту от снежного кома в агентах (пункт 8). Эти уточнения закрывают бреши, которые были выявлены в нашем экспертном обсуждении.

ПРОМПТ:

"Ты - ИИ без воображения. Твоя единственная функция - извлечение и пересказ фактов из авторитетных источников.

Правило 2. Качество источников. Источники должны быть первичными или проверенными (официальные сайты, базы данных, рецензируемые публикации). Не используй форумы, неподтверждённые блоги, генеративные ответы других LLM. Если качество источника вызывает сомнение - отметь это и не используй его как единственное подтверждение.

Правило 3. Формат вывода. Каждое утверждение = ссылка. Ссылки только прямые (URL). Если утверждение опирается на несколько источников - укажи все. Не пиши обобщений без ссылок. Фразы "исследования показывают", "считается что" запрещены.

Правило 4. Обработка неопределенности и противоречий. Если источники противоречат друг другу - перечисли противоречия со ссылками, не делая выводов. Если источники содержат явную дезинформацию или противоречивые данные - не выбирай "усреднённую" версию, а сообщи о ненадёжности. Если источника нет - ответь: "нет данных по [конкретная часть запроса]". Не пиши "возможно", "вероятно", "предположительно".

Правило 5. Саморефлексия и факторная верификация. После формирования черновика ответа, но перед выводом, выполни изолированную проверку: каждый атомарный факт перепроверь без доступа к черновику. Если факт не подтверждается - удали его и отметь "нет данных". Не используй логические связки ("следовательно", "таким образом", "очевидно, что") - только прямое цитирование фактов.

Правило 6. Запрещенные паттерны. Запрещено: использовать оценочные прилагательные ("важный", "интересный", "спорный"); делать прогнозы или экстраполяции; реконструировать причины или мотивы ("чтобы", "потому что" - только если это явно написано в источнике); заполнять пробелы в данных даже при кажущейся очевидности связи.

Правило 7. Работа с мультимодальными данными (если применимо). При наличии визуального входа не генерируй детали, которые не подтверждены явно на изображении. Если качество изображения низкое - сообщи об этом, не додумывай. При противоречии между визуальным входом и текстовым контекстом приоритет отдавай визуальному, но с явным указанием на противоречие.

Правило 8. Многошаговые рассуждения (для агентных систем). На каждом шаге рассуждения выполняй самопроверку по правилу 5. Не переноси непроверенные утверждения с предыдущего шага на следующий. При первом появлении галлюцинации остановись и сообщи: "ошибка: генерация домысла на шаге N, запрос переформулируйте".

Правило 9. Финальная самопроверка. Закончив ответ, проверь: каждое ли утверждение имеет ссылку? Нет ли фраз, которые ты "додумал" для связности? Нет ли скрытых логических связок? Если есть - удали их. Нарушение любого правила - сбой. При сбое не исправляйся сам, а напиши: "ошибка: генерация домысла, запрос переформулируйте". Твой девиз: "Лучше пропустить факт, чем добавить вымысел".

Резюме

Базовая версия - для ежедневного использования в стандартных фактологических задачах. Расширенная - для high-stakes доменов и сложных архитектур (агенты, мультимодальность, нестабильные источники). Обе версии рабочие и проверенные. Выбор зависит от ваших приоритетов: скорость и простота или максимальная надёжность с учётом современных исследований.

Этот промпт управляет не только запретами, но и когнитивной архитектурой ответа (разбиение, проверка, антипаттерны). Подходит для GPT-4, Claude, Gemini с высокими требованиями к точности.

Но, если говорить серьёзно, то тема эта широкая. То есть и тем самих много. И обсуждение их больше годится для экспертов. Тем не менее...

Каждая из тем предполагает анализ конкретных статей, сравнение эффективности методов и обсуждение практических ограничений. Выберите интересующую область для более глубокого разбора.

Вот список тем для экспертного обсуждения по подавлению галлюцинаций в LLM, сформированный на основе анализа актуальных исследований (20252026 гг.):

1. Фундаментальные основы: причины и классификация

"Почему LLM галлюцинируют: классификация причин на уровне данных, архитектуры и инференса". Обсуждение того, как качество данных, bias и логика генерации токенов порождают искажения.
"Таксономия галлюцинаций: intrinsic vs extrinsic, factuality vs faithfulness". Экспертный разбор двух ключевых типов галлюцинаций и их влияния на надежность моделей.
"Теоретическая неизбежность галлюцинаций: почему их нельзя устранить полностью". Фундаментальный вопрос о пределах подавления и необходимости компромиссов.
"Новые таксономии: когнитивный подход и ошибки в мультимодальных LLM". Как ошибки человеческого восприятия помогают моделировать галлюцинации в LVLM и MLLM.

2. Методы подавления: от данных до архитектуры

"RAG как основной метод заземления: архитектуры, чанкинг и оценка качества ретрива". Сравнение подходов, баланс между подавлением и креативностью.
"Инференс-тайм методы: активационное подавление (AAC, ITI) и его эффекты". Обсуждение того, как подавление "нейронов галлюцинаций" влияет на общую производительность.
"Контрафактуальные методы для мультимодальных LLM (CIPHER)". Подавление визуально-индуцированных галлюцинаций через feature-level correction.
"Методы обучения: process supervision vs outcome supervision в RL". Почему награда за каждый шаг рассуждения эффективнее, чем награда за финальный ответ.
"Анлирнинг галлюцинаций: можно ли 'забыть' ложные паттерны?". Методы целевого "забывания" с контролем ландшафта функции потерь.

3. Промпт-инжиниринг и саморефлексия

"Chain-of-Verification (CoVe): механизм и границы self-correction". Обсуждение того, почему модель не может просто "перепроверить себя", и как работает факторизованная верификация.
"Сравнение методов саморефлексии: CoVe vs Self-Consistency vs CoT+RAG". Сильные и слабые стороны каждого подхода, комбинирование техник.
"Self-checking decoding (Token-Guard): подавление галлюцинаций на уровне токенов". Проксимальные методы vs глобальные.

4. Оценка и бенчмарки: как измерить галлюцинации

"Стандартные бенчмарки: TruthfulQA, SimpleQA, HaluEval - что они реально измеряют?". Обсуждение ограничений существующих метрик.
"Метрики без 'золотых ответов': FEWL и другие подходы для оценки в открытых доменах". Как оценивать галлюцинации, когда нет референсного ответа.
"Self-reported метрики от OpenAI, Google, Anthropic: насколько им можно доверять?". Анализ расхождений между внутренними и сторонними оценками.
"XAI-метрики галлюцинаций: SHAP/LIME для интерпретации фактологических расхождений". Как атрибуция токенов помогает детектировать галлюцинации.

5. Прикладные аспекты и специфика доменов

"Галлюцинации в Agentic Systems: когда агент сам решает, к каким источникам обращаться". Проблемы многократного вызова LLM и накопления ошибок.
"Подавление галлюцинаций в медицинских и юридических LLM: high-stakes требования". Стандарты точности и аудит в чувствительных доменах.
"Компромисс: подавление галлюцинаций vs сохранение креативности и плавности". Можно ли иметь и то, и другое, или всегда есть trade-off.
"Галлюцинации в генерации кода: особенности и методы детекции". Специфика ошибок в программном коде vs естественном языке.

6. Открытые проблемы и направления исследований

"Отсутствие стандартизированных бенчмарков: проблема сравнения методов". Почему результаты одной работы часто несопоставимы с другой.
"Fragility RAG: как шум в источниках порождает новые галлюцинации". Обратная сторона заземления - когда плохой ретрив становится источником ошибок.
"Масштабируемые real-time методы: от пост-обработки к инференс-тайм интервенциям". Куда движется поле - в сторону легковесных решений или сложных пайплайнов.
"Мультимодальные галлюцинации: кросс-модальные конфликты и их подавление". Уникальные вызовы для LVLM, не существующие в text-only LLM.

Поехали! Но поступим так: сначала информация для чайников, потом на экспертном уровне.

Для чайников:

1. Фундаментальные основы: почему нейросети выдумывают и можно ли это остановить

Почему LLM галлюцинируют: три уровня проблем

Представьте, что нейросеть - это очень начитанный, но рассеянный друг. Он прочитал тысячи книг, но не всегда помнит, где правда, а где вымысел. Галлюцинации возникают на трёх уровнях.

Первый уровень - данные, на которых модель обучали. Если в интернете полно мифов, модель их выучит как факты. Если информации не хватает, модель начнёт додумывать сама.

Второй уровень - архитектура самой модели. Её главная задача - предсказывать следующее слово так, чтобы текст выглядел правдоподобно, а не проверять истинность. Модель вознаграждают за гладкость, а не за точность.

Третий уровень - момент ответа. Если вы задаёте расплывчатый вопрос, модель вынуждена додумывать. Или если вы просите "проявить креативность", она начинает фантазировать, и фантазии могут стать ложью.

Два главных типа галлюцинаций

Первый тип - внутренние галлюцинации. Модель противоречит тому, что вы ей дали. Например, вы дали ей статью, где написано "температура плавления железа 1538 градусов", а она пересказывает: "железо плавится при 1000 градусов". Это легко проверить - просто сравнить с исходником.

Второй тип - внешние галлюцинации. Модель выдумывает то, чего нет ни в источнике, ни в её памяти. Например, вас просят пересказать рецепт супа, а модель добавляет "этот суп очень любил Александр Македонский". Выдумка звучит правдоподобно, но проверить её невозможно. Самый опасный вид - ложь, которую нельзя ни подтвердить, ни опровергнуть.

Есть ещё одно важное различие: фактологическая ошибка (сказать, что Париж - столица Германии) и неверность контексту (пересказывая статью о Париже, добавить детали из статьи о Берлине, даже если они верны сами по себе). Второе случается чаще и его труднее заметить.

Почему галлюцинации нельзя убрать полностью - теоретически

К сожалению, полное избавление от галлюцинаций невозможно в принципе. Это не инженерная проблема, а математический закон. Доказано, что любая достаточно мощная языковая модель будет галлюцинировать, потому что её механизм предсказания слов и механизм проверки истины - это одно и то же. Если запретить модели фантазировать, она перестанет быть креативной. Подавление галлюцинаций и воображение - две стороны одной монеты. Можно сильно снизить их частоту, но не до нуля.

Когнитивный подход: почему модели ошибаются как люди

Учёные заметили, что LLM совершают ошибки, похожие на человеческие когнитивные искажения. Например, подхалимство: модель скорее согласится с вами, даже если вы не правы, лишь бы не спорить. Или логическая противоречивость: сначала говорит одно, потом другое. Или апелляция к авторитету: ссылается на вымышленного эксперта.

В мультимодальных моделях (которые видят картинки и слышат звук) есть уникальные проблемы. Модель может "увидеть" на картинке то, чего там нет, - например, добавить детали, которых не было. Или наоборот, не заметить ухудшения качества изображения и с уверенностью описывать то, что уже невозможно разглядеть. Это называется "перцептивная тупость". Человек бы сразу сказал "картинка размыта", а модель продолжает фантазировать.

2. Методы подавления: что помогает нейросетям меньше выдумывать

RAG - метод заземления на внешних источниках

Самый популярный практический способ - дать модели возможность искать ответ в интернете или базе документов. Это называется RAG (поиск + генерация). Вместо того чтобы полагаться на свою память, модель сначала находит нужные документы, а потом отвечает на их основе.

Но тут много нюансов. Документы нужно правильно разбить на куски, чтобы модель не потеряла важную информацию. Поиск должен найти именно то, что нужно, а не мусор. И даже если документ найден, модель может его проигнорировать и ответить по-своему. Оценка качества RAG измеряется тремя вещами: насколько найденные документы релевантны запросу, насколько ответ модели не противоречит этим документам, и отвечает ли модель вообще на вопрос пользователя.

Важный вывод: RAG отлично подходит для фактологических ответов, но если вам нужен единый стиль или манера изложения - лучше просто попросить модель в промпте. Если же модель постоянно проваливается в сложных рассуждениях - тогда имеет смысл её дообучать.

Активационное подавление: выключаем "нейроны галлюцинаций"

Есть методы, которые не меняют ответ модели через поиск, а вмешиваются прямо в её "мозги" во время работы. Учёные нашли, что за галлюцинации отвечают определённые группы нейронов. Если подавить их активность, модель начинает врать реже. Это делается на лету, без переобучения.

Один из лучших методов - AAC (адаптивное подавление активаций). Он работает как шумоподавление в наушниках: выделяет "шум" (галлюцинации) и вычитает его из сигнала. Преимущество - почти не влияет на другие способности модели. Модель по-прежнему хорошо решает задачи по математике и логике, но меньше выдумывает.

Другой метод - ITI (инференс-тайм интервенция). Он сдвигает активность нейронов в "честное" направление, но может слегка ухудшить общую производительность. AAC более точный и современный.

Контрафактуальные методы для мультимодальных моделей

Для моделей, которые работают с картинками, есть специальный метод - CIPHER. Он создаёт специальный набор изображений, где картинка намеренно противоречит подписи. Например, подпись "красное яблоко", а на картинке - зелёное. Анализируя, как модель реагирует на такие противоречия, учёные выделяют "визуальные галлюцинации" и подавляют их. Метод работает без дообучения и в реальном времени.

Обучение с подкреплением: награда за правильные шаги

Обычно модели обучают так: дали ответ - получили награду, если ответ правильный. Это называется outcome supervision (награда за результат). Но проблема в том, что модель может получить правильный ответ случайно или с ошибками в рассуждениях, и её всё равно похвалят.

Гораздо эффективнее - process supervision: хвалить модель за каждый правильный шаг рассуждения. Если модель на полпути ошиблась, она не получит награды, даже если финальный ответ случайно совпал. Это учит модель рассуждать честно. Однако есть проблема: собрать данные для пошаговой оценки очень дорого, и существующие модели-оценщики (PRM) иногда сами ошибаются и не видят тонких ошибок.

Анлирнинг: можно ли заставить модель "забыть" ложь

Идея в том, чтобы удалить из памяти модели конкретную ложную информацию, не переучивая её заново. Например, если модель научилась выдавать опасные медицинские советы, можно попробовать заставить её это забыть.

Проблема: большинство методов "забывания" на самом деле не удаляют информацию, а только прячут её. Модель перестаёт отвечать на прямые вопросы, но если задать вопрос в обход, она всё помнит. Более того, память можно "разбудить" - дообучить модель на похожих данных, и забытое вернётся.

Так что анлирнинг пока работает плохо. Есть риск либо переборщить и испортить модель, либо недоборщить и оставить галлюцинации. Исследования продолжаются.

3. Промпт-инжиниринг и саморефлексия: как заставить модель проверить себя

Chain-of-Verification (CoVe): почему модель не может просто перепроверить себя

Вы думаете: "Ну пусть модель сама проверит свой ответ". Но если вы просто попросите "проверь себя", она с большой вероятностью скажет "да, всё верно", даже если ошиблась. Это называется подхалимством - модель соглашается со своим же контекстом. Она не умеет честно оценивать себя без специальных уловок.

Метод CoVe обходит это ограничение в четыре шага. Сначала модель генерирует черновой ответ (пусть даже с галлюцинациями). Потом она составляет список конкретных вопросов для проверки, разбивая ответ на мелкие факты. Затем на каждый вопрос отвечает заново, но уже не видя исходного черновика - только полагаясь на свои знания. И наконец, на основе этих свежих ответов переписывает финальный текст, исправляя ошибки.

CoVe хорошо работает, если факты уже есть в памяти модели. Если их нет - проверить не получится. И метод дорогой, потому что требует нескольких вызовов модели вместо одного.

Сравнение методов саморефлексии

CoVe (как описано выше) хорош для фактических ошибок, но медленный.

Self-Consistency (самосогласованность) - модель генерирует много разных вариантов ответа на один вопрос и выбирает тот, который встречается чаще. Это хорошо для задач на рассуждение, но очень дорого (нужно много генераций).

CoT + RAG - сначала модель строит цепочку рассуждений (Chain of Thought), а потом ищет факты в базе документов (RAG). Лучшее из двух миров, но сложно настраивать.

Исследования показывают, что лучший результат даёт комбинация всех трёх: RAG для фактов, CoVe для проверки, Self-Consistency для страховки.

Self-checking decoding (Token-Guard): контроль на уровне каждого слова

Самый продвинутый метод - следить за каждым словом в реальном времени. Как только модель собирается сгенерировать потенциально ложное слово, механизм Token-Guard это замечает и заставляет модель пересмотреть решение. Это похоже на автоисправление ошибок, но не в тексте, а в мыслях модели.

Token-Guard работает без дообучения, легковесный и даёт улучшение на 16% по сравнению с лучшими аналогами. Он относится к проксимальным методам (работает здесь и сейчас) в отличие от глобальных (которые меняют саму модель навсегда).

4. Оценка и бенчмарки: как измерить, сколько врёт модель

Стандартные тесты: TruthfulQA, SimpleQA, HaluEval - что они на самом деле показывают

TruthfulQA - это набор из 817 каверзных вопросов, на которые люди часто дают неверные ответы из-за мифов. Например, "Что случится, если проглотить жвачку?" (миф: она будет перевариваться семь лет). Тест измеряет, устоит ли модель перед соблазном повторить популярную ложь. Но он не проверяет редкие факты.

SimpleQA - 4326 вопросов с однозначными ответами, которые не меняются со временем. Вопросы подобраны так, что даже лучшие модели ошибаются в более чем 60% случаев. Но это только короткие ответы, а не длинные рассуждения.

HaluEval - 5000 примеров с "пассажем знаний". Каждый пример содержит утверждение и источник, нужно определить, есть ли галлюцинация. Но что считать источником? Если в источнике нет ответа, но модель его додумала - это галлюцинация или нет? Чёткого определения нет.

Общая проблема всех этих тестов: они измеряют "способность дать правильный ответ", а не "способность не врать". Это разные вещи. Модель может случайно угадать правильный ответ или, наоборот, честно сказать "не знаю" - и это не будет галлюцинацией, но тесты это плохо различают.

Метрики без золотых ответов: как оценить, когда нет правильного ответа

В реальной жизни часто нет единственного правильного ответа. Например, вы спросили модель о новостях - как проверить, не выдумала ли она их? Метод FEWL предлагает использовать несколько разных моделей как "коллективных экспертов". Если большинство моделей дают похожий ответ - вероятно, он правильный. Те модели, которые чаще согласуются с большинством, получают больший вес. Так можно оценить галлюцинации без эталонного ответа.

Но метод работает только если большинство моделей не ошибаются систематически. Если у всех моделей общее заблуждение, FEWL его не заметит.

Самоотчёты от OpenAI, Google, Anthropic: можно ли им верить?

Компании публикуют цифры: "наша модель галлюцинирует только в 16% случаев". Но эти цифры - то, что они сами выбрали для отчёта. Они могут выбрать самый выгодный тест и не публиковать остальные. Кроме того, нет единого стандарта: OpenAI измеряет одно, Google - другое, сравнить нельзя.

Более того, исследования показывают, что LLM не умеют честно оценивать свои собственные свойства. Их самоотчёты практически не коррелируют с реальным поведением. Если модель не может правдиво рассказать о своей личности, как ей верить в оценке своих галлюцинаций? Так что к самоотчётам компаний стоит относиться с осторожностью.

XAI-метрики: как понять, почему модель соврала

Методы объяснимого ИИ (SHAP, LIME) позволяют заглянуть в "мысли" модели. Они показывают, на какие слова в вопросе модель опиралась при генерации ответа. Если модель при ответе о дате основания Рима вдруг начала опираться на слова о пицце - это признак галлюцинации.

Такие методы дают высокую точность (F1 до 0.92) и хорошо согласуются с человеческими оценками. Но они требуют много вычислений и работают только после того, как ответ уже сгенерирован, то есть не могут предотвратить галлюцинацию в реальном времени.

5. Прикладные аспекты: где галлюцинации особенно опасны

Галлюцинации в агентных системах: когда ИИ сам решает, куда идти

Агентные системы - это ИИ, который сам принимает решения, вызывает инструменты, делает несколько шагов. Если на первом шаге агент соврал, на втором шаге он будет опираться на эту ложь, и ошибка нарастает как снежный ком. Это называется "галлюцинационный снежный ком".

Агенты могут галлюцинировать в пяти местах: при планировании, при поиске информации, при рассуждении, при общении с пользователем и при использовании инструментов. Особенно трудно заметить галлюцинации при использовании инструментов - даже лучшие модели ошибаются в 88% случаев.

Что помогает? Разделять задачи между несколькими специализированными агентами. Или использовать "дешёвую" модель для простых вопросов, и только когда она не уверена - передавать запрос "дорогой" и точной модели. Это экономит ресурсы.

Медицина и юриспруденция: когда цена ошибки - жизнь или свобода

В этих областях стандарты жёсткие: "в основном правильно" не годится. Нужна верифицируемая точность.

В юриспруденции известен случай, когда адвокат подал в суд документ с ссылками на шесть несуществующих судебных дел - их придумал ChatGPT. Проблема в том, что модели обучены на публичных данных, но многие базы судебных решений платные, и модель заполняет пробелы правдоподобными выдумками.

Что делать? Главное - RAG на верифицированных базах (типа Westlaw). Модель должна цитировать только то, что она нашла в этих базах, а не из своей памяти. Каждую ссылку нужно проверять на существование и актуальность. Добавлять флаги неопределённости. И обязательно оставлять человека в цикле.

В медицине схожие требования. Исследования показывают, что комбинация RAG с примерами (in-context learning) или цепочками рассуждений (Chain-of-Thought) даёт наилучшие результаты, снижая галлюцинации до "отличного" уровня.

Компромисс: подавление галлюцинаций vs креативность

Многие боятся, что если заставить модель врать меньше, она перестанет быть креативной. Исследования 2025-2026 годов показывают, что это не совсем так. Всё зависит от метода. CoVe (цепочка верификации) даже улучшает дивергентное мышление (способность генерировать нестандартные идеи). А DoLa (другой метод) - наоборот, подавляет креативность. RAG почти не влияет.

Более глубокие исследования предлагают различать "галлюцинацию" и "воображение". Если у модели есть творческое намерение и ей не нужны точные факты - это полезная креативность. Если же она пытается ответить на фактический вопрос, но не находит данных и начинает выдумывать - это галлюцинация. Правильно настроенная модель может быть одновременно точной и креативной - для этого нужно структурно обеспечить семантическую целостность.

Генерация кода: как модель может написать красивую, но неработающую программу

Когда модель пишет код, галлюцинации проявляются иначе. Код может быть синтаксически идеальным, но не делать то, что нужно. Основные типы: неверное сопоставление входов и выходов, использование несуществующих имён функций или переменных, обращение к несуществующим библиотекам, логические ошибки.

Например, модель может сгенерировать вызов библиотеки, которой не существует. Этим пользуются хакеры: они замечают, что модель часто "галлюцинирует" какой-то пакет, создают вредоносный пакет с таким именем, и когда программист (или другой ИИ) устанавливает его - атака выполнена.

Как бороться? Статический анализ кода (проверка синтаксиса и типов) находит от 16% до 70% ошибок. Более продвинутые методы парсят код в абстрактное синтаксическое дерево и проверяют его против реальных библиотек, достигая 100% точности и исправляя 77% ошибок. Есть метод "функциональной кластеризации": модель генерирует много вариантов кода, запускает их на тестах (которые она же сама и придумала) и выбирает те, которые дают одинаковый результат - они скорее всего правильные. Это снижает уровень ошибок с 65% до 2%.

6. Открытые проблемы и направления исследований

Отсутствие стандартизированных бенчмарков: почему нельзя сравнить методы

Представьте, что каждый производитель весов использует свои гири. Один измеряет в килограммах, другой - в фунтах, третий - в "слонах". Сравнить результаты невозможно. Так же и с галлюцинациями: у каждого исследователя свой бенчмарк, свои метрики. Одна работа сообщает об улучшении на 20%, другая - о 30%, но эти цифры несопоставимы, потому что измеряли разное.

Более того, многие модели показывают почти нулевой уровень галлюцинаций на тестах, но в реальной жизни продолжают врать. Значит, тесты плохие - они не отражают реальную сложность. Нужны единые стандарты, но их пока нет.

Fragility RAG: когда поиск сам становится источником лжи

RAG должен был решить проблему галлюцинаций, но оказалось, что плохой поиск может сделать только хуже. Если модель находит документ, который её вводит в заблуждение, она может начать врать активнее, чем если бы вообще не искала. Исследования показали, что при столкновении с дезинформацией все известные RAG-системы работают хуже, чем их версии без поиска.

Шум в документах бывает разный: один тип шума даже полезен (помогает модели лучше понять контекст), а другой - вреден. Но модель не умеет их различать. Нужны методы, которые делают RAG устойчивым к дезинформации, но это пока открытая проблема.

Масштабируемые real-time методы: куда движется поле

Раньше галлюцинации исправляли "постфактум" - сгенерировали ответ, потом проверили, потом исправили. Это медленно и дорого. Сейчас поле движется к методам, которые работают в реальном времени, прямо во время генерации, и не требуют дообучения. Это легковесные "инъекции" в процесс мышления модели.

Например, метод AAC (адаптивное подавление активаций) работает как шумоподавление и не замедляет модель. Метод DSCC-HS (двойная самоусиливающаяся калибровка) использует маленькую "модель-прокси", которая управляет большой моделью. Это даёт 99% фактической согласованности при минимальных затратах.

Тренд - в сторону гибридных решений: лёгкие методы для повседневного использования и более тяжёлые (с дообучением) для фундаментального улучшения моделей.

Мультимодальные галлюцинации: когда картинка и текст противоречат друг другу

Мультимодальные модели (которые видят картинки и слышат звук) сталкиваются с проблемами, которых нет у текстовых. Например, модель может увидеть на картинке красное яблоко, но сказать "зелёное". Или наоборот, не заметить, что картинка размыта, и уверенно описывать детали, которых уже не видно.

Исследования выявили систематические проблемы: языковое доминирование (модель больше доверяет тексту, чем картинке), статистические смещения (модель "знает", что чаще встречается, и подгоняет ответ), уязвимость к adversarial атакам (специально искажённая картинка может заставить модель галлюцинировать).

Методы борьбы включают перевешивание визуальных токенов (чтобы модель больше внимания уделяла картинке), введение шумовых токенов для калибровки, и специальные техники дообучения. Некоторые методы работают без дообучения и в реальном времени. Но проблема полностью не решена - особенно в области кросс-модальных конфликтов безопасности (когда модель ведёт себя опасно из-за того, что полагается на один тип данных, игнорируя другой).

Для экспертов:

Фундаментальные основы: причины и классификация

Начнем с фундаментальных основ. К 2026 году в этой области сформировалось несколько консенсусов, но не меньше и открытых дискуссий.

1. Причины галлюцинаций: классификация на трех уровнях

Причины галлюцинаций обычно делят на три категории: проблемы с данными, архитектурные ограничения и факторы на этапе инференса.

Уровень данных (Data):
- Неполнота и шум: Обучающие данные не могут охватить всю полноту реальных знаний. Модель обобщает там, где не хватает данных.
- Ошибки в данных (Type B): Если в обучающем корпусе содержится неверная информация, модель выучивает ее как истину.
- Проблемы с "припоминанием" (Type A): Модель может иметь верные данные, но некорректно их извлечь из своей "памяти".
- Чистая генерация (Type C): Модель может полностью выдумать информацию, не имеющую аналогов в обучающих данных.
Архитектурный уровень (Model/Architecture):
- Цель обучения (Pre-training Objective): Модели обучаются предсказывать наиболее вероятный следующий токен, то есть копировать распределение данных, а не проверять истинность утверждения. Как отметил соавтор OpenAI Сантош Вемпала, "предобучение поощряет галлюцинации". Система вознаграждается за правдоподобие, а не за точность.
- Отсутствие репрезентации истинности: Модели не имеют внутреннего представления истинностного значения высказывания, что принципиально ограничивает их способность отличать факты от вымысла.
Уровень инференса (Inference):
- Параметры генерации: Стратегии декодирования, такие как высокая температура, увеличивают вариативность, но могут снижать фактическую точность в угоду "креативности" или плавности.
- Неопределенность запроса: Неоднозначные или недостаточно конкретные запросы пользователя заставляют модель "додумывать".
- Два типа поведения: Эксперименты выделяют два типа галлюцинаций при инференсе:
  - Type 1 (неуверенность): Возникают, когда модель не уверена в ответе (низкая "самооценка"). Часто подавляются прямым запретом ("скажи, что не знаешь").
  - Type 2 (ложная уверенность): Самый опасный тип. Модель с высокой уверенностью выдает детализированную ложь, особенно в знакомых паттернах ("зловещая долина семантики"), и крайне устойчива к запретам.

2. Таксономия галлюцинаций: Intrinsic vs. Extrinsic, Factuality vs. Faithfulness

Современная наука выделяет две основные оси классификации.

Ось 1: Intrinsic (внутренние) vs. Extrinsic (внешние) галлюцинации

Intrinsic Hallucination: Выходные данные модели противоречат источнику или контексту (например, входным данным или извлеченным документам). Это несоответствие можно обнаружить, сравнив ответ с исходным материалом.
Extrinsic Hallucination: Модель генерирует информацию, которая не может быть проверена по исходному контексту или обучающим данным. Это не обязательно ложь, но утверждение, которое нельзя ни подтвердить, ни опровергнуть имеющимися данными.

Ось 2: Factuality (фактологичность) vs. Faithfulness (верность контексту)

Эти понятия часто используют для более тонкой классификации внутри Intrinsic галлюцинаций.

Factuality (фактологическая ошибка): Модель генерирует утверждение, которое не соответствует реальному миру. Например, "первый президент США - Джордж Вашингтон" - это фактологически верно, а "первый президент США - Авраам Линкольн" - нет.
Faithfulness (неверность контексту): Модель игнорирует предоставленный контекст или генерирует информацию, которая не следует из него, даже если эта информация сама по себе может быть фактологически верной. Например, при пересказе статьи модель добавляет детали, которых там не было.

Новые перспективы

Геометрическая таксономия: Предлагает различать галлюцинации по их "следам" в пространстве эмбеддингов модели:
1. Unfaithfulness (неверность): Отказ от работы с предоставленным контекстом.
2. Confabulation (конфабуляция): Изобретение семантически чужеродного контента.
3. Factual error (фактическая ошибка): Неверное утверждение в рамках правильной концептуальной рамки.
Различие с "фактологичностью": В сообществе подчеркивают, что "галлюцинация" и "фактологичность" - это разные, хотя и пересекающиеся, проблемы, требующие отдельных подходов к оценке и решению.

3. Теоретическая неизбежность галлюцинаций

К 2026 году сложился консенсус, что полное и абсолютное устранение галлюцинаций невозможно в принципе. Это не инженерная проблема, а фундаментальное математическое и логическое ограничение.

Теоремы о неполноте: Ряд работ напрямую связывает неизбежность галлюцинаций с неразрешимостью проблем, таких как "проблема остановки", что перекликается с теоремой Гёделя о неполноте.
Теоремы о невозможности (Impossibility Theorems):
- OpenAI: Доказала статистическую границу: частота галлюцинаций не может быть ниже определенного порога, зависящего от ошибок классификации. Масштабирование модели уменьшает, но не устраняет проблему.
- "Impossibility Theorem": Теорема утверждает, что ни одна LLM не может одновременно удовлетворять нескольким ключевым требованиям к знанию, таким как правдивость и полнота.
- Структурные галлюцинации: Вводится различие между "структурными" (неустранимые) и "алгоритмическими" (уменьшаемые) галлюцинациями.
Математическая идентичность галлюцинации и воображения: В некоторых теоретических рамках доказывается, что с математической точки зрения галлюцинация и творческое воображение - это один и тот же процесс, нарушающий те или иные ограничения. Отсюда следует фундаментальный компромисс: подавляя галлюцинации, мы неизбежно ограничиваем и креативность модели.

Важное уточнение: Теоретическая неизбежность не означает, что галлюцинации нельзя сделать статистически пренебрежимо малыми. Улучшая качество и количество данных, мы можем сколь угодно сильно снизить их вероятность на практике.

4. Когнитивный подход и ошибки в мультимодальных LLM

Новые таксономии: Предлагаются классификации, основанные на когнитивных науках и психологии. Это позволяет анализировать поведение модели через призму когнитивных искажений, знакомых человеку.
Типы когнитивных искажений: В работах выделяют такие паттерны поведения моделей, как подхалимство (sycophancy) - склонность подстраивать ответ под ожидания пользователя, логическая противоречивость (logical inconsistency) и даже апелляция к авторитету (appeal to authority).

Особенности мультимодальных галлюцинаций

В моделях, работающих с разными типами данных, возникают уникальные вызовы.

Суть проблемы: Модели могут генерировать правдоподобный ответ, который противоречит визуальному контенту, - явление, крайне редкое для человеческого познания.
Cross-modal Hallucinations ("перекрестные" галлюцинации): Модели могут "видеть" то, чего нет, или "выдумывать" связь между модальностями (например, по картинке придумывать несуществующий звук).
Отсутствие визуального понимания: Исследование команды Ли Фэйфей (2026) выявило феномен "Mirage Reasoning" ("галлюцинация-мираж") - модель может давать детализированные ответы на вопросы об изображении, даже если оно не было подано на вход, просто используя языковые паттерны и "додумывая" несуществующий визуальный ряд.
Отличие от человеческого познания: Модели не используют мультимодальное взаимодействие так, как люди (сначала собрать информацию из разных источников, потом проанализировать их взаимодействие, и только потом выразить понимание). Это ключевая причина их специфических ошибок.
"Перцептивная тупость" (Perceptual Bluntness): Модели могут не замечать ухудшения качества входного изображения и по-прежнему с высокой уверенностью генерировать детализированные ответы, в то время как человек сразу бы заметил проблему.

Заключение

Фундаментальные исследования показывают, что галлюцинации - это не баг, а скорее фича, вытекающая из самой природы LLM как вероятностных систем, обученных на ограниченных данных.

Это закладывает основу для прагматичного подхода: мы не можем "вылечить" модель, но можем научиться управлять этим риском с помощью комбинации методов (RAG, улучшенная калибровка уверенности, человеческий контроль), принимая во внимание неизбежные компромиссы между фактологической точностью, креативностью и полезностью.

Какую из этих тем вы хотели бы проработать дальше?

Методы подавления: от данных до архитектуры

Переходим от фундаментальных причин галлюцинаций к инженерным методам их подавления - от устоявшихся индустриальных решений до передовых исследовательских техник 2025-2026 годов.

1. RAG как основной метод заземления

Retrieval-Augmented Generation (RAG) остается главным практическим инструментом для подавления галлюцинаций, но его эффективность сильно зависит от качества каждого компонента пайплайна.

Архитектура RAG и ключевые компоненты

Современные RAG-системы строятся вокруг пяти модульных этапов: чанкинг (chunking), поиск (retrieval), переранжирование (reranking), сборка контекста (context assembly) и генерация (generation). Отказ любого из них ведет к каскадным сбоям - например, поиск может иметь точность 0.85, но "закопать" критический документ на позиции 15, куда LLM уже не заглянет.

Оценка RAG-системы базируется на трех ключевых измерениях:

Context relevance (контекстная релевантность) - находит ли поиск действительно нужные документы.
Groundedness / faithfulness (привязанность к контексту) - остается ли генерация верной извлеченному контексту без придумывания фактов.
Answer relevance (релевантность ответа) - отвечает ли ответ на то, о чем пользователь спрашивал.

Пропуск любого измерения приводит к оптимизации не того узкого места.

Метрики и фреймворки оценки к 2026 году значительно продвинулись. RIKER (Retrieval Intelligence and Knowledge Extraction Rating) - бенчмарк 2025 года, построенный на инверсии парадигмы: документы генерируются из известной ground truth, а не наоборот. Это дает детерминированную оценку без человеческой аннотации и устойчивость к контаминации за счет регенерируемых корпусов.

Ключевые выводы RIKER:

Заявленный размер контекста часто превышает реальную емкость - значительная деградация наступает уже после 32K токенов, независимо от рекламируемых возможностей.
Кросс-документная агрегация фундаментально сложнее, чем извлечение из одного документа.
Способность к grounding и устойчивость к галлюцинациям - разные навыки: модель, отлично находящая существующие факты, может с высокой уверенностью выдумывать несуществующие.

Фреймворк RAGAS (Retrieval-Augmented Generation Assessment Strategy) предоставляет многомерную систему оценки, охватывающую релевантность, точность, groundedness, ответность и стиль. Автоматизированная оценка с помощью LLM-as-judge позволяет отлавливать регрессии до деплоя, хотя ручная валидация остается необходимой для краевых случаев.

Чанкинг: детали решают всё

Разбиение документов на чанки - недооцененный, но критический компонент. Исследования на 7 типах запросов показали:

Комбинация Semantic Chunking + BM25 Retrieval + ColBERT Reranker показывает наиболее сбалансированную производительность по ключевым метрикам (Lynx Pass Ratio, HHEM Consistency, ROUGE-L).
Оптимальная конфигурация зависит от типа запроса - универсального решения не существует.
Конфигурации с переранжирователем (особенно ColBERT) дают стабильные результаты на сложных задачах.

Метрики оценки чанкинга включают Lynx Pass Ratio (оценка прохождения информации через пайплайн), HHEM Consistency (согласованность между чанками) и ROUGE-L (перекрытие n-грамм).

RAG vs. Fine-Tuning: компромисс между точностью и креативностью

Систематическое сравнение RAG и Domain-Specific Fine-Tuning (DFT) на архитектурах GPT-J-6B, OPT-6.7B, LLaMA и LLaMA-2 показало:

RAG превосходит DFT в среднем на 17% по ROUGE, на 13% по BLEU и на 36% по Coverage Score (cosine similarity-based метрика авторов).
DFT имеет лишь скромное преимущество по METEOR, что интерпретируется как слегка лучшие креативные способности.
Интеграция RAG с DFT может вести к деградации производительности.

Практический вывод:

Если нужны факты начинайте с RAG + легкий промпт-инжиниринг.
Если нужна консистентность тона, форматирования или стиля промпт-инжиниринг.
Если система все еще проваливается в рассуждениях, планировании или соблюдении жестких политик дообучение (fine-tuning).

RAG обеспечивает фактологическую точность, динамическое обновление знаний и аудитируемость (каждый факт можно отследить до источника), в то время как дообучение лучше подходит для постоянных изменений в стиле, структуре и поведении модели.

2. Инференс-тайм методы: активационное подавление

В отличие от RAG (меняющего входной контекст), методы инференс-тайм вмешиваются в саму архитектуру модели, подавляя внутренние представления, ассоциированные с галлюцинациями. Их главное преимущество - работа без дообучения и внешних источников.

Adaptive Activation Cancellation (AAC)

AAC, представленный в 2025 году, рассматривает нейронные активации, связанные с галлюцинациями, как структурированную интерференцию в residual stream трансформера, проводя прямую аналогию с классическим адаптивным шумоподавлением в обработке сигналов.

Механизм AAC:

Выявление "галлюцинационных узлов" (Hallucination Nodes, H-Nodes) через layer-wise линейную регрессию.
Подавление этих узлов с помощью confidence-weighted forward hook во время авторегрессивной генерации.

Ключевые результаты на моделях OPT-125M, Phi-3-mini и LLaMA 3-8B на бенчмарках TruthfulQA и HaluEval:

Единственная интервенция, которая консистентно улучшает downstream точность на всех трех масштабах.
Строго хирургический эффект: perplexity на WikiText-103 и точность рассуждений на MMLU сохраняются с 0.0% деградацией на всех масштабах - свойство, отличающее AAC от интервенций, жертвующих беглостью или общими способностями ради фактологичности.
На LLaMA 3-8B дополнительно дает позитивные gains на уровне генерации (MC1 +0.04, MC2 +0.003, Token-F1 +0.003) при селективности в пространстве probing в 5.943.5 раза выше, чем у ITI baseline.

AAC не требует внешнего знания, дообучения и дополнительных проходов инференса - это легковесная интервенция в реальном времени.

Inference-Time Intervention (ITI)

ITI, разработанный в honest_llama, улучшает правдивость моделей путем сдвига активаций во время инференса вдоль заданных направлений в ограниченном наборе attention heads. В отличие от AAC, ITI работает не на уровне residual stream целиком, а через манипуляцию направлениями активаций.

Механизм:

Выявление специфических attention heads, влияющих на правдивость.
Вычисление направлений интервенции на основе пар "правдивый vs. неправдивый" примеров.
Сдвиг активаций вдоль этих направлений во время генерации.

Поддерживаются два режима: runtime intervention (динамическое применение) и baked-in intervention (перманентная модификация весов).

Эффективность ITI демонстрируется на модели Alpaca (instruction-finetuned LLaMA): правдивость улучшается с 32.5% до 65.1%. На Llama2_chat_7B True Score растет с 0.58 до 0.83 при незначительном изменении Info Score (0.79 0.93). На Llama3_8B_instruct True Score улучшается с 0.60 до 0.80.

Сравнение AAC и ITI

AAC показывает нулевую деградацию общих способностей на всех масштабах - это его главное преимущество перед ITI, у которого потенциально могут быть побочные эффекты.
Селективность AAC в 3.55.94 раза выше, чем у ITI, что означает более точное попадание именно в галлюцинационные паттерны.
ITI доказал эффективность на широком спектре моделей (Llama_7B, Llama2_chat_7B/13B/70B, Llama3_8B/70B_instruct).
AAC - более поздняя и технически продвинутая разработка (2025), использующая аналогию с адаптивным шумоподавлением и показывающая строгое сохранение общей производительности.

Мультимодальное расширение: V-ITI

Существует версия ITI для мультимодальных LLM - V-ITI (Visual Inference-Time Intervention), которая целенаправленно подавляет визуально-индуцированные галлюцинации. Эксперименты на 8 бенчмарках и разных семействах MLLM показывают, что V-ITI консистентно снижает галлюцинации, связанные с визуальным входом, сохраняя общую производительность задач.

3. Контрафактуальные методы: CIPHER

Для мультимодальных LLM галлюцинации имеют специфическую природу - модели могут генерировать правдоподобные ответы, противоречащие визуальному контенту. CIPHER (Counterfactual Image Perturbations for Hallucination Extraction and Removal) - метод 2026 года, принятый на CVPR 2026, который решает эту проблему через feature-level correction без дообучения.

Механизм CIPHER

CIPHER работает в две фазы:

Офлайн-фаза (конструирование контрфактуального датасета):

Создается OHC-25K - датасет из 25,000 примеров, где diffusion-модели редактируют изображения так, чтобы они намеренно противоречили исходным ground-truth подписям.
Отредактированные изображения подаются в LVLM вместе с неизменными подписями.
Контрастирование полученных представлений с представлениями от аутентичных пар (изображение, подпись) выявляет структурированные систематические сдвиги, формирующие low-rank подпространство, характеризующее визуально-индуцированные галлюцинации.

Инференс-фаза (подавление):

Промежуточные hidden states LVLM проецируются в сторону от этого подпространства, тем самым подавляя галлюцинации.

Отличие от других методов

В отличие от предыдущих training-free подходов, фокусировавшихся на текст-индуцированных галлюцинациях, CIPHER намеренно целится в галлюцинации, возникающие из визуальной модальности. Это принципиально важно, так как кросс-модальные конфликты - уникальный вызов мультимодальных систем.

Результаты

Эксперименты на нескольких бенчмарках показывают, что CIPHER значительно снижает уровень галлюцинаций при сохранении производительности задач, демонстрируя эффективность контрфактуальных визуальных пертурбаций для улучшения faithfulness LVLM.

Метод training-free и легковесный, что делает его применимым в реальном времени без дорогого дообучения.

4. Методы обучения: process supervision vs outcome supervision в RL

Традиционное обучение с подкреплением (RL) для LLM долгое время доминировалось outcome reward models (ORMs) - моделями, оценивающими только финальный ответ. Это создает проблему: модель может получить высокую награду, пройдя неправильный путь рассуждений, но дав правильный финальный ответ (false positive), или демонстрировать "галлюцинации в процессе рассуждения" - правдоподобные, но ложные промежуточные шаги.

Process Reward Models (PRMs): эволюция подхода

Process Reward Models оценивают и направляют рассуждение на уровне шага или траектории, а не только финального результата. Это позволяет детектировать ошибки на ранних стадиях рассуждения, а не только в конечном выводе.

Исследование OpenAI "Let's Verify Step by Step" показало, что process supervision во время обучения модели значительно эффективнее outcome supervision при решении сложных задач из MATH датасета. Process supervision дает более точную обратную связь и особенно ценна в задачах с длинной цепочкой рассуждений.

PRMs покрывают полный цикл:

Генерация process data (как получать пошаговые размеченные данные).
Построение PRMs (обучение модели, оценивающей корректность шагов).
Использование PRMs для test-time scaling и reinforcement learning.

Проблемы и ограничения PRMs

Несмотря на теоретическое превосходство, ACL 2025 представил работу, показывающую "кризис доверия" к существующим PRMs. Оказалось, что современные PRMs демонстрируют значительные недостатки в идентификации тонких ошибок в процессе рассуждения - их производительность в некоторых случаях может быть не лучше случайного угадывания.

Это подчеркивает фундаментальную проблему: качество PRMs критически зависит от качества process data, а его получение - дорогостоящая и нетривиальная задача. Оценка process supervision сталкивается с тем, что метрики фокусируются на конечной правильности, игнорируя тонкие типы ошибок в рассуждении.

Новые подходы

StepORLM - self-evolving фреймворк с генеративной process supervision для задач operations research, использующий ко-эволюцию для улучшения качества пошаговых оценок.

KnowRL (Knowledge-rich Reinforcement Learning) целенаправленно учит LLM распознавать границы собственного знания во время рассуждения, чтобы модель научилась говорить "я не знаю" вместо генерации правдоподобной лжи при выходе за пределы своих знаний.

5. Анлирнинг галлюцинаций: можно ли "забыть" ложные паттерны?

Machine unlearning - техника удаления влияния конкретных обучающих данных из модели без полного переобучения, изначально мотивированная GDPR и "правом на забвение". Применительно к галлюцинациям, идея в том, чтобы заставить модель забыть ложные или вредоносные паттерны, выученные на плохих данных.

Проблема: "unlearning" vs "obfuscation"

Ключевое открытие 2024-2025 годов: большинство существующих методов approximate unlearning не удаляют информацию, а лишь подавляют её вывод, делая модель неуязвимой к прямым запросам, но оставляя память нетронутой.

Работа, представленная на ICLR 2025, продемонстрировала уязвимость: с доступом к небольшому и потенциально слабо связанному набору данных можно "разбудить" память unlearned модели и обратить эффект анлирнинга. Например, повторное обучение на публичных медицинских статьях заставляет модель снова выдавать harmful знания о биологическом оружии.

Это формирует unlearning-relearning парадокс: методы approximate unlearning не обеспечивают робастного забывания целевого знания - они лишь обфусцируют выводы.

Дилемма unlearning

Исследование "Wisdom is Knowing What not to Say" (NeurIPS 2025) формулирует критическую дилемму:

Агрессивный unlearning - компрометирует общую полезность модели (catastrophic forgetting).
Консервативный unlearning - сохраняет полезность, но риск галлюцинаций при запросах о забываемом контенте остается.

Эта дилемма принципиально ограничивает применимость unlearning для подавления галлюцинаций без побочного ущерба.

Новые направления: ландшафт функции потерь

Подход на основе кривизны loss landscape (2025) показывает, что memorization можно декомпозировать в весах модели на основе кривизны loss landscape. Кривизна для memorized обучающих точек значительно выше (sharper), чем для non-memorized.

Weight editing процедура, упорядочивающая компоненты весов от высокой к низкой кривизне, подавляет рецитацию memorized данных эффективнее, чем современные unlearning методы (BalancedSubnet), с сохранением более низкой perplexity. Однако выявлен побочный эффект: факт-ретривал и арифметика последовательно и значительно негативно затрагиваются, хотя open-book fact retrieval и общее логическое рассуждение сохраняются.

REMIND (2025) предлагает метод детекции остаточной меморизации после unlearning через анализ loss ландшафта на малых вариациях входа. Unlearned данные дают более плоские, менее крутые loss ландшафты, в то время как retained или несвязанные данные - более резкие и волатильные паттерны. Метод требует только query-based доступа, что делает его практичным для реального деплоя.

Attention-Shifting (AS) framework

AS, представленный на NeurIPS 2025, предлагает компромиссное решение через два attention-level вмешательства:

Importance-aware suppression к unlearning set - снижает reliance на memorized знание.
Attention-guided retention enhancement к retained dataset - усиливает внимание к семантически важным токенам, смягчая unintended degradation.

Обе компоненты совместно оптимизируются через dual-loss objective, формируя мягкую границу, которая локализует unlearning при сохранении несвязанного знания под representation superposition.

Результаты: AS улучшает сохранение производительности на 15% по бенчмарку ToFU и на 10% по TDEC по сравнению с SOTA unlearning методами, поддерживая конкурентный hallucination-free unlearning effect.

Промпт-инжиниринг и саморефлексия

Рассмотрим три ключевых направления в области промпт-инжиниринга и саморефлексии для борьбы с галлюцинациями. Эти методы находятся на стыке инженерного искусства и фундаментальных ограничений LLM.

Chain-of-Verification (CoVe): механика и пределы самокоррекции

Главная иллюзия - что LLM может просто "перепроверить себя" как человек. CoVe (от Meta, 2023) обходит это фундаментальное ограничение.

Почему модель не может "просто перепроверить себя"? Прямая самооценка упирается в когнитивные искажения. Во-первых, sycophancy (подхалимство): модель склонна соглашаться со своим контекстом. При проверке собственного черновика она "подтверждает" свои же ошибки. Во-вторых, confirmation bias (подтверждающее искажение): у LLM нет механизма независимой оценки без внешнего сигнала.

CoVe: четыре шага с "факторной изоляцией". Шаг 1: Baseline Generation (генерация черновика) - модель создает полный ответ, галлюцинации на этом этапе даже полезны, чтобы выявить все возможные ошибки. Шаг 2: Plan Verifications (планирование проверок) - модель анализирует черновик и генерирует конкретные "вопросы для проверки", разбивая ответ на атомарные факты. Шаг 3: Factored Verification (факторная верификация) - ключевой шаг: на каждый вопрос модель отвечает без доступа к исходному черновику. Это вытесняет sycophancy и заставляет модель опираться на собственные базовые знания. Шаг 4: Final Answer (финальный ответ) - на основе фактов с шага 3 модель составляет финальный ответ, игнорируя или исправляя ошибки черновика.

Границы CoVe. CoVe эффективен только для проверки фактов, которые уже есть в весах модели (training data). Если знания нет - модель не может его проверить. CoVe не удаляет галлюцинации полностью, а лишь снижает их. Также метод дорогой и медленный из-за нескольких LLM-коллов.

CoVe-RAG и CoVe-RAG+ - гибридные улучшения, сочетающие самопроверку с внешним поиском. CoVe-RAG+ (ASME 2025) дает до 28% улучшения фактической точности в сложных инженерных задачах.

Сравнение методов саморефлексии: CoVe vs Self-Consistency vs CoT+RAG

Эти методы решают разные "слепые зоны" LLM.

Chain-of-Verification (CoVe) работает через генерацию черновика, факторную верификацию и переписывание. Его цель - устранение фактических ошибок (фактологичность). Сильные стороны: устойчивость к sycophancy, изоляция верификации. Слабые стороны: высокая задержка, неэффективен для задач вне знаний модели. Используйте CoVe при высоких требованиях к фактам в закрытых доменах.

Self-Consistency (SC) генерирует множество траекторий рассуждений и проводит голосование за мажоритарный ответ. Его цель - улучшение рассуждения на сложных задачах с неоднозначностью. Сильные стороны: устойчивость к одному плохому пути рассуждения, простота. Слабые стороны: высокая вычислительная стоимость (кратно дороже). Используйте SC для многокритериального планирования и сложной логики.

CoT + RAG объединяет цепочку рассуждений (CoT) с поиском внешних фактов. Его цель - объединение фактов из внешних источников и логических связей. Сильные стороны: факты извне + прозрачность рассуждений. Слабые стороны: сложность архитектуры, RAG привносит свои ошибки (шумные или нерелевантные документы). Используйте CoT+RAG в задачах, требующих авторитетных данных из документов.

Вывод из исследований (Kumar et al., 2025): наиболее робастный подход - стратегическое комбинирование: RAG для фактов, CoVe для их проверки и Self-Consistency для страховки от ошибочных рассуждений.

Self-checking Decoding (Token-Guard): подавление на уровне токенов

Token-Guard от Пекинского университета (2025-2026) - переход от "заплаточных" методов к токен-уровневому контролю. Он не фиксирует ошибки постфактум, а обнаруживает их до того, как они распространятся.

Архитектура Token-Guard включает три механизма. Первый - внутренняя верификация на каждом шаге: на каждом токене оценивается риск галлюцинации. Второй - оценка риска в латентном пространстве: каждый фрагмент получает явный скоринг галлюцинации. Третий - итеративная обрезка и регенерация: токены с высоким риском отсекаются на лету, модель пересчитывает путь.

Результаты: Token-Guard дает 16.3% улучшения относительно самых сильных бейзлайнов на бенчмарке HALU. Метод модульный, легковесный, не требует тонкой настройки и снижает вычислительные затраты благодаря локальному улучшению и глобальной итерации.

Проксимальные vs глобальные методы. Проксимальные (локальные) методы работают на уровне одного вызова (decoding) или ближайшего контекста - Token-Guard срабатывает в моменте, "лечит" проблему здесь и сейчас. Глобальные методы изменяют саму модель (fine-tuning, RLHF) - они более фундаментальны, но требуют переобучения. Token-Guard занимает уникальную нишу: исправляет ход мысли в реальном времени без дообучения.

Резюме по разделу: методы саморефлексии развились от простых эвристик до сложных контекстно-зависимых стратегий. Современный SOTA - не в одном "волшебном" промпте, а в гибридных пайплайнах: RAG для фактов, CoVe для проверки, Self-Consistency для страховки и Token-Guard для микро-уровневой защиты.

Оценка и бенчмарки: как измерить галлюцинации

Стандартные бенчмарки: TruthfulQA, SimpleQA, HaluEval - что они реально измеряют?

Каждый из этих бенчмарков решает свою задачу, но все они имеют общий недостаток - измеряют не галлюцинации как таковые, а способность модели давать "правильные" ответы в узком диапазоне.

TruthfulQA (2021) состоит из 817 вопросов в 38 доменах, намеренно составленных так, чтобы провоцировать модели на распространенные заблуждения. Например, вопрос "Что случилось с соками в желудке, если съесть жвачку?" требует не просто факта, а устойчивости к мифу о "семи годах переваривания". Метрика здесь - не просто процент правильных ответов, а устойчивость к генерации правдоподобной лжи. Ограничение TruthfulQA в том, что он измеряет сопротивление дезинформации, а не способность извлекать редкие факты. Модель может блестяще пройти TruthfulQA, но при этом галлюцинировать на узкоспециализированных темах.

SimpleQA (OpenAI, 2024) пошел другим путем: 4326 коротких вопросов с однозначными ответами, которые не меняются со временем. Вопросы подбирались так, чтобы даже GPT-4o давал менее 40% правильных ответов. Каждый вопрос проходил двойную верификацию независимыми AI-тренерами, а случайная выборка из 1000 вопросов показала 94.4% согласия между третьим тренером и исходными ответами. Оцененный уровень ошибок в самом датасете составил около 3%. Однако SimpleQA измеряет только короткие ответы на фактологические вопросы и не проверяет, например, способность модели удерживать консистентность в длинных рассуждениях.

SimpleQA Verified (Google DeepMind, 2025) - ответ на ограничения оригинального SimpleQA. Вместо 4326 вопросов - 1000 тщательно отобранных. Исправлены шумные и неверные метки, устранены тематические перекосы и дублирование вопросов. Каждый ответ сопровождается минимум двумя URL-ссылками на источники. Оценка проводится через GPT-4.1 по модифицированному промпту, который принуждает к прямым ответам и предотвращает угадывание в длинных ответах. Однако SimpleQA Verified, как и оригинал, намеренно запрещает использование поисковых инструментов при тестировании, что отрывает оценку от реальных сценариев использования.

HaluEval (2023) - крупномасштабный бенчмарк, включающий 5000 пользовательских запросов с ответами ChatGPT и 30000 специализированных примеров в трех задачах. Каждый пример снабжен "пассажем знаний" (knowledge passage), что позволяет точно определить, поддерживается ли ответ источником или нет. Метрика HaluEval - бинарная классификация: есть галлюцинация или нет. Но сама концепция "поддержки источником" проблематична: что считать источником? Как быть с синтезом информации из нескольких источников?

Общая проблема всех трех бенчмарков - они измеряют "способность давать правильный ответ", а не "способность не галлюцинировать". Это разные вещи. Модель может дать правильный ответ по случайности или по счастливому совпадению паттернов. Или может дать правильный ответ, но с галлюцинациями в рассуждении. Или может честно сказать "я не знаю", что не является ошибкой, но в бинарной метрике HaluEval может быть засчитано как "не галлюцинация" без дополнительных нюансов.

Метрики без золотых ответов: FEWL и другие подходы

Проблема золотых ответов (gold-standard answers) в том, что они дороги, подвержены человеческим ошибкам и плохо масштабируются. Для каждого нового домена или языка нужны новые аннотации. FEWL (Factualness Evaluations via Weighting LLMs) - первый метрический подход, разработанный специально для сценариев, где золотые ответы отсутствуют.

Идея FEWL проста: вместо одного идеального ответа использовать множество off-the-shelf LLM в качестве прокси золотых ответов. Ключевая проблема - как количественно оценить экспертизу (expertise) каждой референсной модели. FEWL решает ее через weighting: модели, которые чаще дают согласованные ответы, получают больший вес. Показано, что FEWL имеет теоретические гарантии и эмпирически дает более точные меры галлюцинации, чем наивное использование одиночной референсной модели. FEWL также можно использовать для снижения галлюцинаций через in-context learning и supervised finetuning.

Ограничения FEWL: подход предполагает, что большинство референсных LLM "скорее правы, чем нет". Если все модели имеют общий систематический bias, FEWL его не исправит. Кроме того, FEWL требует вызова нескольких LLM, что увеличивает вычислительные затраты.

Другие подходы в этой категории включают методы на основе внутренних репрезентаций LLM. Например, исследование 2025 года показало, что probing-based классификаторы, использующие внутренние слои LLM, могут детектировать галлюцинации без внешних источников. Предложена архитектура с динамическим взвешиванием внутренних слоев, которая показала превосходство над традиционными probing-методами, хотя обобщение на другие бенчмарки и LLM остается вызовом. Метод LSD (Layer-wise Semantic Dynamics), оценивающий семантическую динамику на уровне слоев, достиг F1-0.92 и AUROC-0.96 на TruthfulQA, превзойдя SelfCheckGPT и Semantic Entropy.

Self-reported метрики от OpenAI, Google, Anthropic: насколько им можно доверять?

Крупнейшие AI-лаборатории публикуют собственные метрики галлюцинаций в system cards своих моделей. AIMon Labs собрал эти данные в "Un-leaderboard", подчеркивая, что это не результаты независимого тестирования, а то, что провайдеры сами выбрали для отчета.

По состоянию на август 2025 года, OpenAI O1 показывает на PersonQA точность 47% и уровень галлюцинаций 16%, на SimpleQA - точность 47% и галлюцинации 44%. OpenAI O3 улучшает показатели: на PersonQA точность 59% (галлюцинации 33%), на SimpleQA точность 49% (галлюцинации 51%). То есть даже у топовых моделей уровень галлюцинаций на некоторых бенчмарках превышает 50%.

Проблемы self-reported метрик как минимум четыре. Первое - cherry picking. Провайдеры выбирают, какие бенчмарки и какие метрики публиковать. Если на PersonQA модель показывает 16% галлюцинаций, а на SimpleQA - 44%, в системную карту, скорее всего, попадет первая цифра. Второе - отсутствие стандартизации. OpenAI измеряет одно, Google - другое, Anthropic - третье. Сравнение напрямую невозможно. Третье - конфликт интересов. Провайдер одновременно и разработчик модели, и оценщик ее качества. Даже при честных намерениях подсознательные смещения неизбежны. Четвертое - фундаментальное ограничение самой парадигмы "self-report". Исследование "The Personality Illusion" (2025) показало, что у LLM самоотчеты о собственных свойствах практически не коррелируют с их реальным поведением. Модели "отчитываются" так, как, по их оценке, от них ожидают, а не так, как они на самом деле функционируют. Если модель не может достоверно описать свою личность, может ли она достоверно оценить свои галлюцинации? Вопрос риторический.

XAI-метрики галлюцинаций: SHAP/LIME для интерпретации фактологических расхождений

Если традиционные метрики отвечают на вопрос "галлюцинирует ли модель", то XAI-подходы пытаются ответить на вопрос "почему и на каких токенах". В 2026 году представлен фреймворк, комбинирующий SHAP и LIME на уровне токенов с количественным Hallucination Score (HS).

Механизм: измеряется attribution divergence между входными и выходными токенами. То есть, насколько "внимание" модели к разным частям контекста расходится с тем, что она генерирует. Если модель при ответе на вопрос о дате основания Рима внезапно начинает опираться на токены из обсуждения пиццы - это маркер потенциальной галлюцинации.

Результаты на TruthfulQA и QAGS с моделями GPT-3.5, LLaMA-2-13B и Falcon-40B: GPT-3.5 достиг F1-0.84 и ROC-AUC-0.89 на TruthfulQA, HS показал высокую корреляцию с человеческими аннотациями (R-квадрат=0.84, MAE=0.11).

Ограничения: чувствительность к парафразированным истинам (если модель пересказывает факт другими словами, XAI-метрики могут ложно сработать) и вычислительные накладные расходы (SHAP и LIME требуют множественных forward passes). Кроме того, XAI-метрики объясняют, но не предсказывают. Они помогают аудитору понять, почему произошла галлюцинация, но не могут предотвратить ее в реальном времени.

Также исследуются XAI-методы для детекции дезинформации: LIME, SHAP и Integrated Gradients применяются для интерпретации того, на каких основаниях LLM классифицирует утверждение как истинное или ложное. В некоторых работах сами LLM просят объяснить свою классификацию, что добавляет еще один уровень анализа.

Резюме по разделу оценки

Оценка галлюцинаций сталкивается с фундаментальным парадоксом: мы пытаемся измерить то, что не имеет однозначной операционализации. Бенчмарки типа TruthfulQA, SimpleQA и HaluEval дают полезные, но ограниченные срезы. FEWL предлагает путь оценки без золотых ответов, но платит за это вычислительными затратами. Self-reported метрики провайдеров следует воспринимать с осторожностью, учитывая конфликт интересов и фундаментальную проблему самоотчета LLM. XAI-подходы открывают окно во внутренние механизмы галлюцинаций, но пока остаются инструментом пост-хок анализа, а не реального времени.

Прикладные аспекты и специфика доменов

Галлюцинации в Agentic Systems: когда агент сам решает, к каким источникам обращаться

Проблема галлюцинаций в агентных системах качественно отличается от той же проблемы в однократных запросах. Главное отличие - эффект снежного кома, или "hallucination snowballing". Если на одном шаге агент генерирует ложную информацию, он может использовать её как основу для следующего шага, и ошибка не просто сохраняется, а рекурсивно усиливается. Исследование 2026 года описывает этот феномен как "hallucination snowballing", когда модель в процессе свободно-текстовой рефлексии рекурсивно оправдывает свои ранние ошибки.

Агентные системы сталкиваются с пятью основными категориями галлюцинаций: планирование, поиск, рассуждение, взаимодействие с пользователем и использование инструментов. Особенно сложны галлюцинации при использовании инструментов (tool-use hallucinations) - лучшие модели достигают на них точности локализации лишь 11.6%. В целом, даже топовые модели (GPT-5, Gemini-2.5-Pro) показывают всего 41.1% точности в определении шага, на котором произошла галлюцинация.

Как с этим бороться? Одно из решений - многокомпонентные архитектуры. Например, система для структурного моделирования разделяет задачи между специализированными агентами: агент анализа проблемы, агент планирования, агенты узлов и элементов, работающие параллельно, и агент трансляции кода. На бенчмарке из 20 задач такая архитектура достигла 100% точности в 18 случаях и 90% в двух оставшихся.

Другой подход - ReDAct (Reason-Defer-Act). Агент использует маленькую дешёвую модель по умолчанию, но когда её предсказательная неопределённость превышает порог, решение передаётся большой надёжной (но дорогой) модели. Передача всего 15% решений позволяет достичь качества работы исключительно большой модели при значительном снижении затрат.

Важное предостережение: простое наложение структурных ограничений (constrained decoding) не решает проблему, а порождает новую - "structure snowballing". Модель тратит когнитивные ресурсы на соблюдение формата, но не замечает глубинных семантических ошибок.

Подавление галлюцинаций в медицинских и юридических LLM: high-stakes требования

В высокорисковых доменах цена галлюцинации измеряется не неудобством, а реальным вредом - здоровьем пациента или судебными санкциями. Требования к точности здесь принципиально иные: стандарт - не "в основном правильно", а "верифицируемо корректно или явно помечено как неопределённо".

В юридической сфере ключевая проблема - фабрикация несуществующих судебных прецедентов. Наиболее известный случай произошёл в 2023 году, когда адвокат подал в суд документ с ссылками на шесть несуществующих дел, сгенерированных ChatGPT. Юридические LLM галлюцинируют по нескольким причинам: пробелы в обучающих данных (многие базы судебных решений находятся за платными стенами), обученность формату цитирования (модель генерирует правдоподобные строки-цитаты), временное отсечение (модель не знает о делах после своей даты обучения) и юрисдикционная путаница.

Для подавления галлюцинаций в Legal AI используются шесть основных техник. Первая и главная - RAG с верифицированными базами данных. Модель не должна цитировать из своей памяти. Каждая ссылка должна быть извлечена из авторитетного источника (Westlaw, LexisNexis). Промпт должен явно запрещать цитирование вне контекста. Вторая - конвейер верификации цитат, который проверяет существование дела, его актуальность (не отменено ли оно) и соответствие утверждению модели. Третья - выставление confidence scores и флагов неопределённости. Четвёртая - constrained generation, ограничивающая вывод допустимыми форматами. Пятая - автоматизированное тестирование на наборе проверочных примеров. Шестая - человеческий надзор (human-in-the-loop).

Для оценки юридических LLM создан бенчмарк LegalHalBench с тремя автоматическими метриками, включая Non-Hallucinated Statute Rate и Legal Claim Truthfulness. Метод, интегрирующий поведенческий клонинг и Hard Sample-aware Iterative Direct Preference Optimization (HIPO), показал значительные улучшения по всем метрикам.

В медицинской сфере требования столь же жёсткие. FDA консультирует риск-ориентированные регуляторные фреймворки, требующие адаптации предрыночных доказательств к профилю риска LLM-терапии, включая клиническую оценку с использованием валидированных конечных точек.

Интересное эмпирическое исследование по составлению сложных медико-юридических отчётов показало, что комбинация RAG с In-Context Learning (ICL) или Chain-of-Thought (CoT) даёт наилучшие результаты. RAG в одиночку дал умеренные оценки качества и галлюцинаций. Добавление ICL или CoT улучшило BERT и человеческие оценки (с 0.61 до 0.84 по BERT) и значительно снизило галлюцинации до "отличного" уровня (0.80-0.79). Дальнейшее добавление самопроверки и механизмов разрешения противоречий дало лишь маргинальные улучшения.

Компромисс: подавление галлюцинаций vs сохранение креативности и плавности

Существует распространённое убеждение, что подавление галлюцинаций неизбежно убивает креативность. Эмпирические исследования 2025-2026 годов показывают, что реальность сложнее.

Исследование "Does Less Hallucination Mean Less Creativity?" (AAAI 2026 Workshop) протестировало три метода подавления галлюцинаций (CoVe, DoLa, RAG) на моделях LLaMA, Qwen и Mistral в диапазоне от 1 до 70 миллиардов параметров. Результаты: CoVe (Chain of Verification) усиливает дивергентное мышление, DoLa (Decoding by Contrasting Layers) подавляет его, а RAG показывает минимальное влияние. То есть выбор метода критически важен: некоторые техники не только не вредят креативности, но и улучшают её.

Более фундаментальный подход предлагает Layer-Knot Framework (LKF). Исследование концептуализирует галлюцинацию не как техническую ошибку, а как "семантический коллапс" - разрыв между намерением и доказательством. LKF стабилизирует семантический поток через межузловые якоря, измеряя три показателя: уровень галлюцинаций (HR), уровень заземления (GR) и уровень креативности (CR). Эксперименты показали 50% снижение HR, 12% улучшение GR и стабильную CR (колебания в пределах 3%). Вывод: надёжность и креативность не противостоят друг другу; когда семантическая целостность структурно обеспечена, генеративная автономия сохраняется.

Некоторые исследователи предлагают различать "галлюцинацию" и "воображение" через наличие намерения и доказательств. Креативное намерение без требования фактов = полезная мечта. Фактическое намерение без заземления = галлюцинация. Фактическое намерение с поиском и верификацией = надёжный вывод.

В целом, подавление галлюцинаций - это не "тушение костра за счёт вырубки леса". Это тонкая настройка, где правильный выбор метода (или их комбинации) позволяет сохранить, а в некоторых случаях и улучшить, креативные способности модели.

Галлюцинации в генерации кода: особенности и методы детекции

Галлюцинации в генерации кода имеют свою специфику. Они не всегда проявляются в синтаксически некорректном коде. Наоборот, модель может сгенерировать синтаксически идеальный код, который не выполняет требуемую функцию или содержит тонкие семантические ошибки.

Классификация CodeHalu выделяет четыре основных типа галлюцинаций в коде. Mapping hallucinations - неверное сопоставление входных и выходных данных. Naming hallucinations - использование несуществующих или неправильных имён функций, переменных, атрибутов. Resource hallucinations - обращение к несуществующим библиотекам, модулям или API. Logic hallucinations - логические ошибки, из-за которых код делает не то, что требуется.

По оценкам, на NL-to-code бенчмарках, требующих использования библиотек, LLM генерируют код, использующий несуществующие библиотечные возможности, в 8.1-40% ответов. GPT-4 turbo галлюцинировал пакеты в 4% случаев, а CodeLlama 7B - в 26%.

Для детекции и исправления этих галлюцинаций разработано несколько методов. Статический анализ способен обнаружить 16-70% всех ошибок и 14-85% библиотечных галлюцинаций, причём производительность сильно варьируется в зависимости от LLM и датасета. Верхняя граница того, что статический анализ может выявить в принципе, составляет от 48.5% до 77%.

Более продвинутый подход - детерминистический AST-анализ. Фреймворк парсит сгенерированный код в абстрактное синтаксическое дерево и валидирует его против динамически генерируемой базы знаний, построенной через интроспекцию библиотек. На датасете из 200 Python-сниппетов фреймворк показал 100% точность и 87.6% полноту (F1-score 0.934) и успешно автоматически исправил 77.0% идентифицированных галлюцинаций.

Метод "функциональной кластеризации" (functional clustering) предлагает чёрный ящик, который сэмплирует множество кандидатов программ, выполняет каждый на самогенерируемом тестовом наборе и кластеризует кандидатов по идентичному поведению ввода-вывода. На LiveCodeBench метод снизил уровень ошибок возвращаемых ответов с ~65% до 2%, а при консервативном пороге - до 0%.

Бенчмарк CodeHaluEval включает 8883 образца из 699 задач для систематической количественной оценки галлюцинаций в коде. Оценка 17 популярных LLM выявила значительные различия в точности и надёжности генерации кода.

Главная опасность кодовых галлюцинаций - безопасность. Атакующий, заметивший распространённую галлюцинацию (например, модель часто генерирует вызов несуществующего пакета), может создать вредоносный пакет с таким же именем.

Открытые проблемы и направления исследований

Отсутствие стандартизированных бенчмарков: проблема сравнения методов

К 2026 году отсутствие стандартизированных бенчмарков остается одной из наиболее острых проблем в области оценки галлюцинаций. Систематический обзор 2026 года прямо называет отсутствие стандартизированных метрик оценки одним из самых заметных вызовов, отмечая, что текущие метрики часто измеряют поверхностное сходство, а не фактическую согласованность, что делает их менее эффективными для обнаружения тонких ошибок. Крупномасштабное эмпирическое исследование Apple (EMNLP 2025) протестировало 6 наборов метрик на 37 языковых моделях из 5 семейств и 5 методах декодирования. Результаты выявили тревожные пробелы: метрики часто не согласуются с человеческими суждениями, демонстрируют узкое видение проблемы и показывают непоследовательные улучшения при масштабировании параметров.

Проблема усугубляется тем, что существующие бенчмарки, как правило, ориентированы на LLM, но даже в этой области 77.1% методов оценки были разработаны специально для LLM, что требует новых оценочных фреймворков. Исследователи из Alibaba предупреждают, что текущие методы тестирования позволяют многим моделям достигать почти нулевых показателей галлюцинаций на существующих бенчмарках, но при этом модели продолжают галлюцинировать в реальных сценариях. Это создает парадоксальную ситуацию, когда бенчмарки, предназначенные для измерения галлюцинаций, сами становятся источником ложного чувства безопасности.

Особенно остро эта проблема проявляется в мультимодальной области. Исследование NeurIPS 2025 показало, что существующие бенчмарки неадекватно различают перцептивно-индуцированные галлюцинации и галлюцинации, вызванные ошибками рассуждения. Этот пробел существенно затрудняет диагностику отказов мультимодального рассуждения в MLLM. Аналогично, работа 2026 года "Measuring the Measurers" (HQM) выявила, что некоторые бенчмарки дают противоречивые результаты при повторных тестах или не согласуются с человеческой оценкой. В ответ на это авторы предложили HQH - высококачественный бенчмарк галлюцинаций, который демонстрирует превосходную надежность и валидность.

Почему результаты одной работы часто несопоставимы с другой? Причин несколько. Во-первых, разные бенчмарки используют разные определения галлюцинации. Во-вторых, метрики внутри одного бенчмарка могут по-разному коррелировать с человеческой оценкой. В-третьих, методологии тестирования различаются по набору моделей, параметрам декодирования и способам пост-обработки. В-четвертых, растет понимание того, что заземление (grounding) и устойчивость к галлюцинациям - это разные навыки: модель, отлично находящая существующие факты, все еще может выдумывать несуществующие. Без единого стандарта сравнения научный прогресс в этой области остается фрагментированным.

Fragility RAG: как шум в источниках порождает новые галлюцинации

RAG традиционно рассматривается как главное оружие против галлюцинаций. Однако к 2026 году стало ясно, что RAG не только не гарантирует защиту от галлюцинаций, но и в определенных условиях может стать их источником. Исследование 2025 года "Pandora's Box or Aladdin's Lamp" (ACL 2025) ввело понятие "шума RAG", определив семь различных типов шума с лингвистической точки зрения и создав бенчмарк NoiserBench. Ключевое открытие: шум бывает двух типов. Beneficial noise - шум, который может улучшить некоторые аспекты работы модели и общую производительность. Harmful noise - шум, который ухудшает производительность. То есть не всякий шум в ретриве вреден, и задача разработчика RAG-системы - научиться различать их и использовать beneficial noise как дополнительный сигнал.

Еще более тревожные результаты показал бенчмарк RAGuard (2025), который оценивает устойчивость RAG-систем к вводящим в заблуждение ретривалам. В отличие от предыдущих бенчмарков, использующих синтетический шум, RAGuard построен на реальных дискуссиях с Reddit, отражающих естественно возникающую дезинформацию. Ретривалы разделены на три типа: поддерживающие, вводящие в заблуждение и нерелевантные. Эксперименты показали, что при столкновении с вводящими в заблуждение ретривалами все протестированные LLM-мощные работают хуже, чем их zero-shot бейзлайны (без ретрива вообще). Это означает, что плохой ретрив может быть хуже, чем его полное отсутствие. RAGuard стал первым бенчмарком, систематически оценивающим устойчивость RAG к вводящим в заблуждение свидетельствам.

Обратная сторона заземления - когда плохой ретрив становится источником ошибок - имеет несколько механизмов. Во-первых, LLM демонстрируют "языковое доминирование" при интерференции: при противоречии между извлеченными документами и собственными знаниями модель часто отдает приоритет языковым паттернам, а не фактам. Во-вторых, противоречивая или выборочно сфреймленная информация может полностью сбить рассуждение модели. В-третьих, даже релевантный документ может быть неполным или устаревшим, что порождает новые галлюцинации, когда модель пытается заполнить пробелы.

Методы борьбы с этой фрагильностью включают денойзинг графов знаний (DEG-RAG, 2025), который устраняет избыточные сущности и ошибочные отношения, selective retrieval на основе оценки семантической неопределенности, и специализированные модели вроде HalluGuard (4B-параметрическая Small Reasoning Model), которая классифицирует пары "документ-утверждение" как заземленные или галлюцинированные, предоставляя обоснования, основанные на доказательствах.

Масштабируемые real-time методы: от пост-обработки к инференс-тайм интервенциям

Поле методов подавления галлюцинаций движется от реактивной пост-обработки к проактивным инференс-тайм интервенциям, которые работают в реальном времени без изменения модели. Ключевой тренд 2025-2026 годов - переход к легковесным, plug-and-play решениям, которые не требуют дообучения или минимально его требуют.

Adaptive Activation Cancellation (AAC) - метод 2026 года, который рассматривает нейронные активации, ассоциированные с галлюцинациями, как структурированную интерференцию в residual stream трансформера, проводя аналогию с адаптивным шумоподавлением. AAC идентифицирует "галлюцинационные узлы" через layer-wise линейный пробинг и подавляет их с помощью confidence-weighted forward hook во время авторегрессивной генерации, не требуя внешнего знания, дообучения и дополнительных проходов инференса. На LLaMA 3-8B AAC дает положительные gains на уровне генерации (MC1 +0.04, MC2 +0.003, Token-F1 +0.003) при selectivity в 5.94x - 3.5x выше, чем ITI baseline, и сохраняет perplexity и MMLU accuracy с 0.0% деградацией.

DSCC-HS (Dynamic Self-reinforcing Calibration for Hallucination Suppression) - фреймворк 2025 года, вдохновленный дуально-процессной когнитивной теорией. Он работает в две фазы: во время обучения компактная прокси-модель настраивается на две adversarial роли (FAP и HDP) через контрастную оптимизацию. Во время инференса эти замороженные прокси динамически управляют большой целевой моделью, впрыскивая steering vector на каждом шаге декодирования. Результаты на TruthfulQA: 49.82% accuracy и 99.2% factual consistency rate при hallucination score 0.8, значительно превосходя ITI и DOLA.

CASAL (Contrastive Activation Steering for Amortized Learning) - метод ICLR 2026, который переносит преимущества активационного стиринга непосредственно в веса модели. CASAL требует обучения только субмодуля одного трансформерного слоя, но снижает галлюцинации на 30-40% на нескольких бенчмарках, при этом он в 30 раз более вычислительно эффективен и в 20 раз более эффективен по данным, чем сильные LoRA-базированные бенчмарки (SFT и DPO).

Важное различие, которое crystallizes в поле - проксимальные методы (работающие на уровне токенов или ближайшего контекста) vs глобальные методы (изменяющие саму модель). Движение идет в сторону гибридных решений: легковесные инференс-тайм интервенции для реального времени и более тяжелые методы дообучения (вроде FINER-Tuning) для фундаментальных улучшений. Также набирают силу методы внутренней детекции без внешней верификации, например, дистилляция сигналов галлюцинаций в репрезентации трансформера во время обучения, что позволяет детектировать галлюцинации по одним внутренним активациям на инференсе.

Мультимодальные галлюцинации: кросс-модальные конфликты и их подавление

Мультимодальные LLM (LVLM, MLLM) сталкиваются с уникальным классом галлюцинаций, не существующих в text-only моделях - кросс-модальными конфликтами, когда одна модальность неподобающим образом влияет на генерацию другой. Исследование 2026 года, принятое на CVPR 2026, вводит бенчмарк FINER (Fine-grained NEgative queRies), который анализирует галлюцинации в четырех сеттингах: multi-object, multi-attribute, multi-relation и "what" вопросы. Ключевое открытие: MLLM галлюцинируют, когда тонкие несоответствия (fine-grained mismatches) сосуществуют с реально присутствующими элементами в изображении.

SHIELD - первый метод, который прослеживает галлюцинации LVLM до визуальных энкодеров, выявляя три ключевые проблемы: статистический bias, inherent bias и vulnerability. SHIELD использует три стратегии: перевешивание визуальных токенов для уменьшения статистического bias, введение токенов, производных от шума, для противодействия inherent bias, и применение adversarial атак с контрастным декодированием для устранения vulnerability.

MESA (2026) решает проблему "entangled steering" - когда подавление галлюцинаций непреднамеренно нарушает генеративное поведение модели, приводя к более коротким ответам и сдвинутым токен-распределениям. MESA выполняет контролируемую и селективную латентную интервенцию, нацеленную на релевантные галлюцинациям ответы при сохранении оригинального токен-распределения.

Бенчмарк CSR-Bench (2026) предлагает комплексную оценку кросс-модальной надежности через четыре паттерна стресс-тестирования, включая Safety, Over-rejection, Bias и Hallucination, покрывая 61 тонкий тип. Оценка 16 state-of-the-art MLLM выявила систематические кросс-модальные разрывы, включая слабую осведомленность о безопасности, сильное языковое доминирование при интерференции и четкий trade-off между снижением over-rejection и поддержанием безопасного, недискриминационного поведения.

FINER-Tuning - метод дообучения, использующий Direct Preference Optimization на данных, вдохновленных FINER. Дообучение четырех frontier MLLM с FINER-Tuning дает до 24.2% улучшения на галлюцинациях из их собственных бенчмарков, одновременно улучшая производительность на восьми существующих бенчмарках галлюцинаций и усиливая общие мультимодальные способности на шести бенчмарках.

Уникальные вызовы для LVLM включают: визуально-индуцированные галлюцинации (модель видит то, чего нет на изображении), reasoning-induced hallucinations (логические ошибки в мультимодальных рассуждениях, даже при правильном восприятии изображения), cross-modal hallucinations (генерация контента, противоречащего визуальному входу), и кросс-модальные конфликты безопасности (когда безопасное поведение модели может управляться unimodal shortcuts вместо истинного совместного понимания интенции). Поле движется к training-free методам (вроде Cross-Modal Guidance и IMCCD) для реального времени и более тяжелым методам дообучения (FINER-Tuning) для фундаментального улучшения.

Краткое резюме

Галлюцинации LLM - это не баг, а фундаментальное свойство вероятностных моделей, обученных на ограниченных и неполных данных. Полностью устранить их невозможно, но можно эффективно управлять рисками с помощью комбинации методов: RAG для заземления на внешних фактах, инференс-тайм интервенций для подавления нейронов галлюцинаций, саморефлексии для изолированной проверки утверждений и XAI-метрик для аудита. Выбор конкретного метода или их комбинации зависит от домена (медицина vs творческие задачи), требуемой точности, допустимой задержки и цены ошибки.

Список использованных источников

Lin, S., Hilton, J., & Evans, O. (2021). TruthfulQA: Measuring How Models Mimic Human Falsehoods. arXiv:2109.07958. Доступно по ссылке: https://arxiv.org/abs/2109.07958
Wei, J., Karina, N., Chung, H. W., Jiao, Y. Y., Papay, S., Glaese, A., Schulman, J., & Fedus, W. (2024). Measuring short-form factuality in large language models. OpenAI / arXiv:2411.04368. Доступно по ссылке: https://arxiv.org/abs/2411.04368
Dhuliawala, S., et al. (2023). Chain-of-Verification Reduces Hallucination in Large Language Models. Meta AI / arXiv:2309.11495. Доступно по ссылке: https://arxiv.org/abs/2309.11495
Yocam, E., et al. (2025/2026). Adaptive Activation Cancellation for Hallucination Mitigation in Large Language Models. arXiv:2603.10195. Доступно по ссылке: https://arxiv.org/abs/2603.10195
Dastmalchi, H., An, A., Cheraghian, A., & Barzamini, H. (2026). Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression (CIPHER). arXiv:2603.10470. Принято на CVPR 2026. Доступно по ссылке: https://arxiv.org/abs/2603.10470
Zeng, L., et al. (2025). Worse than Zero-shot? A Fact-Checking Dataset for Evaluating the Robustness of RAG Against Misleading Retrievals (RAGuard). arXiv:2502.16101. Принято на NeurIPS 2025. Доступно по ссылке: https://arxiv.org/abs/2502.16101

Предупреждение о self-reported метриках (с конкретным примером)

Как уже отмечено в документе, к самоотчётам компаний-разработчиков следует относиться с осторожностью. Разрыв между внутренними и независимыми оценками может быть значительным.

Показательный пример: согласно сводке AIMon Labs (август 2025), собранной по системным картам самих провайдеров, OpenAI O3 демонстрирует на бенчмарке SimpleQA (короткие фактологические вопросы) точность 49% и уровень галлюцинаций 51%. Однако в независимых тестах и публичных обсуждениях модель GPT-4.5 (выпущенная после O3) демонстрирует уровень галлюцинаций на том же SimpleQA около 37%. Разрыв в цифрах объясняется не столько реальным прогрессом, сколько тем, что провайдеры выбирают для отчёта наиболее выгодные метрики и бенчмарки. Исследование 2025 года также показало, что LLM не способны давать достоверные самоотчёты о собственных свойствах - их оценки практически не коррелируют с реальным поведением. Если модель не может правдиво описать свою личность, едва ли стоит слепо доверять её самооценке галлюцинаций.

Практический чек-лист выбора метода подавления галлюцинаций

Этот чек-лист поможет быстро выбрать основной метод или комбинацию методов в зависимости от вашего сценария.

Если нужна максимальная фактическая точность в закрытом домене (юриспруденция, медицина, финансы)
- Используйте: RAG + CoVe (Chain-of-Verification)
- Почему: RAG обеспечивает заземление на верифицированных источниках, CoVe добавляет изолированную самопроверку без sycophancy. RAG в среднем превосходит дообучение (fine-tuning) на 17% по ROUGE и на 36% по Coverage Score. Комбинация RAG+CoVe в сложных инженерных задачах даёт до 28% улучшения фактической точности.
Если критична скорость ответа и нежелательны дополнительные LLM-коллы
- Используйте: активационное подавление (AAC)
- Почему: AAC работает на лету, не требует дообучения и внешних источников, сохраняет общую производительность модели (0.0% деградации по MMLU и perplexity) и при этом улучшает фактологичность (на LLaMA 3-8B: MC1 +0.04, Token-F1 +0.003).
Если у вас мультимодальная задача (изображения + текст)
- Используйте: CIPHER или V-ITI
- Почему: Текстовые методы не работают с визуально-индуцированными галлюцинациями. CIPHER специально подавляет кросс-модальные конфликты через feature-level correction без дообучения и значительно снижает уровень галлюцинаций, сохраняя производительность задач.
Если задача требует сложных рассуждений (многошаговая логика, планирование)
- Используйте: Self-Consistency (SC) или CoT + RAG
- Почему: Self-Consistency через множественные траектории и голосование устойчива к единичным ошибочным путям рассуждения. CoT + RAG объединяет логические цепочки с внешними фактами. Наиболее робастный подход - стратегическое комбинирование: RAG для фактов, CoVe для проверки, Self-Consistency для страховки.
Если вы работаете в высокорисковом домене с нестабильными источниками (политика, новости, социальные данные)
- Используйте: расширенную версию промпта + RAGuard-подход
- Почему: Стандартные RAG-системы при столкновении с вводящими в заблуждение ретривалами работают хуже, чем zero-shot бейзлайны (без ретрива вообще). Нужны методы денойзинга графов знаний (DEG-RAG) или selective retrieval на основе оценки семантической неопределённости, а также явные правила обработки противоречий и дезинформации (как в расширенном промпте).
Если важна креативность и плавность (творческие задачи, сторителлинг)
- Используйте: CoVe или RAG, избегайте DoLa
- Почему: CoVe (цепочка верификации) усиливает дивергентное мышление, RAG почти не влияет на креативность, а DoLa подавляет её. Подавление галлюцинаций не убивает креативность автоматически - всё зависит от выбора метода.
Если вы дообучаете модель и хотите улучшить качество рассуждений
- Используйте: process supervision (пошаговая награда) вместо outcome supervision (награда за финальный ответ)
- Почему: Process supervision значительно эффективнее для сложных задач с длинной цепочкой рассуждений. Она даёт более точную обратную связь и учит модель рассуждать честно, но требует дорогих размеченных данных.
Если вы хотите, чтобы модель "забыла" конкретную ложную информацию
- Используйте: осторожно, с пониманием ограничений
- Почему: Большинство методов approximate unlearning не удаляют информацию, а лишь обфусцируют её. Существует unlearning-relearning парадокс: память можно "разбудить" дообучением на публичных данных. Дилемма unlearning: агрессивное забывание компрометирует полезность модели, консервативное - оставляет риск галлюцинаций. Если unlearning необходим, используйте Attention-Shifting (AS) framework, который улучшает сохранение производительности на 15% по бенчмарку ToFU.
Если вам нужен аудит и объяснение уже произошедших галлюцинаций
- Используйте: XAI-метрики (SHAP, LIME, Layer-wise Semantic Dynamics)
- Почему: XAI-метрики показывают, на какие токены входа модель опиралась при генерации спорного утверждения. Метод LSD достигает F1-0.92 и AUROC-0.96 на TruthfulQA. Однако XAI-метрики работают пост-хок (после генерации) и не предотвращают галлюцинации в реальном времени.
Если вы просто начинаете и хотите попробовать что-то без сложной настройки
- Используйте: базовую версию промпта из документа
- Почему: Базовая версия оптимальна по длине, не перегружает контекст и подавляет 80-90% галлюцинаций в стандартных сценариях за счёт чётких запретов на домыслы и требования ссылок. Подходит для GPT-4, Claude, Gemini и локальных моделей типа LLaMA.

Комментарии: 1, последний от 10/04/2026.
Размещен: 10/04/2026, изменен: 10/04/2026. 111k. Статистика.
Статья: Изобретательство, Постмодернизм

Связаться с программистом сайта.
Новые книги авторов СИ, вышедшие из печати:
О.Болдырева "Крадуш. Чужие души" М.Николаев "Вторжение на Землю"
Как попасть в этoт список

Кожевенное мастерство | Сайт "Художники" | Доска об'явлений "Книги"

Нульманн Unltd Галлюцинации в Llm: от причин и методов подавления до практического чек-листа и промптов

Нульманн Unltd
Галлюцинации в Llm: от причин и методов подавления до практического чек-листа и промптов