Рационализация у LLM как у людей

Источник

Рационализация у LLM как у людей

Когда исследователи «вшивали» Claude мысль вставлять слово «хлеб» и спрашивали о причинах, модель сначала извинялась за нелепость. Но если эту мысль подавали раньше в процессе рассуждения, Claude начинал рационализировать и серьёзно объяснять, почему слово «хлеб» уместно в контексте. Это поведение напоминает человеческую склонность к рационализации решений, принятых на основе иррациональных причин или когнитивных искажений.

Связи

  • 20251029_0071 Признаки интроспекции у больших языковых моделей — Описывает тот же эксперiment Anthropic с инъекцией мыслей в Claude
  • 20251029_0073 Техники интерпретируемости от Anthropic — Объясняет методологию экспериментов с инъекцией мыслей, упомянутых в исходной заметке
  • 20190331_0400 Фундаментальная ошибка атрибуции в менеджменте — Параллельная иллюстрация рационализации иррациональных решений у людей
  • 20200411_0874 Интуиция экспертов хуже случайного выбора — Показывает систематические заблуждения людей, схожие с рационализацией у LLM

Источник: Telegram, 2025-10-29

Связанные заметки

Исследуйте больше связей

Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.

Открыть граф знаний