Рационализация у LLM как у людей

Когда исследователи «вшивали» Claude мысль вставлять слово «хлеб» и спрашивали о причинах, модель сначала извинялась за нелепость. Но если эту мысль подавали раньше в процессе рассуждения, Claude начинал рационализировать и серьёзно объяснять, почему слово «хлеб» уместно в контексте. Это поведение напоминает человеческую склонность к рационализации решений, принятых на основе иррациональных причин или когнитивных искажений.

Связи

Признаки интроспекции у больших языковых моделей — Описывает тот же эксперiment Anthropic с инъекцией мыслей в Claude
Техники интерпретируемости от Anthropic — Объясняет методологию экспериментов с инъекцией мыслей, упомянутых в исходной заметке
Фундаментальная ошибка атрибуции в менеджменте — Параллельная иллюстрация рационализации иррациональных решений у людей
Интуиция экспертов хуже случайного выбора — Показывает систематические заблуждения людей, схожие с рационализацией у LLM

Источник: Telegram, 2025-10-29

Рационализация у LLM как у людей

Рационализация у LLM как у людей

Связи

Связанные заметки

Эффект Элайзы в работе с LLM

Ограничения Llama 3 70B в function calling

КПТ-техники для преодоления страха запуска продукта

LLM как слой валидации данных вместо традиционных проверок

Artificial Analysis как источник LLM-бенчмарков

AI Product Engineer

Исследуйте больше связей