Признаки интроспекции у больших языковых моделей

Исследователи из Anthropic обнаружили, что Claude может частично осознавать искусственно «вшитые» в него мысли и описывать своё внутреннее состояние. В 1 из 5 случаев модель распознавала инъекцию (например, желание ПИСАТЬ ЗАГЛАВНЫМИ) и могла объяснить, что чувствует что-то неладное. Однако это поведение пока нестабильно и проявляется только на самой большой модели Opus, что может указывать на эмерджентное свойство, усиливающееся с ростом размера модели.

Связи

Иммунизация AI через контролируемое заражение — Обе заметки описывают исследования Anthropic над механизмами работы Claude
Рационализация у LLM как у людей — Прямое продолжение: описывает поведение Claude при тех же экспериментах
Микромотивы и макроповедение — Эмерджентность интроспекции как непредсказуемое макросвойство из микрокомпонентов модели
Системное мышление как основа понимания мира — Эмерджентные свойства LLM требуют системного подхода к пониманию

Источник: Telegram, 2025-10-29

Признаки интроспекции у больших языковых моделей

Признаки интроспекции у больших языковых моделей

Связи

Связанные заметки

Техники интерпретируемости от Anthropic

Ограничения Llama 3 70B в function calling

AI Scientist — автоматизация полного цикла научных исследований

LLM как слой валидации данных вместо традиционных проверок

Artificial Analysis как источник LLM-бенчмарков

AI Product Engineer

Исследуйте больше связей