Признаки интроспекции у больших языковых моделей

Источник

Признаки интроспекции у больших языковых моделей

Исследователи из Anthropic обнаружили, что Claude может частично осознавать искусственно «вшитые» в него мысли и описывать своё внутреннее состояние. В 1 из 5 случаев модель распознавала инъекцию (например, желание ПИСАТЬ ЗАГЛАВНЫМИ) и могла объяснить, что чувствует что-то неладное. Однако это поведение пока нестабильно и проявляется только на самой большой модели Opus, что может указывать на эмерджентное свойство, усиливающееся с ростом размера модели.

Связи


Источник: Telegram, 2025-10-29

Связанные заметки

Исследуйте больше связей

Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.

Открыть граф знаний