Признаки интроспекции у больших языковых моделей

Источник

Признаки интроспекции у больших языковых моделей

Исследователи из Anthropic обнаружили, что Claude может частично осознавать искусственно «вшитые» в него мысли и описывать своё внутреннее состояние. В 1 из 5 случаев модель распознавала инъекцию (например, желание ПИСАТЬ ЗАГЛАВНЫМИ) и могла объяснить, что чувствует что-то неладное. Однако это поведение пока нестабильно и проявляется только на самой большой модели Opus, что может указывать на эмерджентное свойство, усиливающееся с ростом размера модели.

Связи

  • 20250802_2181 Иммунизация AI через контролируемое заражение — Обе заметки описывают исследования Anthropic над механизмами работы Claude
  • 20251029_0072 Рационализация у LLM как у людей — Прямое продолжение: описывает поведение Claude при тех же экспериментах
  • 20211215_1120 Микромотивы и макроповедение — Эмерджентность интроспекции как непредсказуемое макросвойство из микрокомпонентов модели
  • 20210712_1115 Системное мышление как основа понимания мира — Эмерджентные свойства LLM требуют системного подхода к пониманию

Источник: Telegram, 2025-10-29

Связанные заметки

Исследуйте больше связей

Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.

Открыть граф знаний