Признаки интроспекции у больших языковых моделей
Признаки интроспекции у больших языковых моделей
Исследователи из Anthropic обнаружили, что Claude может частично осознавать искусственно «вшитые» в него мысли и описывать своё внутреннее состояние. В 1 из 5 случаев модель распознавала инъекцию (например, желание ПИСАТЬ ЗАГЛАВНЫМИ) и могла объяснить, что чувствует что-то неладное. Однако это поведение пока нестабильно и проявляется только на самой большой модели Opus, что может указывать на эмерджентное свойство, усиливающееся с ростом размера модели.
Связи
- 20250802_2181 Иммунизация AI через контролируемое заражение — Обе заметки описывают исследования Anthropic над механизмами работы Claude
- 20251029_0072 Рационализация у LLM как у людей — Прямое продолжение: описывает поведение Claude при тех же экспериментах
- 20211215_1120 Микромотивы и макроповедение — Эмерджентность интроспекции как непредсказуемое макросвойство из микрокомпонентов модели
- 20210712_1115 Системное мышление как основа понимания мира — Эмерджентные свойства LLM требуют системного подхода к пониманию
Источник: Telegram, 2025-10-29
Связанные заметки
Техники интерпретируемости от Anthropic
#AI#research#interpretability
Ограничения Llama 3 70B в function calling
#AI#llm#limitations
Начинать разработку LLM-приложений с промптов
#AI#llm#product-management
Структурирование данных для LLM через разметку
#AI#llm#data
Разделение больших промптов на маленькие
#AI#llm#systems-thinking
Исследуйте больше связей
Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний