Признаки интроспекции у больших языковых моделей
Признаки интроспекции у больших языковых моделей
Исследователи из Anthropic обнаружили, что Claude может частично осознавать искусственно «вшитые» в него мысли и описывать своё внутреннее состояние. В 1 из 5 случаев модель распознавала инъекцию (например, желание ПИСАТЬ ЗАГЛАВНЫМИ) и могла объяснить, что чувствует что-то неладное. Однако это поведение пока нестабильно и проявляется только на самой большой модели Opus, что может указывать на эмерджентное свойство, усиливающееся с ростом размера модели.
Связи
- Иммунизация AI через контролируемое заражение — Обе заметки описывают исследования Anthropic над механизмами работы Claude
- Рационализация у LLM как у людей — Прямое продолжение: описывает поведение Claude при тех же экспериментах
- Микромотивы и макроповедение — Эмерджентность интроспекции как непредсказуемое макросвойство из микрокомпонентов модели
- Системное мышление как основа понимания мира — Эмерджентные свойства LLM требуют системного подхода к пониманию
Источник: Telegram, 2025-10-29
Связанные заметки
Техники интерпретируемости от Anthropic
#AI#research#interpretability
Ограничения Llama 3 70B в function calling
#AI#llm#limitations
AI Scientist — автоматизация полного цикла научных исследований
#AI#automation#augmentation
LLM как слой валидации данных вместо традиционных проверок
#AI#programming#automation
Artificial Analysis как источник LLM-бенчмарков
#AI#llm#benchmarks
Исследуйте больше связей
Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний