Техники интерпретируемости от Anthropic
Техники интерпретируемости от Anthropic
Anthropic использует специальные техники для исследования внутренних процессов Claude, включая искусственную инъекцию мыслей в разные моменты процесса рассуждения модели. Ранее они уже заставляли Claude «думать», что он мост Золотые Ворота. Эти эксперименты позволяют изучать, как модель обрабатывает информацию и может ли она осознавать манипуляции со своим «мышлением». Качество подачи исследований Anthropic особенно высокое, что объясняется журналистским прошлым одного из кофаундеров.
Связи
- Доступность памяти как барьер для удержания — Оба об исследованиях Anthropic Claude: механизмы мышления и эффекты памяти
- AI-агенты устойчивы к социальной инженерии — Оба описывают эксперименты Anthropic по изучению поведения и границ Claude
- Эмерджентность как междисциплинарный принцип — Связь через изучение эмерджентных свойств LLM из простых взаимодействий
- Количественные метрики показывают что, качественные — почему — Интерпретируемость AI — это поиск «почему», как качественные исследования для метрик
Источник: Telegram, 2025-10-29
Связанные заметки
Признаки интроспекции у больших языковых моделей
#AI#llm#introspection
Персона-векторы в поведении AI
#AI#research#anthropic
Ограничения Llama 3 70B в function calling
#AI#llm#limitations
AI Scientist — автоматизация полного цикла научных исследований
#AI#automation#augmentation
LLM как слой валидации данных вместо традиционных проверок
#AI#programming#automation
Исследуйте больше связей
Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний