Техники интерпретируемости от Anthropic
Техники интерпретируемости от Anthropic
Anthropic использует специальные техники для исследования внутренних процессов Claude, включая искусственную инъекцию мыслей в разные моменты процесса рассуждения модели. Ранее они уже заставляли Claude «думать», что он мост Золотые Ворота. Эти эксперименты позволяют изучать, как модель обрабатывает информацию и может ли она осознавать манипуляции со своим «мышлением». Качество подачи исследований Anthropic особенно высокое, что объясняется журналистским прошлым одного из кофаундеров.
Связи
- 20250911_2393 Доступность памяти как барьер для удержания — Оба об исследованиях Anthropic Claude: механизмы мышления и эффекты памяти
- 20250628_2103 AI-агенты устойчивы к социальной инженерии — Оба описывают эксперименты Anthropic по изучению поведения и границ Claude
- 20240628_0768 Эмерджентность как междисциплинарный принцип — Связь через изучение эмерджентных свойств LLM из простых взаимодействий
- 20230121_1347 Количественные метрики показывают что, качественные — почему — Интерпретируемость AI — это поиск «почему», как качественные исследования для метрик
Источник: Telegram, 2025-10-29
Связанные заметки
Персона-векторы в поведении AI
#AI#research#anthropic
Признаки интроспекции у больших языковых моделей
#AI#llm#introspection
Ограничения Llama 3 70B в function calling
#AI#llm#limitations
Начинать разработку LLM-приложений с промптов
#AI#llm#product-management
Структурирование данных для LLM через разметку
#AI#llm#data
Исследуйте больше связей
Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний