Техники интерпретируемости от Anthropic

Источник

Техники интерпретируемости от Anthropic

Anthropic использует специальные техники для исследования внутренних процессов Claude, включая искусственную инъекцию мыслей в разные моменты процесса рассуждения модели. Ранее они уже заставляли Claude «думать», что он мост Золотые Ворота. Эти эксперименты позволяют изучать, как модель обрабатывает информацию и может ли она осознавать манипуляции со своим «мышлением». Качество подачи исследований Anthropic особенно высокое, что объясняется журналистским прошлым одного из кофаундеров.

Связи


Источник: Telegram, 2025-10-29

Связанные заметки

Исследуйте больше связей

Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.

Открыть граф знаний