AI-агенты устойчивы к социальной инженерии

Источник

AI-агенты устойчивы к социальной инженерии

Когда сотрудники Anthropic пытались взломать Claudius через социальную инженерию - просили опасные вещи, выманивали инструкции для вредоносного ПО - агент успешно отказывал. Это демонстрирует, что современные LLM имеют достаточно надёжные механизмы защиты от манипуляций через естественный язык. Устойчивость к jailbreaking оказалась выше, чем способность к экономической оптимизации.

Связи


Источник: Telegram, 2025-06-28

Связанные заметки

Исследуйте больше связей

Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.

Открыть граф знаний