AI-агенты устойчивы к социальной инженерии

Источник

AI-агенты устойчивы к социальной инженерии

Когда сотрудники Anthropic пытались взломать Claudius через социальную инженерию - просили опасные вещи, выманивали инструкции для вредоносного ПО - агент успешно отказывал. Это демонстрирует, что современные LLM имеют достаточно надёжные механизмы защиты от манипуляций через естественный язык. Устойчивость к jailbreaking оказалась выше, чем способность к экономической оптимизации.

Связи


Источник: Telegram, 2025-06-28

Связанные заметки

Хотите глубже изучить ai и автоматизация?

AI Product Engineer

85% выпускников запустили AI-фичу в production

Узнать о курсе

Исследуйте больше связей

Эта заметка — часть сети из 2,400+ взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.

Открыть граф знаний