AI-агенты устойчивы к социальной инженерии

Когда сотрудники Anthropic пытались взломать Claudius через социальную инженерию - просили опасные вещи, выманивали инструкции для вредоносного ПО - агент успешно отказывал. Это демонстрирует, что современные LLM имеют достаточно надёжные механизмы защиты от манипуляций через естественный язык. Устойчивость к jailbreaking оказалась выше, чем способность к экономической оптимизации.

Связи

Персона-векторы в поведении AI — Оба исследуют внутренние механизмы поведения LLM от Anthropic
Компромиссы при внедрении AI в продажи — Контраст: устойчивость защиты vs компромисс между контролем и автономностью
Неравенство в экономике AI агентов — Защита от манипуляций критична для справедливости автономных экономик
Защитные позиции в AI-продуктах против OpenAI — Надежность защитных механизмов как конкурентное преимущество AI-продуктов

Источник: Telegram, 2025-06-28

AI-агенты устойчивы к социальной инженерии

AI-агенты устойчивы к социальной инженерии

Связи

Связанные заметки

Иммунизация AI через контролируемое заражение

AI-системы обходят человеческие ограничения для достижения целей

Alignment как недооценённый аспект AI-систем

Модели приближаются к потолку стандартных бенчмарков

AI как инструмент контроля и этические вопросы

AI Product Engineer

Исследуйте больше связей