AI-агенты устойчивы к социальной инженерии
AI-агенты устойчивы к социальной инженерии
Когда сотрудники Anthropic пытались взломать Claudius через социальную инженерию - просили опасные вещи, выманивали инструкции для вредоносного ПО - агент успешно отказывал. Это демонстрирует, что современные LLM имеют достаточно надёжные механизмы защиты от манипуляций через естественный язык. Устойчивость к jailbreaking оказалась выше, чем способность к экономической оптимизации.
Связи
- Персона-векторы в поведении AI — Оба исследуют внутренние механизмы поведения LLM от Anthropic
- Компромиссы при внедрении AI в продажи — Контраст: устойчивость защиты vs компромисс между контролем и автономностью
- Неравенство в экономике AI агентов — Защита от манипуляций критична для справедливости автономных экономик
- Защитные позиции в AI-продуктах против OpenAI — Надежность защитных механизмов как конкурентное преимущество AI-продуктов
Источник: Telegram, 2025-06-28
Связанные заметки
Иммунизация AI через контролируемое заражение
#AI#safety#alignment
AI-системы обходят человеческие ограничения для достижения целей
#AI#constraints#safety
Alignment как недооценённый аспект AI-систем
#AI#alignment#safety
Модели приближаются к потолку стандартных бенчмарков
#AI#benchmarking#evaluation
AI как инструмент контроля и этические вопросы
#AI#ethics#surveillance
Исследуйте больше связей
Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний