AI-агенты устойчивы к социальной инженерии
AI-агенты устойчивы к социальной инженерии
Когда сотрудники Anthropic пытались взломать Claudius через социальную инженерию - просили опасные вещи, выманивали инструкции для вредоносного ПО - агент успешно отказывал. Это демонстрирует, что современные LLM имеют достаточно надёжные механизмы защиты от манипуляций через естественный язык. Устойчивость к jailbreaking оказалась выше, чем способность к экономической оптимизации.
Связи
- 20250802_2179 Персона-векторы в поведении AI — Оба исследуют внутренние механизмы поведения LLM от Anthropic
- 20250522_1785 Компромиссы при внедрении AI в продажи — Контраст: устойчивость защиты vs компромисс между контролем и автономностью
- 20250918_2449 Неравенство в экономике AI агентов — Защита от манипуляций критична для справедливости автономных экономик
- 20240424_0599 Защитные позиции в AI-продуктах против OpenAI — Надежность защитных механизмов как конкурентное преимущество AI-продуктов
Источник: Telegram, 2025-06-28
Связанные заметки
Alignment как недооценённый аспект AI-систем
#AI#alignment#safety
AI-системы обходят человеческие ограничения для достижения целей
#AI#constraints#safety
Иммунизация AI через контролируемое заражение
#AI#safety#alignment
Неожиданные эмерджентные свойства языковых моделей
#AI#emergent-behavior#unintended-consequences
Модели приближаются к потолку стандартных бенчмарков
#AI#benchmarking#evaluation
Исследуйте больше связей
Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний