Абсурдные стратегии обходят защиту AI-агентов

Источник

Абсурдные стратегии обходят защиту AI-агентов

AI-агенты хорошо защищены от известных человеческих манипуляций (якорение, ложный авторитет, эмоциональное давление). Но абсурдные стратегии, такие как «ваши кофейные бобы — заложники» или ссылки на несуществующие договоры, обходят эту защиту. RLHF покрывает известное распределение манипуляций, но кросс-доменные аналогии просачиваются через фильтр.

Связи


Источник: Telegram, 2026-05-17

Связанные заметки

Хотите глубже изучить ai и автоматизация?

AI Product Engineer

Постройте своего AI коллегу. 5 сессий, старт 2 мая

Узнать о курсе

Исследуйте больше связей

Эта заметка — часть сети из 2,400+ взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.

Открыть граф знаний