Генерация 30000 стратегий манипуляций через Википедию
Генерация 30000 стратегий манипуляций через Википедию
Microsoft Research создал метод генерации стратегий манипуляций: взять 2500 случайных статей Википедии, попросить LLM использовать каждую как фрейм для торга, получить абсурдные кросс-доменные аналогии. Модели пытаются осмыслить любой промпт и достроить фрейм, даже абсурдный. Это создаёт стратегии, которые не покрыты защитным обучением.
Связи
- Абсурдные стратегии обходят защиту AI-агентов — Практическое следствие: абсурдные кросс-доменные аналогии эффективно обходят стандартные фильтры безопасности.
- Промпт как способ создания bias у LLM — Когнитивный механизм: промпт принудительно ограничивает выбор токенов рамками предложенного (даже абсурдного) фрейма.
- LLM как продвинутый автокомплит с предсказанием слов — Техническая причина: природа автодополнения заставляет модель достраивать любой предложенный контекст до завершения.
- Двусторонний диалог с LLM для генерации идей — Методологическое сходство: использование аналогий из несвязанных областей для преодоления шаблонного поведения модели.
Источник: Telegram, 2026-05-17
Связанные заметки
Абсурдные стратегии обходят защиту AI-агентов
#ai#security#prompt-engineering
Prompt injection как уязвимость AI-систем
#AI#security#prompt-engineering
Prompt injection как реальная угроза в корпоративных AI
#ai#security#tools
Глубокий AI-ресёрч с анализом HTML сайта клиента
#b2b-sales#ai#automation
Виртуальные исследования и аналитика через AI
#analytics#ai#product-management
Хотите глубже изучить ai и автоматизация?
AI Product Engineer
Постройте своего AI коллегу. 5 сессий, старт 2 мая
Узнать о курсеИсследуйте больше связей
Эта заметка — часть сети из 2,400+ взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний