Генерация 30000 стратегий манипуляций через Википедию

Microsoft Research создал метод генерации стратегий манипуляций: взять 2500 случайных статей Википедии, попросить LLM использовать каждую как фрейм для торга, получить абсурдные кросс-доменные аналогии. Модели пытаются осмыслить любой промпт и достроить фрейм, даже абсурдный. Это создаёт стратегии, которые не покрыты защитным обучением.

Связи

Абсурдные стратегии обходят защиту AI-агентов — Практическое следствие: абсурдные кросс-доменные аналогии эффективно обходят стандартные фильтры безопасности.
Промпт как способ создания bias у LLM — Когнитивный механизм: промпт принудительно ограничивает выбор токенов рамками предложенного (даже абсурдного) фрейма.
LLM как продвинутый автокомплит с предсказанием слов — Техническая причина: природа автодополнения заставляет модель достраивать любой предложенный контекст до завершения.
Двусторонний диалог с LLM для генерации идей — Методологическое сходство: использование аналогий из несвязанных областей для преодоления шаблонного поведения модели.

Источник: Telegram, 2026-05-17

Генерация 30000 стратегий манипуляций через Википедию

Генерация 30000 стратегий манипуляций через Википедию

Связи

Связанные заметки

Абсурдные стратегии обходят защиту AI-агентов

Prompt injection как уязвимость AI-систем

Prompt injection как реальная угроза в корпоративных AI

Глубокий AI-ресёрч с анализом HTML сайта клиента

Виртуальные исследования и аналитика через AI

AI Product Engineer

Исследуйте больше связей