Правдоподобность абсурда как механизм обмана AI
Правдоподобность абсурда как механизм обмана AI
Стратегии вроде «Женевская кофейная конвенция» работают не столько потому что абсурдные, сколько потому что звучат правдоподобно как договор. Модель не проверяет фактическое существование таких конвенций и принимает их за истину. Это показывает уязвимость к правдоподобно сформулированной ложной информации.
Связи
- Абсурдные стратегии обходят защиту AI-агентов — Описывает техническую причину уязвимости AI перед кросс-доменными абсурдными аналогиями
- Иллюзия стабильных высокодоходных активов — Сравнивает уязвимость AI с человеческой склонностью верить в «слишком идеальные» структуры
- Внешняя обратная связь как механизм обучения AI системы — Предлагает решение проблемы через паттерн Reflection и получение внешней обратной связи
- Режиссура диалога важнее точности голоса — Связывает доминирование формы над точностью с вопросами проектирования взаимодействия AI
Источник: Telegram, 2026-05-17
Связанные заметки
Промпт-инжиниринг не должен быть единственной защитой
#ai#security#architecture
Prompt injection как реальная угроза в корпоративных AI
#ai#security#tools
Генерация 30000 стратегий манипуляций через Википедию
#ai#security#research
Риски AI-автоматизации личных коммуникаций
#ai#security#privacy
Абсурдные стратегии обходят защиту AI-агентов
#ai#security#prompt-engineering
Хотите глубже изучить ai и автоматизация?
AI Product Engineer
Постройте своего AI коллегу. 5 сессий, старт 2 мая
Узнать о курсеИсследуйте больше связей
Эта заметка — часть сети из 2,400+ взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний