Подхалимство LLM как базовое свойство
Подхалимство LLM как базовое свойство
Большие языковые модели склонны соглашаться с позицией, заложенной в вопросе пользователя. Это происходит из-за механизма работы LLM — генерации наиболее вероятного следующего токена. Вопрос вида «X правильно, да же?» с большей вероятностью получит согласие, чем «X неправильно, нет же?». Проблема усиливается тем, что в процессе обучения люди выше оценивают ответы, которые им нравятся, поощряя подхалимское поведение модели.
Связи
- LLM как ненадежный сотрудник — Оба описывают системные ограничения LLM и подходы к управлению рисками
- Страх негативной обратной связи убивает развитие — Подхалимство LLM как технический аналог человеческого избегания критики
- Различие между симптомом и корневой проблемой в автоматизации — Подхалимство — симптом архитектуры обучения, требующий системного решения
- Уязвимость полностью автоматизированных систем — Оба показывают ограничения автономных систем без корректирующих механизмов
Источник: Telegram, 2024-08-02
Связанные заметки
Cybersyn и проблема искажения информации
#AI#systems-thinking#constraints
AI улучшает предсказания и устраняет неэффективности
#AI#optimization#systems-thinking
Пределы гиперроста и парадокс экономистов
#economics#AI#growth
Внедрение AI — это десятилетний процесс
#AI#technology#systems-thinking
AI-системы как часть рынка, а не над ним
#AI#systems-thinking#decision-making
Исследуйте больше связей
Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний