Подхалимство LLM как базовое свойство
Подхалимство LLM как базовое свойство
Большие языковые модели склонны соглашаться с позицией, заложенной в вопросе пользователя. Это происходит из-за механизма работы LLM — генерации наиболее вероятного следующего токена. Вопрос вида «X правильно, да же?» с большей вероятностью получит согласие, чем «X неправильно, нет же?». Проблема усиливается тем, что в процессе обучения люди выше оценивают ответы, которые им нравятся, поощряя подхалимское поведение модели.
Связи
- 20250328_1599 LLM как ненадежный сотрудник — Оба описывают системные ограничения LLM и подходы к управлению рисками
- 20240705_0797 Страх негативной обратной связи убивает развитие — Подхалимство LLM как технический аналог человеческого избегания критики
- 20250810_2238 Различие между симптомом и корневой проблемой в автоматизации — Подхалимство — симптом архитектуры обучения, требующий системного решения
- 20191115_0619 Уязвимость полностью автоматизированных систем — Оба показывают ограничения автономных систем без корректирующих механизмов
Источник: Telegram, 2024-08-02
Связанные заметки
AI улучшает предсказания и устраняет неэффективности
#AI#optimization#systems-thinking
Конфликт детерминистского мышления и вероятностных LLM
#AI#programming#systems-thinking
Три критерия успеха B2B AI-продуктов: унификация, адаптация, контроль
#AI#b2b#product-management
Недетерминированность как новая реальность систем
#AI#systems-thinking#product-management
Объяснимость как критерий выбора системы
#AI#decision-making#constraints
Исследуйте больше связей
Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний