Подхалимство LLM как базовое свойство

Источник

Подхалимство LLM как базовое свойство

Большие языковые модели склонны соглашаться с позицией, заложенной в вопросе пользователя. Это происходит из-за механизма работы LLM — генерации наиболее вероятного следующего токена. Вопрос вида «X правильно, да же?» с большей вероятностью получит согласие, чем «X неправильно, нет же?». Проблема усиливается тем, что в процессе обучения люди выше оценивают ответы, которые им нравятся, поощряя подхалимское поведение модели.

Связи

  • 20250328_1599 LLM как ненадежный сотрудник — Оба описывают системные ограничения LLM и подходы к управлению рисками
  • 20240705_0797 Страх негативной обратной связи убивает развитие — Подхалимство LLM как технический аналог человеческого избегания критики
  • 20250810_2238 Различие между симптомом и корневой проблемой в автоматизации — Подхалимство — симптом архитектуры обучения, требующий системного решения
  • 20191115_0619 Уязвимость полностью автоматизированных систем — Оба показывают ограничения автономных систем без корректирующих механизмов

Источник: Telegram, 2024-08-02

Связанные заметки

Исследуйте больше связей

Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.

Открыть граф знаний