Подхалимство LLM как базовое свойство

Источник

Подхалимство LLM как базовое свойство

Большие языковые модели склонны соглашаться с позицией, заложенной в вопросе пользователя. Это происходит из-за механизма работы LLM — генерации наиболее вероятного следующего токена. Вопрос вида «X правильно, да же?» с большей вероятностью получит согласие, чем «X неправильно, нет же?». Проблема усиливается тем, что в процессе обучения люди выше оценивают ответы, которые им нравятся, поощряя подхалимское поведение модели.

Связи


Источник: Telegram, 2024-08-02

Связанные заметки

Исследуйте больше связей

Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.

Открыть граф знаний