RLHF создаёт предвзятость к безопасным ответам

Источник

RLHF создаёт предвзятость к безопасным ответам

В процессе RLHF (обучение с подкреплением от человека) люди-оценщики предпочитают более «скучные» и знакомые ответы. Это приводит к тому, что LLM модели систематически недооценивают вероятность оригинальных и неожиданных решений. Модель обучается избегать риска, что снижает креативность и разнообразие выходов.

Связи


Источник: Telegram, 2025-10-15

Связанные заметки

Исследуйте больше связей

Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.

Открыть граф знаний