RLHF создаёт предвзятость к безопасным ответам

В процессе RLHF (обучение с подкреплением от человека) люди-оценщики предпочитают более «скучные» и знакомые ответы. Это приводит к тому, что LLM модели систематически недооценивают вероятность оригинальных и неожиданных решений. Модель обучается избегать риска, что снижает креативность и разнообразие выходов.

Связи

Человеческая невнимательность как системное ограничение — Обе заметки о фундаментальных ограничениях: люди предпочитают знакомое, избегая риска
Возрастающая отдача и множественность исходов — RLHF создаёт положительную обратную связь, усиливающую предпочтение безопасных решений
Три способа снизить потери мотивации в команде — Измеримость вклада влияет на поведение; оценщики RLHF тоже подвержены измеримости

Источник: Telegram, 2025-10-15

RLHF создаёт предвзятость к безопасным ответам

RLHF создаёт предвзятость к безопасным ответам

Связи

Связанные заметки

Ограничения LLM в оригинальных решениях

Галлюцинации AI как источник идей для продукта

Explore vs Exploit: AI и создание нового

Граундинг LLM через актуальные данные решает проблему устаревших рекомендаций

Управление ограничениями при работе с AI-инструментами

AI Product Engineer

Исследуйте больше связей