RLHF создаёт предвзятость к безопасным ответам
RLHF создаёт предвзятость к безопасным ответам
В процессе RLHF (обучение с подкреплением от человека) люди-оценщики предпочитают более «скучные» и знакомые ответы. Это приводит к тому, что LLM модели систематически недооценивают вероятность оригинальных и неожиданных решений. Модель обучается избегать риска, что снижает креативность и разнообразие выходов.
Связи
- Человеческая невнимательность как системное ограничение — Обе заметки о фундаментальных ограничениях: люди предпочитают знакомое, избегая риска
- Возрастающая отдача и множественность исходов — RLHF создаёт положительную обратную связь, усиливающую предпочтение безопасных решений
- Три способа снизить потери мотивации в команде — Измеримость вклада влияет на поведение; оценщики RLHF тоже подвержены измеримости
Источник: Telegram, 2025-10-15
Связанные заметки
Ограничения LLM в оригинальных решениях
#AI#constraints#creativity
Галлюцинации AI как источник идей для продукта
#AI#product-management#creativity
Explore vs Exploit: AI и создание нового
#AI#creativity#innovation
Граундинг LLM через актуальные данные решает проблему устаревших рекомендаций
#AI#tools#data
Управление ограничениями при работе с AI-инструментами
#AI#constraints#tools
Исследуйте больше связей
Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний