Confidence level улучшает качество классификации LLM

Источник

Confidence level улучшает качество классификации LLM

Запрос confidence level в промпте к LLM — техника промпт-инжиниринга, при которой модель просят указать уровень собственной уверенности в ответе (обычно от 0 до 100 или low/medium/high). Эффект двойной: (1) сама точность классификации растёт — заставляя модель оценивать уверенность, вы заставляете её глубже анализировать задачу; (2) появляется сигнал для фильтрации, по которому можно отсекать низкокачественные ответы и направлять их на ручную проверку. Это частный случай метакогнитивного промпта — модель рассуждает о собственном рассуждении.

Данные и источники

Академическая рамка: Феномен относится к семейству метакогнитивных промптов и связан с двумя ключевыми работами:

  • Wei et al. (Google Research, 2022) — "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (NeurIPS 2022). Показали, что просьба "думать пошагово" повышает точность LLM на математических и логических задачах в среднем на 20-50%. Confidence-промпт — родственная техника: вместо пошагового рассуждения модель оценивает результат собственного рассуждения.
  • Tian, Mitchell et al. (Stanford NLP, 2023) — "Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback" (EMNLP 2023, arXiv 2305.14975). Эмпирически доказали, что у RLHF-моделей verbalized confidence коррелирует с фактической точностью лучше, чем internal logit-based confidence — то есть прямой вопрос работает лучше, чем извлечение вероятности из логитов.

Практическое применение:

  • Классификация с порогом доверия: просить модель вернуть JSON {"label": "...", "confidence": 0-100, "reasoning": "..."}. Ответы с confidence < 70 уходят в human-in-the-loop.
  • Снижение галлюцинаций: низкая уверенность — сигнал, что модель угадывает.
  • Экономия на дорогих моделях: confidence от дешёвой модели (Haiku, GPT-5-mini) определяет, нужно ли эскалировать к Opus / GPT-5.

Первоисточники:

Связи

Подробнее


Источник: Telegram, 2024-05-11

Связанные заметки

Хотите глубже изучить ai и автоматизация?

AI Product Engineer

Постройте своего AI коллегу. 5 сессий, старт 2 мая

Узнать о курсе

Исследуйте больше связей

Эта заметка — часть сети из 2,400+ взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.

Открыть граф знаний