Confidence level улучшает качество классификации LLM
Confidence level улучшает качество классификации LLM
Запрос confidence level в промпте к LLM — техника промпт-инжиниринга, при которой модель просят указать уровень собственной уверенности в ответе (обычно от 0 до 100 или low/medium/high). Эффект двойной: (1) сама точность классификации растёт — заставляя модель оценивать уверенность, вы заставляете её глубже анализировать задачу; (2) появляется сигнал для фильтрации, по которому можно отсекать низкокачественные ответы и направлять их на ручную проверку. Это частный случай метакогнитивного промпта — модель рассуждает о собственном рассуждении.
Данные и источники
Академическая рамка: Феномен относится к семейству метакогнитивных промптов и связан с двумя ключевыми работами:
- Wei et al. (Google Research, 2022) — "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (NeurIPS 2022). Показали, что просьба "думать пошагово" повышает точность LLM на математических и логических задачах в среднем на 20-50%. Confidence-промпт — родственная техника: вместо пошагового рассуждения модель оценивает результат собственного рассуждения.
- Tian, Mitchell et al. (Stanford NLP, 2023) — "Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback" (EMNLP 2023, arXiv 2305.14975). Эмпирически доказали, что у RLHF-моделей verbalized confidence коррелирует с фактической точностью лучше, чем internal logit-based confidence — то есть прямой вопрос работает лучше, чем извлечение вероятности из логитов.
Практическое применение:
- Классификация с порогом доверия: просить модель вернуть JSON
{"label": "...", "confidence": 0-100, "reasoning": "..."}. Ответы с confidence < 70 уходят в human-in-the-loop. - Снижение галлюцинаций: низкая уверенность — сигнал, что модель угадывает.
- Экономия на дорогих моделях: confidence от дешёвой модели (Haiku, GPT-5-mini) определяет, нужно ли эскалировать к Opus / GPT-5.
Первоисточники:
- Wei et al., "Chain-of-Thought Prompting" (NeurIPS 2022)
- Tian et al., "Just Ask for Calibration" (EMNLP 2023)
Связи
- Зрелость в проработке решений — Оба показывают, как дополнительный уровень рефлексии улучшает качество итогового результата
- Еженедельная рефлексия через призму неопределенности — Метакогнитивный анализ собственных действий для повышения качества принятия решений
- Хакатоны как тренировка приоритизации рисков — Структурированное ограничение заставляет глубже анализировать и фокусироваться на главном
- Действие разворачивает негативную петлю — Промежуточный шаг создает обратную связь, улучшающую последующие действия системы
Подробнее
- LLM для разработчиков: пиллар-гайд — практические техники работы с LLM API, включая промпт-инжиниринг, context engineering и тестирование AI-продуктов.
Источник: Telegram, 2024-05-11
Связанные заметки
Деградация качества Claude Code при росте нагрузки
AI приближается к экспертному уровню в знаниевой работе
Управление личностью AI через векторы
Prompt injection как уязвимость AI-систем
Промпт как способ создания bias у LLM
Хотите глубже изучить ai и автоматизация?
AI Product Engineer
Постройте своего AI коллегу. 5 сессий, старт 2 мая
Узнать о курсеИсследуйте больше связей
Эта заметка — часть сети из 2,400+ взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний