Confidence level в LLM-классификации: как улучшить точность

Confidence level улучшает качество классификации LLM

Запрос confidence level в промпте к LLM — техника промпт-инжиниринга, при которой модель просят указать уровень собственной уверенности в ответе (обычно от 0 до 100 или low/medium/high). Эффект двойной: (1) сама точность классификации растёт — заставляя модель оценивать уверенность, вы заставляете её глубже анализировать задачу; (2) появляется сигнал для фильтрации, по которому можно отсекать низкокачественные ответы и направлять их на ручную проверку. Это частный случай метакогнитивного промпта — модель рассуждает о собственном рассуждении.

Данные и источники

Академическая рамка: Феномен относится к семейству метакогнитивных промптов и связан с двумя ключевыми работами:

Wei et al. (Google Research, 2022) — "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (NeurIPS 2022). Показали, что просьба "думать пошагово" повышает точность LLM на математических и логических задачах в среднем на 20-50%. Confidence-промпт — родственная техника: вместо пошагового рассуждения модель оценивает результат собственного рассуждения.
Tian, Mitchell et al. (Stanford NLP, 2023) — "Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback" (EMNLP 2023, arXiv 2305.14975). Эмпирически доказали, что у RLHF-моделей verbalized confidence коррелирует с фактической точностью лучше, чем internal logit-based confidence — то есть прямой вопрос работает лучше, чем извлечение вероятности из логитов.

Практическое применение:

Классификация с порогом доверия: просить модель вернуть JSON {"label": "...", "confidence": 0-100, "reasoning": "..."}. Ответы с confidence < 70 уходят в human-in-the-loop.
Снижение галлюцинаций: низкая уверенность — сигнал, что модель угадывает.
Экономия на дорогих моделях: confidence от дешёвой модели (Haiku, GPT-5-mini) определяет, нужно ли эскалировать к Opus / GPT-5.

Первоисточники:

Связи

Зрелость в проработке решений — Оба показывают, как дополнительный уровень рефлексии улучшает качество итогового результата
Еженедельная рефлексия через призму неопределенности — Метакогнитивный анализ собственных действий для повышения качества принятия решений
Хакатоны как тренировка приоритизации рисков — Структурированное ограничение заставляет глубже анализировать и фокусироваться на главном
Действие разворачивает негативную петлю — Промежуточный шаг создает обратную связь, улучшающую последующие действия системы

Подробнее

LLM для разработчиков: пиллар-гайд — практические техники работы с LLM API, включая промпт-инжиниринг, context engineering и тестирование AI-продуктов.

Источник: Telegram, 2024-05-11

Confidence level улучшает качество классификации LLM

Confidence level улучшает качество классификации LLM

Данные и источники

Связи

Подробнее

Связанные заметки

Деградация качества Claude Code при росте нагрузки

AI приближается к экспертному уровню в знаниевой работе

Управление личностью AI через векторы

Prompt injection как уязвимость AI-систем

Промпт как способ создания bias у LLM

AI Product Engineer

Исследуйте больше связей