Две метрики надёжности AI: pass@k vs pass^k
Две метрики надёжности AI: pass@k vs pass^k
Существуют два фундаментально разных типа метрик для оценки надёжности AI-моделей. Pass@k измеряет вероятность хотя бы одного успеха из k попыток — применимо для задач, где можно повторить (генерация кода, поиск решения). Pass^k требует успеха в каждой попытке — критично для необратимых действий (письма клиентам, финансовые транзакции). В первом случае вероятности складываются (50% × 7 попыток ≈ 99% успеха), во втором — перемножаются (90% × 5 попыток = 59% успеха).
Связи
- Обратимость решений определяет тип проверки для AI — Связывает математические метрики с бизнес-логикой обратимости решений по Джеффу Безосу
- Детерминированные workflow vs AI-агенты: разные задачи — Разделяет сферы применения: исследовательские задачи (pass@k) против критических детерминированных процессов (pass^k)
- Препятствия для компании из одного человека с AI — Иллюстрирует риск «проблемы девяток» при перемножении вероятностей успеха в длинных цепочках
Источник: Telegram, 2026-04-30
Связанные заметки
Смещение узкого места от кодинга к продуктовой постановке
#theory-of-constraints#ai#product-management
Вся система экранов должна быть подчинена целевому действию
#product-management#theory-of-constraints#systems-thinking
AI усиливает системные проблемы вместо их решения
#systems-thinking#ai#theory-of-constraints
AI-трансформация полного цикла работы продакта
#ai#product-management#automation
Усиливающие петли создают экспоненциальный рост AI
#ai#systems-thinking#growth
Подробный разбор
Законы системного мышления - подробный гайд с примерами →Хотите глубже изучить ai и автоматизация?
AI Product Engineer
Постройте своего AI коллегу. 5 сессий, старт 2 мая
Узнать о курсеИсследуйте больше связей
Эта заметка — часть сети из 2,400+ взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний