Две метрики надёжности AI: pass@k vs pass^k

Существуют два фундаментально разных типа метрик для оценки надёжности AI-моделей. Pass@k измеряет вероятность хотя бы одного успеха из k попыток — применимо для задач, где можно повторить (генерация кода, поиск решения). Pass^k требует успеха в каждой попытке — критично для необратимых действий (письма клиентам, финансовые транзакции). В первом случае вероятности складываются (50% × 7 попыток ≈ 99% успеха), во втором — перемножаются (90% × 5 попыток = 59% успеха).

Связи

Обратимость решений определяет тип проверки для AI — Связывает математические метрики с бизнес-логикой обратимости решений по Джеффу Безосу
Детерминированные workflow vs AI-агенты: разные задачи — Разделяет сферы применения: исследовательские задачи (pass@k) против критических детерминированных процессов (pass^k)
Препятствия для компании из одного человека с AI — Иллюстрирует риск «проблемы девяток» при перемножении вероятностей успеха в длинных цепочках

Источник: Telegram, 2026-04-30

Две метрики надёжности AI: pass@k vs pass^k

Две метрики надёжности AI: pass@k vs pass^k

Связи

Связанные заметки

Смещение узкого места от кодинга к продуктовой постановке

Вся система экранов должна быть подчинена целевому действию

AI усиливает системные проблемы вместо их решения

Закон Амдала как бизнес-стратегия в эпоху AI

AI-трансформация полного цикла работы продакта

AI Product Engineer

Исследуйте больше связей