Транскрипт
Насколько новая парадигма программирования влияет на то, что нам надо по-новому тестировать продукт. Я стараюсь идти от end-to-end. Сначала мы хотим определить бизнес-outcome — какой бизнес-ценности мы хотим добиться в результате работы нашего LLM-продукта.
Проблемы тестирования AI систем: probabilistic outputs, широкий input space, субъективная оценка качества, emergent behaviors в мультиагентных системах. При перемножении вероятностей accuracy быстро падает.
Три метода оценки: Human Eval (золотой стандарт, но дорого — доллары за тест), Automated Eval (дешево, но без семантического понимания), LLM-as-a-Judge (семантическое понимание, дороже автоматизированного).
Рекомендуемый подход: максимально покрыть Automated тестами (~60%), LLM-as-a-Judge (~30-40%), Human Eval для сэмплов (~5-10%). Component vs End-to-End тестирование — начинать с end-to-end, потом drill-down в компоненты.
Для AI Product Manager: classification correctness (автоматизированный тест), дедупликация багов (LLM-as-a-Judge для семантического поиска), quality of feature proposal (Human Eval, субъективная оценка).
Очень важный point — встраивание eval в production систему и в процесс разработки (CI/CD). Model drift случается — провайдеры могут подкрутить модель, нужен регулярный мониторинг.