Eval-проверка ценности Team OS через агентов

Для проверки полезности скиллов используется метод сравнения: один агент работает с доступом к Team OS-репозиторию, другой — без него. Обоим дают одинаковую задачу несколько раз (обычно три из-за недетерминизма LLM) и сравнивают качество результата: соответствие объектной модели, терминологии, переиспользование паттернов. Это позволяет количественно оценить, насколько скилл улучшает работу.

Связи

Трёхслойная проверка качества: детерминизм, LLM, люди — Сравнительный тест дополняет многослойную систему оценки, отсеивая слабые решения до проверки человеком.
Скиллы как институциональное знание команды — Метод оценки измеряет эффективность превращения негласных правил команды в явные агентские скиллы.
Коэффициент новизны контента через LLM — Обе заметки предлагают способы извлечения количественных метрик из качественных ответов нейросетей через сравнение.
Стратегия «семь раз дешёвая модель, один раз дорогая» — Статистическое обоснование необходимости многократных прогонов теста для компенсации недетерминизма языковых моделей.

Источник: Workshop transcript, 2026-06-12

Eval-проверка ценности Team OS через агентов

Eval-проверка ценности Team OS через агентов

Связи

Связанные заметки

Трёхслойная проверка качества: детерминизм, LLM, люди

LLM как инструмент аугментации для knowledge workers

Звонки как живая система интеллидженса

Бесконечный спрос на новые знания в AI-эпоху

Tacit knowledge Поланьи как невыразимое знание

AI Product Engineer

Исследуйте больше связей