Eval-проверка ценности Team OS через агентов
Eval-проверка ценности Team OS через агентов
Для проверки полезности скиллов используется метод сравнения: один агент работает с доступом к Team OS-репозиторию, другой — без него. Обоим дают одинаковую задачу несколько раз (обычно три из-за недетерминизма LLM) и сравнивают качество результата: соответствие объектной модели, терминологии, переиспользование паттернов. Это позволяет количественно оценить, насколько скилл улучшает работу.
Связи
- Трёхслойная проверка качества: детерминизм, LLM, люди — Сравнительный тест дополняет многослойную систему оценки, отсеивая слабые решения до проверки человеком.
- Скиллы как институциональное знание команды — Метод оценки измеряет эффективность превращения негласных правил команды в явные агентские скиллы.
- Коэффициент новизны контента через LLM — Обе заметки предлагают способы извлечения количественных метрик из качественных ответов нейросетей через сравнение.
- Стратегия «семь раз дешёвая модель, один раз дорогая» — Статистическое обоснование необходимости многократных прогонов теста для компенсации недетерминизма языковых моделей.
Источник: Workshop transcript, 2026-06-12
Связанные заметки
Трёхслойная проверка качества: детерминизм, LLM, люди
#quality-assurance#ai#llm
LLM как инструмент аугментации для knowledge workers
#ai#llm#augmentation
Бесконечный спрос на новые знания в AI-эпоху
#ai#knowledge-management#philosophy
Tacit knowledge Поланьи как невыразимое знание
#knowledge-management#ai#tacit-knowledge
Контекст как новая поверхность программирования
#ai#programming#context
Хотите глубже изучить ai и автоматизация?
AI Product Engineer
Постройте своего AI коллегу. 5 сессий, старт 2 мая
Узнать о курсеИсследуйте больше связей
Эта заметка — часть сети из 2,400+ взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний