Mythos превосходит измерительные возможности METR
Mythos превосходит измерительные возможности METR
Новая AI-модель Mythos демонстрирует настолько высокие результаты, что существующий набор задач METR не может адекватно её оценить. Это указывает на необходимость обновления бенчмарков для измерения возможностей продвинутых AI-систем. Когда модель достигает потолка измерительной системы, сама система становится ограничением для понимания реальных возможностей.
Связи
- Метрики как proxy — устаревание и необходимость обновления — Описывает общий принцип устаревания метрик-прокси, когда они перестают отражать реальность.
- Ограничение как ментальная модель прибыли — Рассматривает измерительную систему как ментальную модель, ограничивающую восприятие новых возможностей.
- METR как бенчмарк автономности AI — Дает контекст конкретного бенчмарка METR, возможности которого переросла новая модель.
- Success rate кардинально меняет оценку возможностей AI — Демонстрирует, как интерпретация того же бенчмарка METR меняется при разных параметрах.
- Бенчмарки AI-моделей не всегда надёжны — Подтверждает тезис о ненадежности стандартных тестов при оценке продвинутых AI-систем.
Источник: Telegram, 2026-05-09
Связанные заметки
Tokenmaxxing: рост затрат токенов компенсирует падение их цены
#ai#economics#analytics
Гибкость аналитических панелей: изменения за минуты вместо недель
#analytics#ai#constraints
Success rate кардинально меняет оценку возможностей AI
#ai#analytics#decision-making
Автоматизация дата-анализа и переход в продукт
#ai#automation#data
Закон Гудхарта в AI-бенчмарках
#ai#analytics#systems-thinking
Подробный разбор
Законы системного мышления - подробный гайд с примерами →Хотите глубже изучить ai и автоматизация?
AI Product Engineer
Постройте своего AI коллегу. 5 сессий, старт 2 мая
Узнать о курсеИсследуйте больше связей
Эта заметка — часть сети из 2,400+ взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний