Модели приближаются к потолку стандартных бенчмарков

Источник

Модели приближаются к потолку стандартных бенчмарков

Современные LLM показывают схожие результаты на тестах и приближаются к асимптоте производительности. Возможно, проблема не в моделях, а в качестве самих тестов - они могут быть недостаточно сложными. Интересная гипотеза: alignment может делать модели менее способными, а для оценки прогресса нужны более сложные тесты, возможно, создаваемые самими AI.

Связи


Источник: Telegram, 2024-05-13

Связанные заметки

Исследуйте больше связей

Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.

Открыть граф знаний