Chain-of-Frames — визуальное рассуждение видео моделей

Источник

Chain-of-Frames — визуальное рассуждение видео моделей

Видео модели начали демонстрировать способность к «визуальному рассуждению» через Chain-of-Frames — аналог Chain-of-Thought для визуальных данных. Генерируя кадр за кадром, модель решает задачи (распознавание границ объектов, судоку, лабиринты), которые не были заложены в неё при обучении. Это emergent behaviour — способности возникают из масштабирования, а не из специального обучения.

Связи


Источник: Telegram, 2025-10-15

Связанные заметки

Исследуйте больше связей

Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.

Открыть граф знаний