Chain-of-Frames — визуальное рассуждение видео моделей

Источник

Chain-of-Frames — визуальное рассуждение видео моделей

Видео модели начали демонстрировать способность к «визуальному рассуждению» через Chain-of-Frames — аналог Chain-of-Thought для визуальных данных. Генерируя кадр за кадром, модель решает задачи (распознавание границ объектов, судоку, лабиринты), которые не были заложены в неё при обучении. Это emergent behaviour — способности возникают из масштабирования, а не из специального обучения.

Связи

  • 20251015_0057 Промптинг видео моделей требует визуального входа — Описывает практическое применение Chain-of-Frames из исходной заметки
  • 20240115_2059 Проговаривание структуры как триггер мышления — Аналогичный механизм: структура рассуждения помогает генерировать содержание
  • 20190321_0376 Принцип новизны — рекомбинация старого в новых условиях — Chain-of-Frames — адаптация Chain-of-Thought для визуальной модальности
  • 20240114_2067 Thinking from first principles как выход из системы — Emergent behaviour решает задачи без заложенных паттернов, с нуля

Источник: Telegram, 2025-10-15

Связанные заметки

Исследуйте больше связей

Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.

Открыть граф знаний