Комплексные задачи компьютерного зрения через естественный язык
Комплексные задачи компьютерного зрения через естественный язык
Агентные системы для компьютерного зрения могут решать сложные композитные задачи по одному текстовому промпту. Пример: обнаружение акул и досок для сёрфинга в видео, отрисовка линий между ними, расчёт расстояния с учётом масштаба, условная логика (красная линия при расстоянии < 10 метров), сэмплирование видео и сохранение результата. Важно, что весь процесс остаётся прозрачным — код и инструкции доступны для проверки и редактирования.
Связи
- Локальная автоматизация через компьютерное зрение — Оба о применении компьютерного зрения для практических задач с доступной инфраструктурой
- Атака неопределённости как признак опытности — Прозрачность кода позволяет атаковать неопределённость через проверку и редактирование логики
- Обратимые и необратимые решения требуют разного подхода — Прозрачность и редактируемость кода делает решения агентной системы обратимыми
Источник: Telegram, 2024-06-14
Связанные заметки
ChatGPT как инструмент быстрого прототипирования кода
#AI#automation#programming
AI-симуляция пользователей для user research
#AI#product-management#tools
NotebookLM генерирует видео-обзоры с презентациями
#AI#tools#learning
ChatGPT как помощник в JTBD-исследованиях
#AI#user-research#jobs-to-be-done
LLM для утилитарной классификации коммуникаций
#AI#automation#product-management
Исследуйте больше связей
Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний