Токенизация как причина слабости LLM в посимвольных задачах
Токенизация как причина слабости LLM в посимвольных задачах
LLM не обрабатывают текст на уровне отдельных букв — они работают с токенами (частями слов). Это объясняет, почему модели ошибаются в простых задачах типа «сколько букв R в слове strawberry» — они буквально не «видят» каждую букву отдельно. Архитектурное решение об использовании токенов создаёт системное ограничение для определённого класса задач.
Связи
- LLM работают как продвинутый автокомплит — Раскрывает архитектурную причину «незрячести» моделей через механизм предсказания следующего токена
- Токены как единица измерения контекстного окна — Описывает двойственную роль токенов: как единицу измерения контекста и причину искажения восприятия
- Стратегия использования нескольких AI для контроля качества — Предлагает компенсацию системных слабостей моделей через их комбинацию в рабочем процессе
- Автоматизация дата-анализа и переход в продукт — Очерчивает границы возможностей LLM, связывая посимвольные ошибки с трудностями в обобщении паттернов
Источник: Workshop transcript, 2025-10-01
Связанные заметки
Три физических ограничения роста AI
#ai#constraints#theory-of-constraints
Смещение узкого места от кодинга к продуктовой постановке
#theory-of-constraints#ai#product-management
Data loop как конкурентное преимущество в видео-генерации
#ai#data#constraints
Vendor lock-in через платформенную инфраструктуру
#ai#technology#decision-making
Человек как узкое место в эпоху AI-ускорения
#theory-of-constraints#ai#productivity
Подробный разбор
Законы системного мышления - подробный гайд с примерами →Хотите глубже изучить ai и автоматизация?
AI Product Engineer
Постройте своего AI коллегу. 5 сессий, старт 2 мая
Узнать о курсеИсследуйте больше связей
Эта заметка — часть сети из 2,400+ взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний